Azure OpenAI + Cognitive Search GPT处理自有数据（三）|电子爱好者

admin管理员组
文章数量:1561805

打定思路后针对原始PDF文件进行了处理，完全转化成word文档格式，其中的格式为图片的表格以及说明等都进行了相应的文字转换，接下来我们进行了代码实现。实现思路主要有三种：

1. Playground里提示代码使用adapter方式允许在completion里指定Cognitive Search为datasource，不过这个思路还需要进一步完善，通过这个方案返回来的信息并没有被组装成具有自然语义的内容，进一步把这个信息和Promp再送给completion进行正常处理时遇到“The extensions chat completions operation must have at least one extension”错误，核心原因在于前面的adapter修改了completion的请求目标URL，后续如何进行进一步调整网上可找得到的代码不多，需要另行研究；

2. 通过Cognitive Search的SearchClient类来进行查询（一般建议Hybrid模式，Vector+关键字），查询回来的结果再和Prompt一起送给completion进行处理；

3. 通过langchain来进行处理，langchain支持的向量查询库很多，不一定要用Cognitive Search，关于这一块可以另行尝试。

本文主要提供第2种思路的代码：

import os  
import json  
import openai  
import streamlit as st
import requests
from dotenv import load_dotenv  
from tenacity import retry, wait_random_exponential, stop_after_attempt  
from azure.core.credentials import AzureKeyCredential  
from azure.search.documents import SearchClient  
from azure.search.documents.indexes import SearchIndexClient  
from azure.search.documents.models import Vector  
from azure.search.documents.indexes.models import (  
    SearchIndex,  
    SearchField,  
    SearchFieldDataType,  
    SimpleField,  
    SearchableField,  
    SearchIndex,  
    SemanticConfiguration,  
    PrioritizedFields,  
    SemanticField,  
    SearchField,  
    SemanticSettings,  
    VectorSearch,  
    HnswVectorSearchAlgorithmConfiguration,  
)  
# References: https://github/Azure/cognitive-search-vector-pr/blob/main/demo-python/code/azure-search-vector-python-sample.ipynb
# 初始化openai，其中通过Streamlit获取key的方式可以被任何方式替代
openai.api_key = st.secrets["OPENAI_API_KEY"]
openai.api_type = "azure"
openai.api_version = "2023-08-01-preview"
openai.api_base = "https://***.openai.azure/"
deployment_id = "gpt4model"

search_endpoint = "https://***.search.windows"
search_key = st.secrets["SEARCH_KEY"]
search_index_name = "***index01"

credential = AzureKeyCredential(search_key)
search_client = SearchClient(endpoint=search_endpoint, index_name=search_index_name, credential=credential)

def generate_embeddings(text):
    response = openai.Embedding.create(
        input=text, engine="embeddingmodel")
    embeddings = response['data'][0]['embedding']
    return embeddings

# Step 1: Query from Azure Cognitive Search
# Create query vector

prompt = "静脉留置针有什么特点？"
vector = Vector(value=generate_embeddings(prompt), k=3, fields="contentVector")

results = search_client.search(  
    search_text=prompt,
    top=3,
    vectors= [vector],
    select=["title", "content"],
)  
rawdata = ''

for result in results:  
    rawdata += f"Title: {result['title']}\n"
    rawdata += f"Score: {result['@search.score']}\n"
    rawdata += f"Content: {result['content']}\n"  

# Step 2: Query from OpenAI    
prompt += '###\n' + rawdata + '\n###\n'
completion = openai.ChatCompletion.create(
    engine="gpt4model",
    messages=[{"role": "user", "content": prompt}],
)
rawdata = json.dumps(completion, ensure_ascii=False)
print(rawdata)

这个思路往下如何进一步优化？下一篇文章继续。

本文标签：数据 openAI Azure Cognitive gpt

版权声明：本文标题：Azure OpenAI + Cognitive Search GPT处理自有数据（三）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1727469823a1116090.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Azure OpenAI + Cognitive Search GPT处理自有数据（三）

更多相关文章

无法复制：数据错误（循环冗余检查）的解决方法

UEFI + GPT双硬盘安装win10和Ubuntu16.04双系统

数据看板是什么，怎么做？

Cognitive Architectures for Language Agents

微软验证服务器,身份验证 - Azure Cognitive Services | Microsoft Docs

[Paper Reading]Towards a New Generation of Cognitive Diagnosis

DFCM(Deep Fuzzy Cognitive Map)综述

Prediction of Infant Cognitive Development with Cortical Surface-Based Multimodal Learning论文速读

开源项目Azure-Samplescognitive-services-speech-sdk指南

用Azure上Cognitive Service的Face API识别人脸

Post-doc | Affective and Cognitive Neuroscience

Azure Cognitive Service 访问优化

【HCI】Cognitive Theory 大脑分工（快慢+优缺点）

Cognitive Neuroscience (Chapter 1)

MUSTer：Multi-Store Tracker:A Cognitive Psychology Inspired Approach to Object Tracking

认知心理学论文精选Cognitive Psychology

《Cognitive Mapping and Planning for Visual Navigation》读书笔记

使用Azure Function + Cognitive Services 实现图片自动化审核

Azure OpenAI + Cognitive Search GPT处理自有数据（三）

微软发布Cognitive Toolkit 2.0 beta深度学习工具包！

发表评论

推荐文章

苹果笔记本的end键_苹果电脑键盘快捷键使用技巧

Financial Statement Analysis with Large Language Models论文精读

华硕电脑重装系统，进不去U盘启动页面

腾讯企业邮箱满了，如何清空邮箱？

安卓手机如何投屏到电脑--直播 反控 玩游戏

热门文章

苹果笔记本的end键_苹果电脑键盘快捷键使用技巧

A Semi-supervised Graph Attentive Network for Financial Fraud Detection 个人总结

搭建私有云桌面

华为桌面云FusionAccess解决方案

python编写windows桌面程序（小Demo）

计算机打表格图,怎么把电脑整个表格截屏，表格太长，还有部(怎么把excle表格截图)...

电脑主机不停重复启动怎么解决

win10运行安卓模拟器蓝屏解决方案

如何用五千块的电脑弹奏出价值十万钢琴的效果

Wpa_supplicant WiFi连接

最新文章

讯飞语音输入法解包即用，绿色便携免安装版

蜂巢输入法android,讯飞输入法Android新版 蜂巢输入模型智能进化

微信用讯飞输入法的语音输入，迅速输入文字

讯飞输入法体验总结

讯飞输入法使用评价

html语音输入功能讯飞,讯飞输入法中实现“语音输入”，手机代替麦克风

【科技速报】：讯飞输入法崩了，英伟达「市值超过」苹果，Intel 卖厂、马斯克花 650 亿元采购 30 万块 B200...

html调用讯飞语音文本朗读,(原创)讯飞输入法的妙用:语音翻译+智能OCR + 文本转语音播报...

讯飞输入法10周年：日语音交互次数超10亿

对讯飞输入法的评价

蜂巢输入法android,讯飞输入法“蜂巢II”输入模型内核提速便捷实用

蜂巢输入法android,讯飞输入法Android新版蜂巢输入模型

为什么很牛的讯飞输入法今天才火，还得靠罗永浩？

讯飞输入法第11次作答：效率升维、场景细分、个性满足

android5.1显示工具栏,讯飞输入法5.1.1805定制专属工具栏

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

安卓手机如何投屏到电脑--直播反控玩游戏

蜂巢输入法android,讯飞输入法Android新版蜂巢输入模型智能进化

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载