Azure OpenAI + Cognitive Search GPT处理自有数据（二）|电子爱好者

admin管理员组
文章数量:1562421

上篇文章介绍了整体的处理思路，Azure OpenAI Studio Chat里有处理自有数据的功能，核心思路是：

1. Cognitive Search会对文件（PDF，DOCX，PPTX，TXT，MD格式文件）内容进行识别、分段（Chunk）并存储在索引里

2. OpenAI通过Emedding模型将分段后的内容向量化后更新到索引里

3. 后面聊天的部分调用OpenAI的Embedding模型让OpenAI基于从Congnitive Search的索引获取回的向量内容进行对话

当让也可以省掉2、3步，经过测试回答的质量会下降很多，机器人回答的感觉会非常明显。

后续进一步的测试研究发现了这套自有处理数据模式的限制点和一些潜在的解决方案：

1. 上述处理逻辑一次只能处理不超过16M的文件，后续的处理目前只能通过代码去更新Cognitive Search的索引（虽然可以通过索引器来定时更新，但索引器没法产生向量数据），过程中通过OpenAI Embedding模型获取向量数据后存储在索引里一个叫做contentVector的字段里。同时根据微软官方文章整个下来处理的文件大小不能超过1G，每一批不能超过16M

2. Cognitive Search能够处理PDF文件、PPTX文件、DOCX文件，不过证明了在处理包含在这些文件格式里的图片文件时是处理不了的，Cognitive Search无法识别图片文件。这时就需要通过OCR类的服务来讲图片里的内容识别出来后进行索引及向量化处理等

3. 微软提供的无论是Computer Vision还是AI Service里的OCR服务对图片像素的大小最高不到Document Intelligence服务的一半，因此一些长图用Document Intelligence服务的API来处理会更高，当然两边接口价格差别需要进行单独比较。

4. Document Intelligence服务来OCR识别图片最好用SDK，最开始用Rest API调用返回的JSON内容比较庞杂（有按手写识别的，有按行识别的，有按字识别的），自己处理起来比较啰嗦，用SDK有直接的脚本（Use Document Intelligence client library SDKs or REST API - Azure AI services | Microsoft Learn）可以参考，下面是我用到的识别图片的脚本：

import requests
from azure.ai.formrecognizer import DocumentAnalysisClient
from azure.core.credentials import AzureKeyCredential

# 认知服务的终结点和Key
endpoint = '*****'
key = '*****'

# 处理格式的方法
def format_polygon(polygon):
    if not polygon:
        return "N/A"
    return ", ".join(["[{}, {}]".format(p.x, p.y) for p in polygon])

ef readimageviasdk(imageurl):
    document_analysis_client = DocumentAnalysisClient(
        endpoint=endpoint, credential=AzureKeyCredential(key)
    )
    poller = document_analysis_client.begin_analyze_document_from_url(
        "prebuilt-read", imageurl
    )
    result = poller.result()

    print("Document contains content: ", result.content)

    for idx, style in enumerate(result.styles):
        print(
            "Document contains {} content".format(
                "handwritten" if style.is_handwritten else "no handwritten"
            )
        )

    for page in result.pages:
        print("----Analyzing Read from page #{}----".format(page.page_number))
        print(
            "Page has width: {} and height: {}, measured with unit: {}".format(
                page.width, page.height, page.unit
            )
        )

        for line_idx, line in enumerate(page.lines):
            print(
                "...Line # {} has text content '{}' within bounding box '{}'".format(
                    line_idx,
                    line.content,
                    format_polygon(line.polygon),
                )
            )

        for word in page.words:
            print(
                "...Word '{}' has a confidence of {}".format(
                    word.content, word.confidence
                )
            )

    print("----------------------------------------")

if __name__ == '__main__':
    #print('hello world')
    imageurl = '****'
    data = readimageviasdk(imageurl)
    print(data)

本文标签：数据 openAI Azure Cognitive gpt

版权声明：本文标题：Azure OpenAI + Cognitive Search GPT处理自有数据（二）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1727469808a1116088.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Azure OpenAI + Cognitive Search GPT处理自有数据（二）

更多相关文章

UEFI + GPT双硬盘安装win10和Ubuntu16.04双系统

linux系统崩溃 数据,恢复崩溃计算机数据的五款最佳Linux发行版

数据分析面经整理（持续更新）

Redis笔记补充-热点数据、io多路复用、redis与mysql数据不一致问题

Cognitive Architectures for Language Agents

[Paper Reading]Towards a New Generation of Cognitive Diagnosis

SonarLint代码规范检查提示Cognitive Complexity of methods should not be too high

Cognitive Complexity of methods should not be too highRefactor this method to reduce its Cognitive

Introduction to Cognitive Computing with Microsoft Azure

Refactor this method to reduce its Cognitive Complexity from 65 to the 15 allowed. [+22 locations]

Summary of cognitive computing knowledge points

Best Readings in Cognitive Radio

Post-doc | Affective and Cognitive Neuroscience

Azure Cognitive Service 访问优化

MUSTer：Multi-Store Tracker:A Cognitive Psychology Inspired Approach to Object Tracking

【模糊认知图】RCGA-FCM进化算法学习模糊认知图 Genetic learning of fuzzy cognitive maps

Azure Cognitive Services 样本数据文件项目教程

认知心理学论文精选Cognitive Psychology

Interpretable Cognitive Diagnosis with Neural Network for Intelligent Educational Systems

Elasticsearch：在本地使用 Gemma LLM 对私人数据进行问答

发表评论

推荐文章

腾讯云 Ubuntu Desktop 22.04 桌面版

手机可以连校园网但是电脑连不上 [Win11解决办法]

电脑能登录微信，但不能上网

计算机硬盘好坏怎么区别吗,懂电脑的人是怎么选硬盘的？硬盘一定要分区吗？看完就知道了！...

360周鸿祎为什么说大模型已成茶叶蛋？

热门文章

QQ扫码登录实现与原理

使用windows自带远程桌面远程办公

win10 截图黑屏解决方法

发送带有附件的邮箱到腾讯企业邮箱

计算机无线网络服务禁用了怎么办,无线网络禁用启用无效怎么办_无线禁用后启用不了的解决方法...

常见搜索引擎蜘蛛大全

百度 android 市场,百度下线91和安卓市场渠道，第三方应用商店继续走向衰落

Ubuntu一直卡在登录界面的解决办法

手机浏览器打开百度网页

kali 物理机（虚拟机）安装中文输入法教程

最新文章

迅雷thunder:地址与普通url地址转换

破产姐妹第一季全集2 Broke Girls迅雷下载

python迅雷自动下载_Python3.x+迅雷x 自动下载高分电影的实现方法

python 使用迅雷下载

python下载电影_Python3.x+迅雷x 自动下载高分电影的实现方法

linux for 迅雷,关于迅雷for linux

收集的电影网站

如何用迅雷下载python_我是如何使用python控制迅雷自动下载电影的?

安装了360安全卫士和瑞星杀毒，看迅雷电影很卡，谁有知道的

chrome , firefox 在线看迅雷电影

变形金刚11280超清迅雷下载

黑镜第一至二季全集Black Mirror迅雷下载

漫威电影（复仇者联盟）系列观看顺序和资源下载地址

电影《浴火之路》百度下载云资源[MKV5.68GB]迅雷磁力完整版

javascript实现模仿迅雷电影评分

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

linux系统崩溃数据,恢复崩溃计算机数据的五款最佳Linux发行版

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载