号称世界上第一个开源实时翻译的 App，微软开源GraphRAG：极大增强大模型问答、摘要、推理，以及开源基于ChatGPT的超级文本代码智能体（附代码地址）|电子爱好者

admin管理员组
文章数量:1529446

号称世界上第一个开源实时翻译的 App，微软开源GraphRAG：极大增强大模型问答、摘要、推理，以及开源基于ChatGPT的超级文本代码智能体（附代码地址）

在「端侧」上实现可离线的「实时同传」翻译，支持 29+ 语言的 RTranslator 开源一天飙升 1700 Star - 号称世界上第一个开源实时翻译的 App

Onnxruntime 端侧运行，Meta 开源的 SOTA NLLB 跑翻译，Whisper 244M 做 TTS/STT
3种模式解决快速、长对话、简单文本翻译

连接到拥有该应用程序的人，连接蓝牙耳机，将手机放入口袋中，然后您就可以像对方说您的语言一样进行对话。

对话模式
对话模式是RTranslator的主要功能。在此模式下，您可以与使用此应用程序的另一部手机连接。如果用户接受您的连接请求：

当您说话时，您的手机（或蓝牙耳机，如果已连接）将捕获音频。

捕获的音频将转换为文本并发送到对话者的手机上。

对话者的手机会将收到的文本翻译成他的语言。

对话者的手机会将翻译后的文本转换为音频，并从扬声器中再现它（或者通过对话者的蓝牙耳机，如果连接到他的手机）。

所有这一切都是双向的。

每个用户可以拥有多个已连接的电话，以便您可以翻译两个以上的人之间以及任意组合的对话。

对讲机模式
如果对话模式适用于与某人进行长时间对话，那么该模式则专为快速对话而设计，例如在街上询问信息或与店员交谈。

该模式只能翻译两个人之间的对话，不适用于蓝牙耳机，而且必须轮流说话。这不是真正的同声翻译，但它只能在一部手机上使用。

在此模式下，智能手机麦克风将同时以两种语言收听（可在对讲机模式的同一屏幕中选择）。

该应用程序将检测对话者使用哪种语言，将音频翻译成另一种语言，将文本转换为音频，然后从手机扬声器中再现。TTS 结束后，它将自动恢复收听。

文本翻译模式
这种模式只是一个经典的文本翻译器，但总是有用的。

一般的
RTranslator 使用 Meta 的 NLLB 进行翻译，使用 OpenAi 的 Whisper 进行语音识别，两者都是（几乎）开源且最先进的 AI，具有出色的质量并直接在手机上运行，确保绝对隐私，甚至可以在离线状态下使用 RTranslator。质量损失。

此外，RTranslator 甚至可以在后台运行、手机处于待机状态或使用其他应用程序时（仅当您使用对话或 WalkieTalkie 模式时）。然而，有些手机会限制后台的电量，因此在这种情况下，最好避免它并在屏幕打开的情况下保持应用程序打开。

项目链接
https://github/niedev/RTranslator

微软开源GraphRAG：极大增强大模型问答、摘要、推理

微软在官网开源了基于图的RAG（检索增强生成）——GraphRAG。

为了增强大模型的搜索、问答、摘要、推理等能力，RAG已经成为GPT-4、Qwen-2、文心一言、讯飞星火、Gemini等国内外知名大模型标配功能。

传统的RAG系统在处理外部数据源时，只是简单地将文档转换为文本，将其分割为片段，然后嵌入到向量空间中，使得相似的语义对应相近的位置。

但这种方法在处理需要全局理解的海量数据查询时存在局限，因为它过度依赖局部文本片段的检索，无法捕捉到整个数据集的全貌。

所以，微软在RAG基础之上通过“Graph”图的方式，例如，文本中的实体，人物、地点、概念等，构建了超大的知识图谱，帮助大模型更好地捕捉文本中的复杂联系和交互，来增强其生成、检索等能力。

开源地址：https://github/microsoft/graphrag?tab=readme-ov-file

Graph RAG架构简单介绍

Graph RAG的核心是通过两阶段构建基于图谱的文本索引：首先，从源文档中衍生出实体知识图谱；然后，针对所有紧密相关的实体群组预生成社区摘要。

所以，Graph RAG的第一步就是将源文档分割成较小的文本块，这些文本块随后被输入到大模型中以提取关键信息。

在这个过程中，大模型不仅要识别文本中的实体，还要识别实体之间的关系，包括它们之间的相互作用和联系，用来构建一个庞大的实体知识图谱，其中包含了数据集中所有重要实体和它们之间的关系。

简单来说，这个过程就像杀鸡一样，当一整只鸡（数据）拿上来后，我们就要把它分解成腿、翅膀、胸肉等更细小的组成部分，同时会关注这些部位之间的关系方便后续的处理。

接着，Graph RAG使用社区检测算法来识别图谱中的模块化社区。这些社区由相关的节点组成，它们之间的联系比与图中其他部分的联系更为紧密。通过这种方式，整个图谱被划分为更小、更易于管理的单元，每个单元都代表了数据集中的一个特定主题或概念。

在基于图的索引之上，Graph RAG进一步生成社区摘要。这些摘要是对社区内所有实体和关系的总结，它们提供了对数据集中特定部分的高层次理解。

然后要求大模型对每个答案进行打分，分数在0—100之间，得分过低的将被过滤掉，高分则留下。将剩余的中间答案按照得分高低排序，逐步添加至新的上下文窗口中，直至词数限制。

例如，当用户提问“如何进行有效减肥时？”，系统会利用与问题相关的社区摘要来生成部分答案。这些部分答案随后被汇总并精炼，以形成最终答案。

Graph RAG对大模型的好处

与传统RAG相比，Graph RAG的全局检索能力非常强，所以很擅长处理大规模数据集，以下是对大模型的主要帮助。

扩展上下文理解能力：通常大模型受限于其上下文窗口的大小，这限制了它们理解和生成基于长文本的能力。Graph RAG通过构建基于图的索引，将整个文本集合分解成更小、更易于管理的社区模块，从而扩展了模型的理解和生成能力。

增强全局查询：传统的RAG方法在处理全局数据的查询时表现不佳，因为依赖于局部文本片段的检索。Graph RAG通过生成社区摘要，使得模型能够从整个数据集中提取相关信息，生成更加全面和准确的答案。

提高摘要的质量和多样性：Graph RAG方法通过并行生成社区摘要，然后汇总这些摘要来生成最终答案，能帮助大模型从不同的角度和社区中提取信息，从而生成更丰富的摘要。

优化算力、资源利用率：在处理大规模文本数据集时，资源的有效利用至关重要。Graph RAG通过模块化处理，减少了对算力资源的需求。与传统的全文摘要方法相比，Graph RAG在生成高质量摘要的同时，显著降低了对token的需求。

提升信息检索和生成的协同：Graph RAG方法通过结合检索增强和生成任务，实现了两者之间的协同工作，提高了生成内容的准确性和相关性。

增强了对数据集结构的理解：通过构建知识图谱和社区结构，Graph RAG不仅帮助模型理解文本内容，还能理解数据集的内在结构。

提高对复杂问题的处理能力：在处理需要多步骤推理或多文档信息整合的复杂问题时，Graph RAG能够通过检索和摘要不同社区的信息，提升对问题更深层次的理解。尤其是在解读PDF、Word等文档时非常有用。

为了评估Graph RAG的性能，微软在一个100万tokens、超复杂结构的数据集上，包含娱乐、播客、商业、体育、技术、医疗等内容，进行了综合测试。

结果显示，全局检索方法在全面性和多样性测试上，超越了Naive RAG等方法。特别是，Graph RAG方法在播客转录和新闻文章数据集上都显示出了超高的水准，多样性也非常全面，是目前最佳的RAG方法之一。

同时Graph RAG对tokens的需求很低，也就是说可以帮助开发者节省大量成本。

微软开源基于ChatGPT的，超级文本代码智能体

随着ChatGPT等生成式AI产品的出现，大语言模型在应用、商业化落地等方面获得了巨大进展。但在处理数据分析时表现不佳，例如，像DataFrame这类复杂的数据格式很难直接用文本的方式表示出来，无法灵活地满足不同用户需求。

为了解决这些难题，微软的研究人员提出了“Code-First”的技术概念，并基于ChatGPT（GPT-3.5以上版本，作者推荐使用GPT-4）开发了超级代码智能体——TaskWeaver。

TaskWeaver可以将用户的自然语言文本请求转化为Python代码在后台运行，并且这些代码可以任意调用功能插件,完成数据读取、分析、模型训练等专业任务。

开源地址：https://github/microsoft/TaskWeaver

论文地址：https://arxiv/abs/2311.17541

简单来说，通过TaskWeaver一些没有编程能力的人员，也能执行专业的代码任务。例如，我们想做一个数据分析的项目，数据库里存放了一大堆时间序列数据，需要写程序从数据库里把数据取出来,并检查里面有没有异常值。

但是根本不会编程，借助TaskWeaver框架只需要向其用文本说明你的意图，智能体就能帮你完成那些繁琐的代码，并生成可视化图表。

规划器

首先,用户提出数据分析等需求,会被送到TaskWeaver的规划器模块进行拆解。规划器就像一位总指挥,主要为整个任务制定执行计划。

会考量需求的复杂程度,把任务分解为简单直接的子步骤。比如从数据库取数据、画出结果图表等，还会分析步骤间的逻辑关联,标注出执行顺序。主要流程如下：

1）接收用户的文本查询,使用自身知识或增强示例生成初始执行计划,标明必要的子任务步骤。

2）优化初始计划,合并彼此依赖的子任务,减少调用次数,提高效率。最终形成执行计划。

3）遍历计划中的各个子任务,向代码生成器发送询问,获取执行代码。

4）观察代码执行结果,如有需要修改原计划,要求用户提供更多信息等。

5）重复第三和第四步,直到完成全部子任务。最后用自然语言响应用户的查询。

代码生成器

当规划完成后，计划中每个子步骤就会逐一送到代码生成器这里,由其汇报对应执行代码。代码生成器就像一位万能的“程序员”。

根据规划器下达的指令,自动设计出整个代码的执行逻辑并进行编写代码。为了减少重复轮子,还内置了插件、示例、代码校验、自动错误纠正等模块。

同时封装了数据读取、模型训练等常见功能,生成代码时就可以直接调用。

代码执行器

代码编写完成后,会将信息传输到代码执行器模块中。代码执行器主要负责加载代码并执行。插件在这一步也会发挥作用,使外部功能得以连接。执行器会详细记录这个过程的状态,例如变量值、编码日志、中间结果等,以方便进行多轮深度交互。

如果代码在执行过程中出现失败,会将错误信息报告给代码生成器进行自动修正,然后再次自动生成正确的代码。

在代码执行器执行完一轮任务后，会将结果发送给规划器,完成一次子步骤。再由规划器决定触发下一子步骤的执行任务,并重复以上流程。

本文标签：开源代码微软实时模型

版权声明：本文标题：号称世界上第一个开源实时翻译的 App，微软开源GraphRAG：极大增强大模型问答、摘要、推理，以及开源基于ChatGPT的超级文本代码智能体（附代码地址）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1726697430a1081231.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

号称世界上第一个开源实时翻译的 App，微软开源GraphRAG：极大增强大模型问答、摘要、推理，以及开源基于ChatGPT的超级文本代码智能体（附代码地址）

更多相关文章

开源项目教程：Kaggle-Competition-Favorita

探索Open-Source-College-Students-Computer-Network-Application-Competition-for-Ruijie：一款助力大学生网络应用创新的开源项目

大比拼：讯飞星火大模型将超越ChatGPT？

用免费的Cloudflare Workers搭建一个telegram的chatgpt机器人并接入oneapi支持各大ai模型

中科院发布多模态 ChatGPT，图片、语言、视频都可以 Chat ？中文多模态大模型力作...

【创意坊】未来之巅：国内ChatGPT对标，双千亿级大模型引爆科幻革命！

# ChatGpt: 从语言模型到智能语音助手的进化之路

关于安卓以及微软用户chatgpt上一篇文章如今第五点无法正常进入更新解决方法以及附加本地部署

“本草”大模型开源，ChatGPT时代，连AI私人医生都出现了？

复旦团队发布类ChatGPT模型MOSS，服务崩掉后并给出回复

最新ChatGPT4.0，GPTs，AI换脸，文档分析，Suno-AI音乐生成大模型

yalmip example-unit commitment代码注释（1）

Mina中的基于DLG的Plonk polynomial commitment scheme代码解析

VC++调用libcurl开源库实现发送邮件的功能（附源码）

【Python】发送邮件，超详细看图敲码（附完整代码）一一CSDN21天学习挑战赛

iOS逆向 实时查看手机日志

electerm，免费开源的SSH桌面终端，像xshell、termius一样好用

微软官方方式重装系统

LLVM AMDGPU 后端代码分析研究（1）：PassPipe Line

java开发用amd处理器_谈谈AMD CPU购机心得 与 写代码的感受

发表评论

推荐文章

扫描二维码自动识别手机APP下载地址

C#-Linq中Union与Contact方法用法对比

如何获取手机root权限?

解决win10-plsql中文显示问号乱码问题

win10下安装sql server2008时出现的小问题解决办法（仅供参考）

热门文章

Activiti6 下载安装

世界第一黑客米特尼克提出计算机安全十大建议

C盘中哪些文件可以删除？这些文件放心删！

android怎么测试网速,怎样用手机测网速安卓手机测网速的方法推荐

Academic Inquiry|文献综述（方法介绍及实现路径）

快速下载百度网盘的文件——使用motrix

信息收集-邮箱信息

Win10同一路由器下共享打印机

chrome浏览器时区与系统时区不一致的解决方法

我的保研经历——中国科学院计算技术研究所

最新文章

怎样查看计算机历史的开机时间,win10系统怎么查看电脑的历史开关机时间｜win10系统如何查询电脑开机后运行多长时间...

电脑开机是哪个键 电脑常用快捷键盘点

windows 简单快速的查看电脑的启动和关闭时间【通过命令的形式】

CentOS 7通过yum安装fcitx五笔输入法

kali linux安装五笔输入法

电脑开机启动项在哪里设置？3个方法教你轻松找到！

电脑开机太慢？这5个方法瞬间提升你的电脑速度

电脑开机安装流氓软件、弹广告处理办法

[ubuntu] 安装五笔输入法

Ubuntu14.04中文版调出五笔输入法关键步骤

电脑开机运行内存占用过高的解决办法

电脑开机自动推送微信通知

在线五笔输入法 86版是一款基于五笔字型编码方案的在线输入法。该输入法具有界面简洁、操作简单、学习成本低等优点。用户只需在网站上注册账号，即可开始使用。

ubuntu五笔输入法安装_打造最强Windows 10微软拼音输入法 + 600万词库下载

小狼毫五笔输入法设置

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

iOS逆向实时查看手机日志

java开发用amd处理器_谈谈AMD CPU购机心得与写代码的感受

电脑开机是哪个键电脑常用快捷键盘点

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载