杂记 | 基于OpenAIEmbedding向量存储的LangChain示例选择器（节省token、提升响应速度、提高回复准确性）|电子爱好者

admin管理员组
文章数量:1582730

文章目录

01 场景痛点
02 示例选择器
03 实现代码
04 补充 - 最大余弦示例选择器

01 场景痛点

在使用ChatGPT的接口进行交互时，我们常常会通过提供示例的方式来提高大语言模型响应的准确性，在LangChain这一大语言模型通用开发框架中，这被称作few-shot。
然而，一次提供给大语言模型的示例并非越多越好，在一次输入中如果提供了太多的示例，可能造成以下问题：

准确性下降：如果示例的情况比较复杂，过多的示例反而会让大模型产生困扰，尤其是在不那么聪明的gpt-3.5模型上
成本上升：过多的示例文本必然导致token消耗的增加，提高了模型的使用成本
响应时间变长：同理，过多的token会让大模型的处理速度变慢

02 示例选择器

为了解决这一问题，可以使用LangChain的示例选择器来实现，即根据用户的输入，从大量的示例中选出与输入最接近的几个示例，再给到大模型，而非每次都将全部的示例传入。

那么，如何实现从大量的示例中选出与输入最接近的几个示例呢？

最朴素的想法是让gpt来选，但这并没有真正解决问题，因为这属于一步拆成两步的操作。

而向量化的方法完美适配这一场景，OpenAI也提供了用于文本向量嵌入的Embedding模型。

其原理大致是这样的：

提供一个包含了大量示例的示例集，将这些示例中的每个示例转换为向量形式再存储到向量数据库，转换的过程使用OpenAI的Embedding模型，该模型的价格约为gpt3.5模型的1/15，且专门为文本向量化设计。
对于用户的一个输入，同样将其转换为向量表示，向量化后，不同向量之间便可以比较，此时再用用户的输入向量到向量数据库中查找最相似的几条向量，将其对应的原始示例文本添加到提示词中。

而这整个过程，都在LangChain中可以方便的实现。

03 实现代码

以语义相似示例选择器和嵌入式向量数据库Chroma为例。
使用前，需要先安装依赖库：

pip install chromadb tiktoken

python代码

from langchain.prompts.example_selector import SemanticSimilarityExampleSelector
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.prompts import FewShotPromptTemplate, PromptTemplate

# 创建单个示例的范式模板
example_prompt = PromptTemplate(
    input_variables=["input", "output"],
    template="Input: {input}\nOutput: {output}",
)

# 创建一个示例集 其中每个dict中的键名称要与范式模板的input_variables对应
examples = [
    {"input": "happy", "output": "sad"},
    {"input": "tall", "output": "short"},
    {"input": "energetic", "output": "lethargic"},
    {"input": "sunny", "output": "gloomy"},
    {"input": "windy", "output": "calm"},
]

# 创建语义相似示例选择器
example_selector = SemanticSimilarityExampleSelector.from_examples(
    examples,  # 示例集
    OpenAIEmbeddings(),  # OpenAI的Embedding模型 用于将文本转换为向量
    Chroma,  # Chroma向量数据库 这是一个嵌入式向量数据库
    k=3  # 每次选择3个示例 不写这个参数默认会选择4个
)

# 带示例的提示词模板
similar_prompt = FewShotPromptTemplate(
    example_selector=example_selector,  # 传入刚才创建好的示例选择器对象
    example_prompt=example_prompt,  # 单个示例的范式模板
    prefix="Give the antonym of every input",  # 示例前的提示语
    suffix="Input: {adjective}\nOutput:",  # 示例后的提示语
    input_variables=["adjective"],  # 用户的输入变量插槽
)

# 输入感受 会选择happy/sad这一示例
print(similar_prompt.format(adjective="worried"), end=f"\n{'-' * 50}\n")

# 输入度量 会选择tall/short这一示例
print(similar_prompt.format(adjective="large"), end=f"\n{'-' * 50}\n")

# 新增示例 热情/冷漠
similar_prompt.example_selector.add_example({"input": "enthusiastic", "output": "apathetic"})
print(similar_prompt.format(adjective="passionate"))  # 热情

04 补充 - 最大余弦示例选择器

在LangChain中还有一种示例选择器，叫做最大余弦示例选择器，在使用时，仅需将上述代码中引入的“语义相似示例选择器”进行替换即可：

# 语义相似示例选择器
from langchain.prompts.example_selector import SemanticSimilarityExampleSelector
# 替换为 最大余弦示例选择器
from langchain.prompts.example_selector import MaxMarginalRelevanceExampleSelector

关于二者的区别，LangChain文档的问答功能是这样回答的：

MaxMarginalRelevanceExampleSelector和SemanticSimilarityExampleSelector的主要区别如下:

选择原理不同
SemanticSimilarityExampleSelector仅根据embedding向量之间的相似度选择示例,选择与输入embedding向量最相似的示例。
MaxMarginalRelevanceExampleSelector在选择最相似的示例的同时,还考虑示例之间的多样性。它会逐步选择相似度最高的示例,但会惩罚与已选择示例过于相似的示例,以保证选择结果的多样性。

实现优化不同
SemanticSimilarityExampleSelector仅需要计算输入与各示例embedding之间的相似度,实现简单。
MaxMarginalRelevanceExampleSelector需要额外计算各示例embedding之间的相似度,实现更复杂。但可以产生更多样化的选择结果。

使用场景不同
当仅需要根据相似度选择示例时,SemanticSimilarityExampleSelector更适用。
当需要同时考虑相似度和多样性时,MaxMarginalRelevanceExampleSelector更适用。

总体来说,MaxMarginalRelevanceExampleSelector相比SemanticSimilarityExampleSelector,选择机制更复杂,但可以产生更多样化的结果,
更适用于需要示例多样性的场景。两者各有优势,应根据实际需要选择使用。

不过据说OpenAI官方建议使用最大余弦示例选择器，读者可以对比各自使用效果后自行选择。

本文标签：向量杂记示例节省准确性

版权声明：本文标题：杂记 | 基于OpenAIEmbedding向量存储的LangChain示例选择器（节省token、提升响应速度、提高回复准确性）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1727896566a1136860.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

杂记 | 基于OpenAIEmbedding向量存储的LangChain示例选择器（节省token、提升响应速度、提高回复准确性）

文章目录

01 场景痛点

02 示例选择器

03 实现代码

04 补充 - 最大余弦示例选择器

更多相关文章

Chrome浏览器新功能：节省内存，更方便查询内存占用情况

ChatGPT提示技巧——零，一和少量示例提示

vqvae简单实战，利用vqvae来提升模型向量表达

java swing 打开浏览器_Java Swing点击按钮启动浏览器示例

不卸载重装，从C盘将Foxmail邮件存储迁移出，节省C盘空间

ESP32 开发笔记(三）源码示例 14_WIFI_Scan附近WIFI信号扫描示例

ibm bpm开发 手册_使用IBM DB2示例解决IBM BPM性能问题

NRF 52832 ble_app_blinky 官方示例 part1

uniapp - 安卓苹果 App 平台下获取用户本机已安装的应用列表app，可读取某个应用的全部信息（应用名称图标是否系统软件安装包签名等软件信息）超详细注释示例源代码教程

uniapp - [安卓|苹果]实现App端引入高德地图，详细获取当前用户手机定位、两个地点的路线规划及相关示例代码，uniapp安卓Android平台软件下使用高德地图，获取当前位置信息及规划路线

pop3邮箱服务器地址,常用邮箱服务器(smtp，pop3)地址，端口(示例代码)

go 电脑屏幕截图，二维码识别 示例

探索智能的边界：Cognitive Services Python SDK 示例库全面解析

下一篇CefSharp 集成谷歌浏览器详解（五）–官网示例解析2 winform 捕获ChromiumWebBrowser消息

SD2C2008杂记之非技术部分之第二天

【Auto.js教程】Auto.js入门及第一个示例程序

R语言使用match函数获取向量中特定值的位置（position of a particular value）、which.max函数获取向量中最大值的位置

R语言使用match函数获取向量中特定值的位置（position of a particular value）、which.min函数获取向量中最小值的位置

上网卡节省流量技巧（转载）

【AI大模型】LangChain框架：示例选择器与输出解析器携手，编织NLP高效精准之网

发表评论

推荐文章

系统发一条热点新闻，大家都访问导致系统变慢卡顿甚至崩溃，你如何处理

Cesium+Vue 数据拦截引起的卡顿

cr3是什么格式？cr3格式用什么软件打开？cr3格式怎么转换成jpg

手机百度网盘倍速播放的方法步骤

autojs实现的百度云网盘登录上传下载创建文件夹重命名删除文件等功能

热门文章

猎豹极速wifi驱动 v3.0 官方版

chrome谷歌浏览器 打开csdn网页主机版变手机版解决方法

大疆RoboMaster技术总监：我是如何成为一名机器人工程师的

怎么浏览URL的PDF文件呢

Windows设置IGMP版本

HTTPS到底是什么

CAD图纸中CAD文字边界为锯齿形的原因及解决办法

如何取消计算机关机,如何取消电脑自动关机

KK 在 68 岁生日时给出的 68 条建议[翻译]#yyds干货盘点#

夸克网盘和百度网盘提速的方法

最新文章

删除 Microsoft Office Word 中页眉、页脚的横线

修复 Microsoft Office 卡在准备就绪上的问题

解决 Mac 下编辑 Microsoft Office Word 文档与 Windows 排版不一致的问题

Windows 正在配置 Microsoft Office Professional Edition 2003

【C#】VS2019 添加引用中没有 Microsoft.Office.XXX 的解决办法

找不到类型库“Microsoft.Office.Core”的包装程序集

C#项目添加excel引用Microsoft.Office.Interop.Excel.dll

Microsoft Office Word已停止工作 的终极解决方案

使用Microsoft Toolkit激活微软Office2010

简单解决 Microsoft office 打开自动关闭

新建 Microsoft Office Word 文档

office账号的黄色叹号

Microsoft Office 2013弹出Microsoft Office 已停止工作的解决方法

除了 Microsoft Office我们还可以选择哪些软件？

Microsoft Office 2007 安装解除安装失败解决方案

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

ibm bpm开发手册_使用IBM DB2示例解决IBM BPM性能问题

go 电脑屏幕截图，二维码识别示例

chrome谷歌浏览器打开csdn网页主机版变手机版解决方法

Microsoft Office Word已停止工作的终极解决方案

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载