Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models|电子爱好者

admin管理员组
文章数量:1534187

计划-解决提示:通过大型语言模型改进零射击思维链推理

主要内容：

论文介绍了如何通过改进零样本链式思维（Zero-shot chain-of-thought）推理模型来提高大型语言模型在多步推理任务中的表现。作者提出了“计划和解决问题”（Plan-and-Solve）提示策略，该策略由两个组件组成：首先，将整个任务分解为更小的子任务，并根据计划执行这些子任务；其次，为了消除计算错误并提高生成的推理步骤的质量，作者还扩展了PS提示策略，得到了PS+提示策略。实验结果表明，与Zero-shot-CoT相比，作者提出的提示策略在所有数据集上都取得了显著的性能提升，并且在数学推理问题上的表现甚至超过了8个训练示例的CoT提示策略。

Zero-shot-CoT存在的三个问题：

i)计算错误(7%的测试示例):这些是计算错误导致错误答案;

(ii)缺失步骤错误(占测试示例的12%):当一些中间推理步骤被遗漏时，特别是当涉及许多步骤时，这些错误就会发生;

(iii)语义误解(占测试示例的27%):在对问题的语义理解和推理步骤的连贯性方面存在其他错误，可能是llm能力不足造成的。

论文方法描述：

本文提出了PS（Plan-and-Solve）提示，这是一种新的Chain-of-Thought提示方法，它使LLMs能够明确地设计解决问题的计划，并在预测输入问题的答案之前生成中间推理过程。与以前的零样本CoT方法不同，它们需要包含一些逐步演示示例的提示，而零样本PS提示不需要示范例子，它的提示包括问题本身和一个简单的触发句子。类似于Zero-shot-CoT，Zero-shot PS提示分为两个步骤。

第一步中，提示首先使用提出的提示模板进行推断，以生成推理过程和答案。

第二步中，通过使用答案提取提示来提取答案，例如“因此，答案是阿拉伯数字”。这种方法的新颖之处在于，它引导LLMs制定详细的计划并执行该计划，以确保正确计算和执行中间结果。

方法改进

为了解决复杂推理任务中的错误，本文提出了一些详细指令，如“注意计算”，“提取相关变量及其对应的数值”，以及“计算中间结果”。这些指令可以帮助LLMs更准确地执行计算和中间结果，并避免遗漏重要信息。

解决的问题

本文的主要贡献是在CoT提示领域引入了一种新的方法，即PS提示，它允许LLMs在没有示范例子的情况下制定详细的计划并执行该计划，从而提高其在复杂推理任务上的性能。这种方法不仅可以帮助LLMs更好地理解问题和解决问题，还可以减少由于计算错误或遗漏关键信息而导致的错误。

实验部分

本文主要介绍了使用GPT-3作为语言模型的零/少量样本学习方法在不同类型的数学问题上的表现，并与现有的零/少量样本学习方法进行了比较。具体来说，本文进行了以下对比实验：

所用数据集：

评估基准：

Zero-shot baselines

Few-shot with manual demonstrations

Few-shot with automatic demonstrations

实验结果：

数学推理数据集：

零/少量样本学习方法在算术推理问题上的表现比较。作者使用了手动和自动生成的示例来训练模型，并使用准确率作为评估指标。结果表明，作者提出的零/少量样本学习方法在算术推理问题上表现优异，特别是在没有人工示例的情况下也能取得较好的效果。

常识推理数据集：

零/少量样本学习方法在常识推理问题上的表现比较。作者只对作者提出的零/少量样本学习方法进行了比较，因为其他方法不适用于该类型的问题。结果表明，在常识推理问题上，作者的方法表现较好。

符号推理数据集：

零/少量样本学习方法在符号推理问题上的表现比较。作者只对作者提出的零/少量样本学习方法进行了比较，因为其他方法不适用于该类型的问题。结果表明，在符号推理问题上，作者的方法表现较好。

不同ps提示词在数据集上的得分表现：

不同提示方式对零/少量样本学习方法的影响比较。作者设计了多种不同的提示方式，并对其表现进行了比较。结果表明，添加更多的细节指令可以使模型产生更好的推理步骤。

Zero-shot-ps/ps+与Zero-shot-CoT对比

计算错误-缺失步骤错误-语义误解

错误分析和计划存在的影响比较。作者通过对错误类型的分布进行分析，进一步探讨了零/少量样本学习方法的优势。结果表明，计划的存在可以减少计算错误和缺失推理步骤的错误，而零/少量样本学习方法可以在不依赖人工示例的情况下实现这一点。

总的来说，本文展示了使用GPT-3作为语言模型的零/少量样本学习方法在不同类型数学问题上的表现，并与其他现有方法进行了比较。结果表明，该方法具有较高的准确性，并且可以通过添加更多细节指令和使用自一致性策略等方式进一步提高其性能。此外，该方法还可以有效地解决计算错误和缺失推理步骤等问题。

论文总结

文章优点

本文提出了一种新的Zero-shot-CoT方法——计划和解决策略（PS）和PS+提示。这些方法引导大型语言模型通过将整个任务分解为更小的子任务来实现正确的推理，并根据计划执行子任务。实验结果表明，与先前的Zero-shot-CoT相比，PS+在多个算术推理数据集上表现更好或相当好，并且可以与少数shot-CoT方法相媲美。此外，作者还提出了计划和解决策略的概念，该概念可用于非推理任务，这为未来的进一步研究提供了方向。

方法创新点

本文的主要贡献是提出了一种新的Zero-shot-CoT方法——计划和解决策略（PS）和PS+提示，以及计划和解决策略的概念。这种方法能够引导大型语言模型实现正确的推理，而不是仅仅基于语言模型本身的能力。这种创新的方法对于提高语言模型在推理任务中的性能具有重要意义。

未来展望

未来的研究可以从以下几个方面展开：首先，可以探索如何改进计划和解决策略以更好地指导大型语言模型实现正确的推理；其次，可以考虑如何将计划和解决策略应用于其他类型的自然语言处理任务中，例如对话系统和机器翻译等；最后，可以尝试将计划和解决策略与其他技术相结合，如动态提示学习和半监督学习等，以进一步提高语言模型在各种任务上的性能。

个人总结

其实仔细观察下来，与关于Agent设计的提示策略底层的原理差别不大，均是对ReAct或CoT的改进，都是基于大模型强大的能力而又不能充分且良好调用的基础上，让大模型能够像人一样初步思考，计划，执行，反思，总结...

本文标签： Improving Shot Prompting plan Solve

版权声明：本文标题：Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1726875755a1088329.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models

计划-解决提示:通过大型语言模型改进零射击思维链推理

主要内容：

Zero-shot-CoT存在的三个问题：

论文方法描述：

方法改进

解决的问题

实验部分

论文总结

文章优点

方法创新点

未来展望

个人总结

更多相关文章

Failed to get a plan from potential when a legal potential was found. 解决

【NLP文章阅读】Zero-Shot Information Extraction via Chatting with ChatGPT

大语言模型-GPT3-Language Models are Few-Shot Learners

【论文笔记】Learning What Not to Segment: A New Perspective on Few-Shot Segmentation

《Few-Shot Named Entity Recognition: A Comprehensive Study》论文笔记

Zero shot Learning 论文学习笔记（未完待续）

【Text2SQL 论文】评估 ChatGPT 的 zero-shot Text2SQL 能力

What cleaning equipment should be used in the property community cleaning equipment plan

Improving innovation of Cement Equipment Is Crucial

Master Plan for becoming a Software Architect : Roadmap of a Software Architect

论文Learning to Solve Large-Scale Security-Constrained Unit Commitment Problems阅读笔记

Chain of Thought Prompting和Zero Shot Chain of Thought初步认识

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

CoT开山之作：Chain-of-Thought Prompting

Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models

【提示工程】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Chain-of-thought prompting（链式思考提示）

【COT】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

论文阅读：chain of thought Prompting elicits reasoning in large language models

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models导读

发表评论

推荐文章

IntelliJ IDEA下载安装

英语语法笔记——并列句（二）

统考英语和计算机作弊,统考英语-大学英语b网络统考作弊?

11.4王者荣耀服务器维护中,英雄战迹11号更新维护公告 删档最后一更

com.thoughtworks.xstream.converters.ConversionException

热门文章

去除暴风影音2009广告的方法！

会声会影2023旗舰版V26.0.0.136完整版2024免费下载最新中文旗舰版新功能讲解

2024年会声会影哪个版本最新版

Windows子系统保存位置更改释放C盘（最简单）

声波配网：通过特定的声波序列将wifi密码发到无屏幕的设备上

excel VLOOKUP和MATCH结合使用匹配数据

记一次 Windows 10 突然断电重启后桌面无法打开的解决过程

开机显示无法登录到你的账户解决方法(亲测)

Bean with name '' has been injected into other beans [] in its raw version as part of a circular ref

360和360极速浏览器无法打开vue项目的问题

最新文章

联想拯救者Y7000 2020H原厂Win10系统镜像：重拾纯净体验

win7系统如何安装,win7系统安装教程图解

电脑怎么重装系统windows7,电脑如何重装系统windows7

360修改注册表.html,求360急速浏览器更改主页的批处理或者注册表！

用js识别是否360浏览器

单、双硬盘装Windows和Ubuntu双系统——准备篇

小白级别重装Windows系统（保姆级教程）

360浏览器自定义切核功能

360浏览器插件如何导出独立保存？插件文件夹在哪里找？

360浏览器内核切换原理及代码优化方案

win7怎么安装系统 win7系统怎么装机

win7系统版本如何安装 win7系统安装图文教程

小白如何给笔记本一键重装win7系统,新手重装系统win7方法

为什么默认浏览器会自动跳到http:360kjedge.xrccp.com（被360恶意捆绑问题）

360浏览器 - 自定义切换内核 meta标签 总结

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

11.4王者荣耀服务器维护中,英雄战迹11号更新维护公告删档最后一更

360浏览器 - 自定义切换内核 meta标签总结

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载