【COT】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models|电子爱好者

admin管理员组
文章数量:1534191

文章目录

- 主要解决什么问题
- 采用什么方法
- 实验分析与结果
- 消融实验
- - Commonsense Reasoning
  - Symbolic Reasoning
- 问题与展望

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

主要解决什么问题

大语言模型越来越大，效果越来越好。但是在一些具有挑战性的任务上面，比如arithmetic, commonsense, 和symbolic reasoning上面依旧不能够很好地去处理。

作者提出了chain of thought的一系列prompt方法来进行改进，在不调整模型参数的情况下，在多个任务中取得了SOTA的成绩。

采用什么方法

如上图所示，作者在给定的QA示例里面，添加了一些中间推倒步骤，导致模型最终的输出能够正确。数学化描述就是将prompt组成<input, chain of thought, output>的方式。chain of though就是中间一系列的推倒过程。

chain of thought的好处如下（拆分复杂任务，可解释性更强，处理任务能力更强）:

实验分析与结果

Chain of thought的方法可以超越之前的finetune，和之前最好的效果。chain of thought在小模型上并没有提升，只有当模型大于100B的时候才会有这种效果。侧面反映了他们的instruct fine-tune不够，COT很难激发他的in-context 推理能力。

小模型产生的输出更加流畅，但是产生了不合乎逻辑的思维链，导致比standard prompt的输出结果更低。任务比较简单的话，也体现不出差异，如MAWSP，SVAMP这两个数据集上差异不明显，而GSM8K上任务比较复杂，差距就体现出来了。在100B以上模型效果很好，甚至超过了之前基于监督训练的SOTA模型 (橙色的线)。

是大模型在参数量大了之后拥有了COT的能力，还是通过instruct fine-tune给大模型注入了这个能力？值得考究。

消融实验

除此之外，作者还做了一些消融实验。

Equation only

具体prompt如下:

对于一两步能够推倒出来的，这个Equation不Equation最终效果都差不多。

Variable compute only

排除输入更长，消耗了更多计算量，模型思考更加仔细的影响。作者往prompt里面补充点号到prompt中，进行对比。发现效果也并不好，因此不是这个原因。

chain of thought after answer

<input, chain of thought, output>的顺序是比较重要的，把chain of thought放到后面变成<input, output, chain of thought>的话，效果就会变差。

鲁棒性测试

作者还分析了不同的写作prompt的风格对chain of thought的影响。最终发现都会比standard prompt效果好。

Commonsense Reasoning

作者还在一些常识性问题上做了推理能力对比:

Symbolic Reasoning

作者在符号推理问题上做了分析对比

Task 1: Last letter concatenation: 名字拼接，比如“Amy Brown” → “yn”
Task 2: 硬币推理 “A coin is heads up. Phoebe flips the coin. Osvaldo does not flip the coin. Is the coin still heads up?”

作者同时做了in-domain test和out-of-domain (OOD) test。

问题与展望

如果继续扩大模型，效果还会变好吗？
还有其他更好的prompt方法吗？
怎么说明模型确实在做推理？
是否有比手动写prompt更好的方式？
怎么确保推理path的正确性？
怎么在小模型上实现类似的效果？

本文标签： Thought Prompting CoT chain Elicits

版权声明：本文标题：【COT】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1726876765a1088443.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【COT】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

文章目录

主要解决什么问题

采用什么方法

实验分析与结果

消融实验

Commonsense Reasoning

Symbolic Reasoning

问题与展望

更多相关文章

《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》【大模型思维链】

【LLM 论文】思维链 CoT 提示方法：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

论文阅读：Self-Consistency Improves Chain of Thought Reasoning in Language Models

CoT开山之作：Chain-of-Thought Prompting

（论文阅读）Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Skip-Thought Vectors阅读笔记

Skip-Thought Vector学习笔记

一文读懂「Chain of Thought，CoT」思维链

COT:chain of thought

Skip-Thought词向量模型实现Sent2Vec

Chain-of-thought prompting（链式思考提示）

some thought

基于Skip-Thought的Sentence2Vec神经网络实现

文献阅读：Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communicat

Thought Cloning 项目教程

Text-to-SQL任务中的思维链（Chain-of-thought）探索

chain of thought 也就是 CoT思维链

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models导读

chain of thought (思维链， cot)

“Chain of Thought Reasoning“ 和 “Chain Prompts“ 是什么

发表评论

推荐文章

PHP环境搭建

Plugins和function-call 使用自然语言连接一切

Vue项目运行及入口HTML文件浏览器运行问题

【Chain-of-Thought 专题】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

eclipse中Maven项目pom.xml报错:com.thoughtworks.xstream.io.HierarchicalStreamDriver

热门文章

手机进水开机android,手机进水了闪退的解决方法

手动修复重建Windows 10系统EFI分区引导bootloader

IDEA全局搜索快捷键失效（搜狗拼音输入法冲突）

史上最全蓝屏代码！电脑蓝屏了查一下什么原因吧！

计算机蓝屏 代码0000a,Win7系统出现蓝屏代码0x000000a的原因及解决方法

文心一言 VS 讯飞星火 VS chatgpt （115）-- 算法导论10.2 8题

win10系统还原被组策略关闭怎么解决

怎么把mp4转换成amv格式？如何下载amv格式视频？

BAT 大厂Java 面试题集锦之核心篇附参考答案

双操作系统安装（一）Windows及ubuntu双系统安装教程

最新文章

Win7系统提示找不到wow64win.dll文件的解决办法

联想拯救者Y7000 2020H原厂Win10系统镜像：重拾纯净体验

win7系统如何安装,win7系统安装教程图解

电脑怎么重装系统windows7,电脑如何重装系统windows7

360修改注册表.html,求360急速浏览器更改主页的批处理或者注册表！

操作系统发展简史（UnixLinux 篇 + DOSWindows 篇）| Mac 与 Microsoft 之风云争霸

Win11系统提示找不到OEMDefaultAssociations.dll文件的解决办法

单、双硬盘装Windows和Ubuntu双系统——准备篇

小白级别重装Windows系统（保姆级教程）

360浏览器自定义切核功能

Win7系统提示找不到winload.exe文件的解决办法

win7怎么安装系统 win7系统怎么装机

win7系统版本如何安装 win7系统安装图文教程

小白如何给笔记本一键重装win7系统,新手重装系统win7方法

为什么默认浏览器会自动跳到http:360kjedge.xrccp.com（被360恶意捆绑问题）

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

计算机蓝屏代码0000a,Win7系统出现蓝屏代码0x000000a的原因及解决方法

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载