【LLM 论文】思维链 CoT 提示方法：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models|电子爱好者

admin管理员组
文章数量:1534214

论文：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
⭐⭐⭐⭐⭐
NeurIPS 2022, Google Research

左图没有使用 CoT，右图使用了 CoT，具体的使用方法其实就是，在 in-context learning 的所给的 QA 示例中，answer 不只是一个答案，还包括了产生这个最终答案的中间推理过程，这样，模型就学会了在回答时也产生类似的推理思路，从而得到最终的问题答案。

这个示例就展示了：当输入给 LLM 的问题示例中加入 COT 推理过程，那 LLM 也可以产生 COT 推理。这就是使用思维链来提示模型的具体使用方法。

论文总结了 CoT 的几个有趣的特性：

CoT 允许模型将多步骤问题分解为多个中间步骤来解决
CoT 为模型的行为提供了一个可解释的窗口，来表明模型是如何得出答案的
CoT 擅长用于解决数学、常识推理、符号操作等问题中，并且也可能适用于人类通过语言解决的任何任务
CoT 并不需要训练模型，只需要在 in-context learning 的 QA 示例中加入思维链推理过程即可

这篇论文有一大部分篇幅都是在介绍如何通过实验来作证 CoT 方法的有效性。论文主要做了三个实验：Arithmetic Reasoning（数学推理）、Commonsense Reasoning（常识推理）、Symbolic Reasoning（符号推理），下面分别介绍这三个实验中值得关注的地方。

论文实验

实验 1：Arithmetic Reasoning（数学推理）

三个实验差不多，所以我们重点关注一下第一个实验。

论文首先介绍了实验的设置，包括采用的数据集、prompt 的设计、采用的模型、采样策略等等：

数据集采用了 GSM8K 之类的，这些数据集都是包含很多 math word problem，比如下图：

prompt 设计：把固定的一组带有思维链提示的 QA 示例作为 few-shots 的 exemplars，每个测试时都是把这些固定的 QA 样本先喂给模型，然后再向模型提问，然后判断模型是否回答正确。
采用的模型：使用了多种参数大小尺寸的 GPT-3、LaMDA、PaLM、UL2 和 Codex。

按照以上设置便开始进行实验：

上面这张图：

三行图中，每一行图代表了不同的数据集：GSM8K、SVAMP、MAWPS
三列中，每一列代表了不同的模型：LaMDA、GPT、PaLM
每个坐标图中，横轴代表了模型的参数量，纵轴代表了问题解决成功的比例
每个坐标图中，橙色横线的 “Prior supervised best” 表示之前的监督型 SOTA 模型的表现

从这个实验中，论文得出了如下几个小结论：

CoT 是模型规模的涌现能力之一，因为 CoT 的 prompt 对于小模型产生不了积极影响
对于越复杂的问题，CoT 带来的提升越大（因为越复杂的问题越需要推理）
带有 CoT 的生成式语言模型在表现上已经超过或接近之前监督模型的 SOTA

同时还对 LLM 的解答情况进行了分析，发现 LLM 的推导过程往往都是正确的（仅有个别推导错了却蒙对了最后答案），而那些最后答案错了的，也是 model 在思维推导过程中出现了小错误或者落掉了步骤。所以说 CoT prompting 是有用的。

另外，发现大的模型能够修复小的模型在思维推导过程中的错误，这也解释了为什么 CoT 在大的模型上才能发挥出作用，因为小的模型很容易在推导过程中产生错误。

论文还做了一些消融实验：

Equation Only：模型仅被提示输出与问题相关的数学方程式，而不需要生成完整的思维链。这种方法测试了模型是否能够直接将问题转换为数学方程式，而不需要中间的自然语言推理步骤。
Variable compute only：这个实验是让模型按照 problem 的字符数输出等量的 dots（...）。这个实验的目的是测试是否是因为 CoT 让 model 有了更多的计算资源才解决了难题。
Chain of thought after answer：让模型先输出答案，再输出思维推导过程。这样做是为了测试模型是否真的依赖于生成的思维链来给出最终答案。结果显示，这种方法的性能与基线相当，这表明顺序推理在思维链中是有用的，不仅仅是为了激活知识。

消融实验的结果如下：

可以看出，xxx-only 都与普通的 prompt 表现相当，远远不及 CoT 的表现，从而佐证 CoT 的思想才是让模型表现优异的原因。

之后，实验又证明了 CoT 方法对于不同思维链的写作风格、不同示例、不同示例的输入顺序、示例的不同数量、不同的语言模型有着鲁棒性，不会因为这些变量的变动会大大影响 CoT 的效果。做这个实验的原因是，对于 prompt 方法来说，对样本的敏感性是很重要的。因为很多 prompt 方法对适用场景十分挑剔。

实验 2：Commonsense Reasoning（常识推理）

实验设置与之前基本一样，将数据集更换为 CSQA 等数据集。

这个实验证明了 CoT 能够大大提升模型在常识推理任务上的表现。

实验 3： Symbolic Reasoning（符号推理）

符号推理尽管对于人来说往往很简单，但对于机器却有很大的挑战。这里使用了两个 toy tasks 来测试模型：

Last letter concatenation：比如输入 Amy Brown，需要输出各个单词的尾字母的拼接结果 yn
Coin flip：一枚 coin 首先朝上的是正面或反面，经过一个场景下多次的反转，需要回答最后朝上的是正面还是反面

另外，测试还分成了 in-domain 测试和 out-of-domain（OOD）测试，两种测试区分如下：

实验结果如下：

可以看出，OOD 整体表现不如 in-domain 的测试，有了 CoT 的加持也比 standard prompt 效果更好，而且这种效果提升在尺寸较大的模型上表现更好。

论文的 Related Work

CoT 的提出，主要是受以下两个研究方向启发：

使用中间过程去解决推理问题
prompting 的工作

具体相关工作可以参考原论文。

总结

可以说，CoT 通过在 prompt 中加入思维链推导过程，实现了在不需要对 LLM 做任何训练的前提下，明显提高了 LLM 在解决复杂推理问题时的表现，同时拓宽了语言模型所能够解决的推理问题的范围。

本文标签：思维提示方法论文 chain

版权声明：本文标题：【LLM 论文】思维链 CoT 提示方法：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1726875483a1088296.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【LLM 论文】思维链 CoT 提示方法：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

目录

论文实验

实验 1：Arithmetic Reasoning（数学推理）

实验 2：Commonsense Reasoning（常识推理）

实验 3： Symbolic Reasoning（符号推理）

论文的 Related Work

总结

更多相关文章

论文翻译 | Chain-of-Thought Prompting Elicits Reasoningin Large Language Models 思维链提示在大型语言模型中引出推理

【论文精读-代码生成】Structured Chain-of-Thought Prompting for Code Generation

[ACL2023] Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step

VL 任务 The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task 论文阅读笔记

【论文阅读】Multimodal Chain-of-Thought Reasoning in Language Models

思维链提示 (Chain-of-thought，CoT)

【提示工程】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

什么是 Prompt engineering 里的 Chain-of-Thought

Chain-of-thought prompting（链式思考提示）

【论文精读】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

NLP中 大语言模型LLM中的思维链 Chain-of-Thought(CoT) GoT

ThoughtWorks.QRCode 生成QR二维码时提示“索引超出了数组界限”的原因和解决方法...

Multimodal Chain-of-Thought Reasonging in Language Models的阅读笔记

Maven的pom文件 提示错误 Failure to transfer com.thoughtworks.xstream:xstream:jar:

maven的pom 提示错误 Failure to transfer com.thoughtworks.xstream:xstream:jar:

Windows11安卓子系统安装软件方法

python360安全浏览器_python3.7--pycharm selenium自启360浏览器360极速浏览器方法

Linux版360安全浏览器（10.0.1008.0）提示测试时间已超过3个月而不能使用的解决方法

360浏览器自动刷新选项设置方法

Win11系统提示找不到OEMDefaultAssociations.dll文件的解决办法

发表评论

推荐文章

什么是GPU？GPU和显卡的关系？GPU国产化布局？

移动硬盘无法读取？学会这3个方法，快速解决问题！

【镜像取证篇】常见镜像文件类型

20230520

史上最全的Zookeeper原理详解(万字长文)

热门文章

linux m530显卡,M530显卡和MX150哪个好（AMD Radeon M530）

准备windows请勿关闭计算机要多久,windows10系统提示正在准备windows请勿关闭计算机怎么办...

ESXi、PVE、unRaid的介绍及对比

苹果电脑装系统未能与恢复服务器取得联系,部分M1 Mac用户无法还原系统 暂无解决方案...

恢复W ndows10系统方法步骤,教你windows10的映像文件还原系统

苹果电脑桌面找不到计算机,苹果电脑MacBook桌面正下方的图标消失不见的解决方法...

点桌面计算机一直在加载,Win10系统打开此电脑很慢总显示在加载的2个解决方法...

Portraiture4.1汉化版PS磨皮插件（支持原生m1芯片m2）

yandex浏览器新标签页按钮显示俄文的解决方案

传统关系型数据库和NoSQL数据库有何区别？

最新文章

笔记（一）安装双系统+AGX刷机

Win7系统由于找不到MSVCP71.DLL程序无法启动解决办法

Ubuntu18.04双系统安装与安装后要做的事

如何安装或重新安装Windows 7

树莓派(0) : 树莓派4系统烧录、开机配置、网络连接、静态ip、开启root账号及ssh

PageAdmin网站后台管理系统（cms）报http403错误的解决方法

【转载】WIN7下硬盘安装UBUNTU 12.04

Win7系统提示找不到ocsetup.exe文件的解决办法

关于Ubuntu 16.04系统安装以及Nvidia显卡驱动安装的一些问题

Win7系统提示找不到mspaint.exe文件的解决办法

Win7系统由于找不到msvcp140_1.dll文件程序无法运行问题

Win7系统由于找不到msvcr80.dll程序无法启动问题

easyuefi只能在基于uefi启动的_主板传统BIOS引导与UEFI引导有何不同？选错了安装系统会出错的...

Win7系统提示找不到psr.exe文件的解决办法

Win7系统提示找不到bderepair.dll文件的解决办法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

NLP中大语言模型LLM中的思维链 Chain-of-Thought(CoT) GoT

Maven的pom文件提示错误 Failure to transfer com.thoughtworks.xstream:xstream:jar:

苹果电脑装系统未能与恢复服务器取得联系,部分M1 Mac用户无法还原系统暂无解决方案...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载