论文笔记(2)：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models|电子爱好者

admin管理员组
文章数量:1534214

文章目录

Abstract
Introduction
Chain-of-thought prompting
Arithmetic Reasoning
- experimental setup
- result
- ablation study
Commonsense Reasoning
- experimental setup
- Result
Symbolic Reasoning
- experimental setup
- result
Limitation
Appendix

Abstract

本文通过Chain of Thoughts(CoT，即推理中间过程)，提升大型语言模型(LLM)推理能力。
在三个LLM上证明了CoT能够显著提升算术、常识、符号推理能力。

Introduction

本文要探究如何提升大型语言模型执行少样本提示推理的能力。
已有研究提供了两个思路：① 算术推理任务能够通过生成中间推理过程的自然语言得到提升；② 基于LLM的提示学习在少样本推理任务中表现出色。
本文结合了这两个思路：使用LLM生成中间推理过程执行推理任务。
本文提出的prompt exemplar是一个三元组：<input, chain-of-thought, output>。其中chain-of-thought就是推理过程的中间步骤。

Chain-of-thought prompting

本文证明，只要推理链被包含在exemplar中，足够大的语言模型是可以生成chain-of-thought的。
下图（左）为standard prompting，exemplary为<input, output>；
下图（右）为本文prompt的例子，exemplary为<input, chain-of-thought, output>，高亮部分为chain-of-thought。

下文通过算术、常识、符号推理三个实证分析解释推理链的作用。

Arithmetic Reasoning

experimental setup

dataset(math word problem): GSM8K, SVAMP, ASDiv, AQuA, MAWPS
baseline: standard prompting
chain-of-thought：作者人工构建了用于求解math word problem的exemplar，共8个few-shot样例(原文Table20)
LLM：基于5个LLM（GPT-3, LaMDA, PaLM, UL2 20B, Codex）分别对standard prompting和chain-of-thought进行实验。

result

（1）chain-of-thought对大规模模型有帮助，但小规模模型会产生通顺但不合逻辑的推理链，从而使得效果差于standard prompting；
（2）问题越复杂，chain-of-thought提升效果越好；
（3）一些数据集的结果是state-of-the-art的。
（4）随机抽取最终答案正确的样本进行人工检验，推理链几乎都是正确的；对于最终答案错误的样本，推理链大多也只有一些小细节错误。

ablation study

这一部分对推理链进行了三种变式，检验chain-of-thought成功的原因。
（1）Equation only：prompt只包含数学公式，没有自然语言。
对于复杂问题效果差，简单问题（只有一步或两步）效果好。说明了自然语言表述的必要性。
（2）Variable only：prompt只包含一个dot序列（…），与最终答案的计算所需的字符数相等。
表现与baseline（standard prompting）相同。同样说明了自然语言表述的必要性。
（3）Reasoning after answer：将推理过程放在answer之后，检验推理链是不是通过帮助模型在预训练中提取相关的信息得到最终答案。
表现与baseline（standard prompting）相同，说明推理链和答案的顺序很重要，答案是基于推理链得出的。

Commonsense Reasoning

experimental setup

dataset: CSQA, StrategyQA, Date, Sports, SayCan
prompt: 同上

Result

与math problem类似，效果有提升，且随着模型规模增大和问题复杂度增加。提升越来越明显。

Symbolic Reasoning

experimental setup

task：Last letter concatenate and coin flip
其余设置同上。

result

与前两个任务类似。

Limitation

（1）尽管推理链显示了推理过程，但事实上并不能证明神经网络本身是否存在推理过程；
（2）本文没有对LLM进行微调，这样的few-shot标注对于微调来说不可行；
（3）不能保证推理路径的正确性。

Appendix

chain-of-thought的适用范围：①问题具有挑战性且具有多步骤推理；②需要应用大规模语言模型；③scaling curve相对平滑。
full prompt examples
full experimental results
other details

本文标签：笔记论文 Thought chain Prompting

版权声明：本文标题：论文笔记(2)：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1726877428a1088512.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

论文笔记(2)：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

文章目录

Abstract

Introduction

Chain-of-thought prompting

Arithmetic Reasoning

experimental setup

result

ablation study

Commonsense Reasoning

experimental setup

Result

Symbolic Reasoning

experimental setup

result

Limitation

Appendix

更多相关文章

了解大型语言模型中的思维链（Thought Chain）

Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs论文阅读笔记（未完待续）

【论文精读-代码生成】Structured Chain-of-Thought Prompting for Code Generation

大模型思维链（Chain-of-Thought）技术原理

大模型prompt技巧——思维链（Chain-of-Thought）

思维链提示 (Chain-of-thought，CoT)

Skip-Thought Vector学习笔记

一致性思维链（SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHT REASONING IN LANGUAGE MODELS）

【提示工程】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

一文读懂「Chain of Thought，CoT」思维链

探秘Tree of Thought LLM：普林斯顿NLP团队的新型语言模型

COT:chain of thought

Skip-Thought词向量模型实现Sent2Vec

TOT(Tree of Thought) | 让GPT-4像人类一样思考

什么是 Prompt engineering 里的 Chain-of-Thought

基于Skip-Thought的Sentence2Vec神经网络实现

【论文精读】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Text-to-SQL任务中的思维链（Chain-of-thought）探索

Challenging BIG-Bench tasks and whether chain-of-thought can solve them阅读笔记

Chain of Thought (CoT) 系列论文：大模型思维链，提升 LLM 的推理能力

发表评论

推荐文章

【mac】未能正确拔出移动硬盘，导致移动硬盘无法识别问题。

【win10专业版】win7xp双系统的启动顺序如何设置

计算机桌面底部图标不见了怎么办,电脑下面那一排图标不见了?怎么处理?

vs 插件小番茄 visual assist x破解版 破解教程&amp;下载

BASC理论

热门文章

Redis Sentinel 哨兵模式安装配置到开机自启全过程

JetBrains IntelliJ IDEA 优化教程

免费WiFi：真有白吃的大餐？自家密码可能“被分享”

Dell PowerEdge R720 装机实录

移动硬盘无法读取？学会这3个方法，快速解决问题！

移动硬盘坏点测试软件,移动硬盘坏道检测修复工具(硬盘坏道检测助手)V1.1 正式版...

在64位Win7操作系统中安装Microsoft Access Engine的解决方案(转)

计算机系统硬盘拷贝,不用互助，轻松搞定新旧电脑间系统完整复制或硬盘更换！...

经典游戏命令与征服-红色警戒在线网页版

分布式理论之 CAP &amp; BASE 详解

最新文章

笔记（一）安装双系统+AGX刷机

Win7系统由于找不到MSVCP71.DLL程序无法启动解决办法

Ubuntu18.04双系统安装与安装后要做的事

如何安装或重新安装Windows 7

树莓派(0) : 树莓派4系统烧录、开机配置、网络连接、静态ip、开启root账号及ssh

PageAdmin网站后台管理系统（cms）报http403错误的解决方法

【转载】WIN7下硬盘安装UBUNTU 12.04

Win7系统提示找不到ocsetup.exe文件的解决办法

关于Ubuntu 16.04系统安装以及Nvidia显卡驱动安装的一些问题

Win7系统提示找不到mspaint.exe文件的解决办法

Win7系统由于找不到msvcp140_1.dll文件程序无法运行问题

Win7系统由于找不到msvcr80.dll程序无法启动问题

easyuefi只能在基于uefi启动的_主板传统BIOS引导与UEFI引导有何不同？选错了安装系统会出错的...

Win7系统提示找不到psr.exe文件的解决办法

Win7系统提示找不到bderepair.dll文件的解决办法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

vs 插件小番茄 visual assist x破解版破解教程&下载

分布式理论之 CAP & BASE 详解

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载