Challenging BIG-Bench tasks and whether chain-of-thought can solve them阅读笔记|电子爱好者

admin管理员组
文章数量:1534192

不是新文章哈，就是最近要看下思维链（chain of thought，CoT）这块，然后做点review。

文章链接（2022年）：https://arxiv/pdf/2210.09261.pdf

GitHub链接：GitHub - suzgunmirac/BIG-Bench-Hard: Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them

大家都知道出了大语言模型以后呢，最重要的一件事情就是做测评，因为只有测评过关才能对外说我这个模型多么多么厉害，在所有公认测评任务里排第一。Big Bench则是一个有着非常多样任务（24个task）的测试数据集（GitHub - google/BIG-bench: Beyond the Imitation Game collaborative benchmark for measuring and extrapolating the capabilities of language models），GitHub上面是这么介绍的：

The Beyond the Imitation Game Benchmark (BIG-bench) is a collaborative benchmark intended to probe large language models and extrapolate their future capabilities.

Big Bench的论文链接：https://arxiv/abs/2206.04615

今天的这个论文主要讲的是，研究人员发现，当使用chain-of-thought prompting的时候，大语言模型PaLM和CodeX在一些Big Bench的任务上是可以有一定的效果提升的。所谓思维链，就是思考步骤或者体现一定逻辑性的思考步骤，文章给出了两个示例分别是answer only 和CoT prompting：

可以看到在进行模型输入的时候，任务描述、问题、选项以及测试问题的描述都是一模一样的，唯一不同的在于Answer的形式。在CoT中，Answer都以“Let's think step by step”作为开头，在示例数据的 answer中，还给出了step by step的逻辑，以及最终答案。在做测试的时候，作者们比较了few-shot prompting以及带着CoT的few-shot prompting。结果肯定是CoT在多个任务上比answer only（AO）好：

不过这边文章，我觉得耗费精力和人力的是CoT该怎么写！！！看起来作者可是一条一条把思维链写了一遍的，要不然怎么做测评呢！并且作者在所有的CoT注释前都加了一句话let’s think step-by-step！

We manually write CoT exemplars for BBH

We prepend “let’s think step-by-step” (Kojima et al., 2022) to all CoT annotations in the few-shot exemplars.

好的，读完了这篇文章，知道CoT有效了。就是在具体任务上怎么写是个问题。所以大家一定要去看这篇文章的Github！！！里面有不同任务写CoT的例子。

本文标签：笔记 Bench Big Challenging Tasks

版权声明：本文标题：Challenging BIG-Bench tasks and whether chain-of-thought can solve them阅读笔记内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1726877399a1088509.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Challenging BIG-Bench tasks and whether chain-of-thought can solve them阅读笔记

更多相关文章

网络知识：光猫光纤宽带故障排查笔记

2023春 - 神经网络与深度学习 - 笔记1

【SEU程序设计课笔记】 12 - 20201119 - Write C++ programs - 排序

Python数据分析笔记groupbycontact reset_index

RK3288android 7.1 调试笔记 解决出现“There’s an internal problem with your device. Contact your manufacturer”

QQ邮箱登录PC布局实战笔记四

【笔记】Win10 安装系统跳过创建用户，直接启用 Administrator

Chrome浏览器检查功能，开发者工具，（笔记自留）

13天Java进阶笔记-day11-网络编程和NIO

架构系统游戏系统开发笔记（五）——服务端系统分层

AMD R7 5800H安装mac os big sur 11.6

AMD zen3 5600X + B550M 黑苹果 EFI Big Sur 11.5.2

[笔记] 移动的Linux——Android随心root配置与找回遗忘的wifi密码

英语语法笔记——并列句（二）

拆解全笔记 | 《高阶运营：从小编到新媒体操盘手》

SV Assertion手册笔记

英文写作笔记（1）Introduction

Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs论文阅读笔记（未完待续）

Skip-Thought Vectors阅读笔记

论文笔记--Skip-Thought Vectors

发表评论

推荐文章

4G内存适合装哪个版本matlab,4G内存装win7 32位还是64位|单条4G内存选32位还是64位系统性能实测...

视频mov如何转换成mp4？

【CVutils】计算机视觉：视频图像（清洗、裁剪、人脸区域抓取等）数据预处理&amp;数据集制作 || 代码合集

【浅谈】前端禁止浏览器记住密码

maven的pom.xml提示错误 Failure to transfer com.thoughtworks.xstream:xstream:jar

热门文章

android 杀毒 源代码,ExeBinder - 源码下载|其它|杀毒|源代码 - 源码中国

2024 最新12个好用的APK下载网站，完美替代Google Play

不知道wifi密码时， 笔记本怎么连接到网络？

Android Wifi连接控制、TCP、UDP通信，6.0以上适配

现代模型论之基础

irene换脸资源_电线之间：数据可视化科学家艾琳·罗斯（Irene Ros）的访谈

打开计算机无法显示工具栏,任务栏不显示打开的窗口怎么办教程

Alien Skin X7PS调色滤镜插件下载及PS调色滤镜教程

java.lang.ClassNotFoundException: com.thoughtworks.xstream.XStream

360浏览器怎么开启翻译功能？

最新文章

Win7系统提示找不到wow64win.dll文件的解决办法

联想拯救者Y7000 2020H原厂Win10系统镜像：重拾纯净体验

win7系统如何安装,win7系统安装教程图解

电脑怎么重装系统windows7,电脑如何重装系统windows7

360修改注册表.html,求360急速浏览器更改主页的批处理或者注册表！

操作系统发展简史（UnixLinux 篇 + DOSWindows 篇）| Mac 与 Microsoft 之风云争霸

Win11系统提示找不到OEMDefaultAssociations.dll文件的解决办法

单、双硬盘装Windows和Ubuntu双系统——准备篇

小白级别重装Windows系统（保姆级教程）

360浏览器自定义切核功能

Win7系统提示找不到hal.dll文件的解决办法

Win7系统提示找不到winload.exe文件的解决办法

win7怎么安装系统 win7系统怎么装机

win7系统版本如何安装 win7系统安装图文教程

小白如何给笔记本一键重装win7系统,新手重装系统win7方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

RK3288android 7.1 调试笔记解决出现“There’s an internal problem with your device. Contact your manufacturer”

【CVutils】计算机视觉：视频图像（清洗、裁剪、人脸区域抓取等）数据预处理&数据集制作 || 代码合集

android 杀毒源代码,ExeBinder - 源码下载|其它|杀毒|源代码 - 源码中国

不知道wifi密码时，笔记本怎么连接到网络？

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载