VL 任务 The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task 论文阅读笔记|电子爱好者

admin管理员组
文章数量:1534194

VL 任务 The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task 论文阅读笔记

一、Abstract
二、引言
三、探索性任务
四、评估
- 4.1 思维链的作用
- 4.2 两种 Prompt 的效果
五、误差分析
六、结论

写在前面

尝试点新东西，这是一篇关于视觉语言多模态的文章，作者团队很亮眼呀~

论文地址：The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task
代码地址：原文未提供
预计投稿于：某个会议
Ps：2023 年每周一篇博文阅读笔记，主页更多干货，欢迎关注呀，期待 6 千粉丝有你的参与呦~

一、Abstract

思维链的效果在语言任务中发挥了重要作用，特别是在需要复杂的感知和推理的视觉-语言任务中。基于人类处理信号的过程，本文提出 “描述后再决定” 的策略。这一策略提升了大概 50% 的性能，为视觉-语言中的推理任务奠定了坚实的基础。

二、引言

大语言模型在很多任务中表现不俗，因此促进了通用式 AI 助手的发展，最典型的就是 GPT-4V。然而在复杂的视觉-语言任务中，GPT-4V 仍落后于人类。这些任务需要识别层面上的感知，例如定位和分类目标及其属性，以及识别层面上的推理。人类可以无缝地整合这两个阶段，但对于 LLMs 来说，还不太够。

思维链策略，最出名的就是能够将语言任务划分为包含多个中间步的子任务。本文研究的是其能否增强视觉-语言任务，特别是需要复杂推理的。

如上图所示，对于人类识别的研究可以提供一些线索。视觉信息通过双流进行传播，侧流 ‘what pathway’ 涉及目标识别的任务，而背流 ‘where pathway’ 则处理目标的空间位置。此双流将识别解耦为局部处理模块。识别部分，即推理和决策函数，主要通过正面的脑叶实现。基于此，本文设计了特定模块，用于不同阶段的推理。

最新的关于思维链在视觉-语言任务上的尝试是识别任务，以及定性分析。在本文中，分析了 Prompting 策略对复杂的视觉-语言任务的影响，提出的 Description (information-extracting) then Decision (decisionmaking) 策略一致提升了任务的性能。

三、探索性任务

以 Winoground 为一个研究案例，Winoground 同时包含一个数据集和一个特定任务用于评估视觉语言组合式推理：给定两张图像及两条字幕，旨在正确地匹配每条字幕和图像。需要注意的是，所有的字幕都使用相同的单词，但是顺序不同。其难点之处在于需要一个鲁邦的视觉识别能力去鉴别小的或者模糊的目标，以及区分相似目标的属性，同时也需要视觉-语言组合式推理。Winoground 的一些样本如下图所示：

原始的 Winoground 任务由两个实验步骤组成：文本得分和图像得分。前者评估模型从两个给定的字幕和一张图像中选择出正确字幕的能力。后者则需要评估模型从两个可选的图像和单条字幕中选择最合适的图像。Winoground 数据集由 400 对图像-字幕对组成。

Tristan Thrush, Ryan Jiang, Max Bartolo, Amanpreet Singh, Adina Williams, Douwe Kiela, and Candace Ross. 2022. Winoground: Probing vision and language models for visio-linguistic compositionality. In CVPR.

原始的 Winoground 是基于视觉语言模型中的特征相似度进行计算的，例如 CLIP。为评估最近的大规模视觉-语言模型，类似 GPT-4V，于是将 Winoground 塑造为基于选择的视觉问答任务。

给定图像 I 0 I_0 I0 和 I 1 I_1 I1，以及字幕 C 0 C_0 C0 和 C 1 C_1 C1，用于数据点 ( C 0 , I 0 , C 1 , I 1 ) (C_0,I_0,C_1,I_1) (C0,I0,C1,I1) 的计算如下：
s ( C 0 , I 0 , C 1 , I 1 ) = { 1 i f f ( C 0 , C 1 , I 0 ) = C 0 , a n d f ( C 0 , C 1 , I 1 ) = C 1 0 o t h e r w i s e \left.s\left(C_0,I_0,C_1,I_1\right)=\left\{\begin{array}{ll}1&\mathrm{~if~}f\left(C_0,C_1,I_0\right)=C_0,\\&\mathrm{~and~}f\left(C_0,C_1,I_1\right)=C_1\\0&\mathrm{~otherwise}\end{array}\right.\right. s(C0,I0,C1,I1)=⎩ ⎨ ⎧10 if f(C0,C1,I0)=C0, and f(C0,C1,I1)=C1 otherwise其中 f ( ⋅ ) f(\cdot) f(⋅) 为大语言模型，旨在根据生成过程提供答案。对于一个正确的数据点，所有的图像必须要与文本描述对齐。

类似的，对于图像选择任务，得分定义为：
s ( C 0 , I 0 , C 1 , I 1 ) = { 1 i f f ( I 0 , I 1 , C 0 ) = I 0 , a n d f ( I 0 , I 1 , C 1 ) = I 1 0 o t h e r w i s e \left.s\left(C_0,I_0,C_1,I_1\right)=\left\{\begin{array}{ll}1&\quad\mathrm{if~}f\left(I_0,I_1,C_0\right)=I_0,\\&\quad\mathrm{and~}f\left(I_0,I_1,C_1\right)=I_1\\0&\quad\mathrm{otherwise}\end{array}\right.\right. s(C0,I0,C1,I1)=⎩ ⎨ ⎧10if f(I0,I1,C0)=I0,and f(I0,I1,C1)=I1otherwise

四、评估

4.1 思维链的作用

定性结果如表 1 所示，定量结果如图 2(a) 所示。接下来展示用于评估 GPT-4V 文本得分和图像得分在有无思维链的 prompt：

GPT-4V (Text)：
[‘image-0’ or ‘image-1’] Does this image present (A) [‘caption-0’] or (B) [‘caption-1’]? Note, you must choose one of the two options.
GPT-4V CoT (Text)：
[‘image-0’ or ‘image-1’] Does this image present (A) [‘caption-0’], or (B)
[‘caption-1’]? First, describe the image information relevant to the question. Then, provide your answer. Note you must choose one of the two options.
GPT-4V (Image)：
[‘image-0’], [‘image-1’] Which image better aligns with the description [‘caption-0’ or ‘caption-1’]? The first image or the second image? Note you must choose one of two options.
GPT-4V CoT (Image)：
[‘image-0’], [‘image-1’] Which image better aligns with the description
[‘caption-0’ or ‘caption-1’]? The first image or the second image? First, describe the image information relevant to the question. Then, provide your answer. Note you must choose one of two options.

一些例子如下图所示：

4.2 两种 Prompt 的效果

如图 (2) b 所示。接下来展示一些 prompt：

GPT-4 QA：
[‘image description’] Based on this image description, does this image depict (A) [‘caption-0’], or (B) [‘caption-1’]? Note, you must choose one of the two options.
GPT-4 CoT：
[‘image description’] Based on this image description, does this image depict (A)
[‘caption-0’], or (B) [‘caption-1’]? First, analyze the two options, then provide your answer. Note,
you must choose one of the two options.
GPT-4V QA：
[‘image description’] Does this image depict (A) [‘caption-0’], or (B) [‘caption-1’]?
Note, you must choose one of the two options.
GPT-4V CoT：
[‘image description’] Does this image depict (A) [‘caption-0’], or (B) [‘caption-1’]?
First, analyze the two options, then provide your answer. Note, you must choose one of the two options.

结果如下表所示：

五、误差分析

为区分不同属性，那些基于视觉线索的，例如颜色和形状更容易区分。而更抽象的属性，例如尺寸或数量、重量，则需要外部的知识。涉及到 “Series, Pragmatics, Size/Amount, Weight, Object-Centric Spatial, Temporal” 则更为复杂。

六、结论

本研究引入了 “描述后决定” 的策略用于视觉-语言任务。从神经感知角度来说，人类进行识别和推理需要多个步骤，而从模型训练的角度来说，大语言模型在语言任务上会更有效率。通过图像字幕，视觉编码器可以对齐这些语言模型。给定一个视觉-语言任务，“描述后决定” 的方法将任务转化为两个训练好的任务，在不同的模型上都有性能的提升，促进了将来对视觉-语言任务的研究。

写在后面

首次读这类涉及到 GPT 的文章，感觉咋说呢，相比于传统的方法，缺失了一定的叙述手段，就是那种鸡肋似的，“难登大雅之堂” 吧?

本文标签：笔记论文 chain Thought Vl

版权声明：本文标题：VL 任务 The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task 论文阅读笔记内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1726875704a1088322.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

VL 任务 The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task 论文阅读笔记

VL 任务 The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task 论文阅读笔记

一、Abstract

二、引言

三、探索性任务

四、评估

4.1 思维链的作用

4.2 两种 Prompt 的效果

五、误差分析

六、结论

更多相关文章

【Chain-of-Thought 专题】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

探秘 Skeleton-of-Thought：提升大型语言模型并行解码的新纪元

思维链（Chain-of-Thought）作为提示

《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》【大模型思维链】

Multimodal Chain-of-Thought Reasoning in Language Models阅读笔记

Skip-Thought Vector —— 跳跃思维句表示

理解思维链Chain of Thought（CoT）

了解大型语言模型中的思维链（Thought Chain）

【论文精读-代码生成】Structured Chain-of-Thought Prompting for Code Generation

CoT开山之作：Chain-of-Thought Prompting

（论文阅读）Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

大模型思维链（Chain-of-Thought）技术原理

大语言模型提示词方式 CoT（Chain of Thought）

Quick-Thought模型学习笔记

论文笔记--Skip-Thought Vectors

TOT(Tree of Thought) | 让GPT-4像人类一样思考

Chain-of-thought prompting（链式思考提示）

Text-to-SQL任务中的思维链（Chain-of-thought）探索

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models导读

Chain of Thought (CoT) 系列论文：大模型思维链，提升 LLM 的推理能力

发表评论

推荐文章

VMware此平台不支持虚拟化的 AMD-VRVI解决方法

win10+ubuntu双系统下，ubuntu不能访问windows的磁盘分区

lenovo联想Legion Y9000P IRX8H 2023款(82WQ)原装出厂Windows11系统

sed &amp; awk之sed实战

音视频编解码常用知识点

热门文章

Parallels对Mac的损害大吗 pd虚拟机怎么设置内存和CPU 运行Parallels发热

wifi密码破解软件，谨慎使用！

苹果电脑怎么用移动硬盘ntfs？快速读取和编辑Mac外置移动硬盘

centos7 识别移动硬盘

服务器虚拟机怎么选择iso文件位置,Hyper-V 虚拟机的光盘镜像文件路径 (.ISO) 不支持网络映射盘符或 UNC 路径？...

Chart GPT免费地址资源收集

win7重装系统以及office安装

计算机 hdmi不显示桌面,电脑用HDMI连接电视，电视却只显示桌面 其他的什么都不显示...

5款可以免费使用的PS软件分享

解决：PC微信弹窗《当前客户端版本过低,请前往应用商店升级到最新版本客户端后再登录》

最新文章

Win7系统提示找不到diskraid.exe文件的解决办法

Win7系统提示找不到wow64win.dll文件的解决办法

联想拯救者Y7000 2020H原厂Win10系统镜像：重拾纯净体验

win7系统如何安装,win7系统安装教程图解

电脑怎么重装系统windows7,电脑如何重装系统windows7

回归经典：Win7 SP1 原版32位，你的稳定之选

操作系统发展简史（UnixLinux 篇 + DOSWindows 篇）| Mac 与 Microsoft 之风云争霸

Win11系统提示找不到OEMDefaultAssociations.dll文件的解决办法

单、双硬盘装Windows和Ubuntu双系统——准备篇

小白级别重装Windows系统（保姆级教程）

Win7系统提示找不到hal.dll文件的解决办法

Win7系统提示找不到winload.exe文件的解决办法

win7怎么安装系统 win7系统怎么装机

win7系统版本如何安装 win7系统安装图文教程

小白如何给笔记本一键重装win7系统,新手重装系统win7方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

sed & awk之sed实战

计算机 hdmi不显示桌面,电脑用HDMI连接电视，电视却只显示桌面其他的什么都不显示...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载