【论文阅读】Multimodal Chain-of-Thought Reasoning in Language Models|电子爱好者

admin管理员组
文章数量:1534217

【还是写写CSDN自我激励一下吧哈哈】
今天分享的是亚马逊推出的multimodal-COT，使用多模态数据触发CoT进行推理问答，在参数量小于 10 亿的情况下，在 ScienceQA 基准测试中，比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%)，甚至超过了许多人类。

论文：https://arxiv/pdf/2302.00923.pdf
源码：https://github/amazon-science/mm-cot

Problem

目前大规模语言模型在利用思维链进行复杂推理时都仅考虑了单模态（语言模态）
当参数量小于1千亿（100 billion）的时候，LMs容易胡说八道（hallucinated rationales）从而产生错误答案。

多模态CoT任务示例

输入：Question text (Q), context text ©, multiple options (M)
输出：answer (A) 或以rationale为条件给出answer（RA）或先给答案再给rationale（AR）

Motivation

经过系列实验，作者有以下观察：

观察1：没有R比有R好，推测可能是因为模型胡言乱语（hallucinated rationales），误导了答案。
观察2：加入视觉模态特征可以大幅度修正模型胡言乱语的情况。
于是乎，作者就提出了两阶段的multimodal-CoT，先用文本和视觉两类特征得到较为准确的rationale（R），然后再由R和文本以及视觉特征得到最后的answer。

模型框架

分为rationale generation和answer inference两阶段，它们使用相同的模型但是输入和输出不同
（1）rationale generation
输入：X = {X1 language , Xvision}
输出：R = F(X)
（2）answer inference
输入：X0 = {X2 language , Xvision}
其中，X2 language = X1 language ◦ R（◦表示拼接）
输出：A = F(X0 )
分别为两个阶段有监督训练了两个模型

模型结构

可以分为encoding、interaction和decoding三步

总体目标

（1）Encoding
H_language = LanguageEncoder(X_language),
使用Transformer model 【T5的encoder】
H_vision = W_h · VisionExtractor(X_vision)
使用 DETR提取patch-level vision feature
（2） Interaction
使用单头注意力网络将文本token和图像patch相关联
Query=H_language, Key=H_vision, Value=H_vision

用门控机制融合

（3）Decoding
用的T5的Decoder

整个算法过程：

Experiment

a. 数据集：ScienceQA，首个标注详细解释的多模态科学问答数据集。
b. 实验结果：

本文标签：论文 chain Multimodal Thought language

版权声明：本文标题：【论文阅读】Multimodal Chain-of-Thought Reasoning in Language Models 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1726875748a1088328.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【论文阅读】Multimodal Chain-of-Thought Reasoning in Language Models

Problem

多模态CoT任务示例

Motivation

模型框架

模型结构

总体目标

整个算法过程：

Experiment

更多相关文章

思维链（Chain-of-Thought）作为提示

《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》【大模型思维链】

【LLM 论文】思维链 CoT 提示方法：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Skip-Thought Vector —— 跳跃思维句表示

了解大型语言模型中的思维链（Thought Chain）

[ACL2023] Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step

【论文阅读】Multimodal Chain-of-Thought Reasoning in Language Models

Skip-Thought Vector学习笔记

【提示工程】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

一文读懂「Chain of Thought，CoT」思维链

探秘Tree of Thought LLM：普林斯顿NLP团队的新型语言模型

Skip-Thought词向量模型实现Sent2Vec

TOT(Tree of Thought) | 让GPT-4像人类一样思考

Chain-of-thought prompting（链式思考提示）

基于Skip-Thought的Sentence2Vec神经网络实现

【COT】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

论文阅读：chain of thought Prompting elicits reasoning in large language models

Text-to-SQL任务中的思维链（Chain-of-thought）探索

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models导读

Chain of Thought (CoT) 系列论文：大模型思维链，提升 LLM 的推理能力

发表评论

推荐文章

移动硬盘打开文件突然变得很卡

通过使用 NTLite 工具实现精简Windows系统

基于Transformer的翻译模型（英-＞中）

精选 8个 学习英语的APP，完全免费，适合不同阶段的你

Python 系列（一）- 收藏集 - 掘金

热门文章

Windows子系统保存位置更改释放C盘（最简单）

Ubuntu 18.04下搜狗拼音输入法选词面板乱码问题（通过更换输入法版本完美解决，一劳永逸）

在英语环境下的 Ubuntu14.04中安装 Sogou搜狗拼音输入法

粉丝答疑：电脑蓝屏了怎么办？

tcl电视linux软件升级,【高清范】TCL电视升级刷机常见问题大汇总！

联想Thinkpad E430 原装win8改版win7的BIOS设置

【镜像取证篇】常见镜像文件类型

JohnnyB的Eventually项目教程

VL 任务 The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task 论文阅读笔记

360安全浏览器右击不显示审查元素 或按F12不弹出开发人员工具的原因和解决方法:设为极速模式

最新文章

12代装win7影响性能吗？12代酷睿装win7关闭小核提高性能方法

笔记（一）安装双系统+AGX刷机

Win7系统由于找不到MSVCP71.DLL程序无法启动解决办法

Ubuntu18.04双系统安装与安装后要做的事

如何安装或重新安装Windows 7

winxp升级win7教程_专业的动画制作软件Animate cc 2019下载和安装教程

PageAdmin网站后台管理系统（cms）报http403错误的解决方法

【转载】WIN7下硬盘安装UBUNTU 12.04

Win7系统提示找不到ocsetup.exe文件的解决办法

关于Ubuntu 16.04系统安装以及Nvidia显卡驱动安装的一些问题

win7win10系统 安装虚拟机VMware教程

Win7系统由于找不到msvcp140_1.dll文件程序无法运行问题

Win7系统由于找不到msvcr80.dll程序无法启动问题

easyuefi只能在基于uefi启动的_主板传统BIOS引导与UEFI引导有何不同？选错了安装系统会出错的...

Win7系统提示找不到psr.exe文件的解决办法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

精选 8个学习英语的APP，完全免费，适合不同阶段的你

360安全浏览器右击不显示审查元素或按F12不弹出开发人员工具的原因和解决方法:设为极速模式

win7win10系统安装虚拟机VMware教程

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载