Multimodal Chain-of-Thought Reasoning in Language Models阅读笔记|电子爱好者

admin管理员组
文章数量:1534202

论文（2023年）链接：https://arxiv/pdf/2302.00923.pdf

GitHub项目链接：GitHub - amazon-science/mm-cot: Official implementation for "Multimodal Chain-of-Thought Reasoning in Language Models" (stay tuned and more will be updated)

CoT（chain of thought）想必大家都略有耳闻，就是在问大语言模型问题的时候，加入一步一步的思考步骤，以便让大模型有更好的效果，之前大多是文本类型的描述。这篇2023年的文章直接提出了一种Multimodal-CoT：直接结合了文本和图片这两类数据类型来做CoT，实验效果那当然是显著提升。文章在开头给出了multimodal CoT的示例：

在介绍的时候作者提到，为了验证multimodal CoT的效果，目前有两类常用的方法来做multimodal CoT的实验，一种是将不同modality的数据转化成一种modality作为输入，比如把图片中的文字部分抽取出来，一起喂给大语言模型。另一种，是将不同modality的数据进行特征融合然后自己微调语言模型。这篇文章做了模型微调这个任务。实验数据是Science QA。接下来看下这篇文章的框架图：

首先，作者将文本和图片输入一起用于生成CoT的内容，这里说是rationale generation（原理生成），目测就是一边将图片生成讲解，一边结合原始的文本输入，一起得到我们的思维链内容（新的文本输入）。然后将我们的思维链内容结合原本的language input一起喂给大模型来得到最终的答案。因此本文将原理生成和答案生成分成了两步，作者写了一个算法流程：

再给一个具体例子的截图：

至于baseline，作者说他们：

To begin with, we fine-tune a text-only baseline for CoT reasoning on the ScienceQA benchmark...Our task is modeled as a text generation problem, where the model takes the textual information as the input and generates the output sequence that consists of the rationale and the answer.

看起来就是根据原始文本输出CoT。

实验过程中，作者发现图片标题其实并不起作用：

As using image captions does not yield significant performance gains in Section 3.3, we did not use the captions.

在抽取图片feature的时候，作者用了三个不同的模型进行了比较，分别是CLIP，DETR和ResNet，发现DETR效果最好哈。另外，还有一个有意思的发现是，作者抽样了一些回答正确的不正确的QA及其对应的CoT，在answer是正确的例子里，有10%的CoT其实是错的。。。咱们的模型有时候还是可以通过忽略不正确的逻辑推理还能预测正确的答案。

好的，读完了这篇文章，知道图片信息可能可以通过一些模型读出来，rationale信息可以自动生成，再用于CoT-based的结果判断。

哦，读了这篇文章还有一个非常有意思的项目是：https://github/salesforce/LAVIS/tree/f982acc73288408bceda2d35471a8fcf55aa04ca/projects/instructblip

这个项目大家可以看看，可以生成图片的说明哦！

from lavis.models import load_model_and_preprocess
# loads InstructBLIP model
model, vis_processors, _ = load_model_and_preprocess(name="blip2_vicuna_instruct", model_type="vicuna7b", is_eval=True, device=device)
# prepare the image
image = vis_processors["eval"](raw_image).unsqueeze(0).to(device)

model.generate({"image": image, "prompt": "Write a short description for the image."})

本文标签：笔记 Thought chain Multimodal Models

版权声明：本文标题：Multimodal Chain-of-Thought Reasoning in Language Models阅读笔记内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1726875497a1088297.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Multimodal Chain-of-Thought Reasoning in Language Models阅读笔记

更多相关文章

大模型思维链论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》简要介绍

【论文精读-代码生成】Structured Chain-of-Thought Prompting for Code Generation

CoT开山之作：Chain-of-Thought Prompting

[ACL2023] Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step

（论文阅读）Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

ThoughtWorks现代企业架构框架白皮书 笔记

【论文阅读】Multimodal Chain-of-Thought Reasoning in Language Models

大模型prompt技巧——思维链（Chain-of-Thought）

Skip-Thought Vectors阅读笔记

Skip-Thought Vector学习笔记

【提示工程】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Quick-Thought模型学习笔记

COT:chain of thought

什么是 Prompt engineering 里的 Chain-of-Thought

【COT】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

论文阅读：chain of thought Prompting elicits reasoning in large language models

Multimodal Chain-of-Thought Reasonging in Language Models的阅读笔记

使用 Skeleton of Thought 技术实现更高效的 AI 文本生成

“Chain of Thought Reasoning“ 和 “Chain Prompts“ 是什么

论文笔记(2)：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

发表评论

推荐文章

暴风影音5完整版(集成Real解码器) 增强去广告版

AI、ML 和数据工程 | InfoQ 趋势报告（2021 年）

基于BP神经网络的人脸朝向识别

常见英语人名及其音标和中文翻译

ubuntu登录桌面后只显示壁纸，排查方案

热门文章

pytorch + AMD卡 (docker快速构建A卡pytorch环境, 5分钟不折腾版)

Ubuntu 下安装新世纪五笔输入法

横空出世-轰炸手机在线使用-小白网安笔记

win10电脑查看当前连接的wifi密码

小米游戏本bios更新_小米笔记本电脑bios升级方法图文步骤

惠普笔记本原装Win8重装成Win7系统图文教程

计算机桌面底部图标不见了怎么办,电脑下面那一排图标不见了?怎么处理?

重装电脑麻烦，但值得

[转]如果一场暴风雨中的所有雨水汇聚成一整滴落下来会怎么样？

windows7在这台计算机上未找到防病毒软件,Windows 7没有检测到安装的防病毒软件 | MOS86...

最新文章

树莓派(0) : 树莓派4系统烧录、开机配置、网络连接、静态ip、开启root账号及ssh

第02章_MySQL重装

Win7系统提示找不到mmc.exe文件的解决办法

Win7系统提示找不到diskraid.exe文件的解决办法

Win7系统提示找不到wow64win.dll文件的解决办法

Win7系统提示找不到mspaint.exe文件的解决办法

Win7系统提示找不到utildll.dll文件的解决办法

回归经典：Win7 SP1 原版32位，你的稳定之选

操作系统发展简史（UnixLinux 篇 + DOSWindows 篇）| Mac 与 Microsoft 之风云争霸

Win11系统提示找不到OEMDefaultAssociations.dll文件的解决办法

Win7系统提示找不到bderepair.dll文件的解决办法

Win7系统提示找不到cscript.exe文件的解决办法

Win7系统提示找不到systeminfo.exe文件的解决办法

Win7系统提示找不到hal.dll文件的解决办法

Win7系统提示找不到winload.exe文件的解决办法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

ThoughtWorks现代企业架构框架白皮书笔记

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载