admin管理员组

文章数量:1534194

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、Abstract
  • 二、Introduction
    • 2.1 引出多模态CoT的方法
    • 2.2 Contributions
  • 三、Framwork
    • 3.1 两阶段多模态CoT
    • 3.2 具体的模型架构
      • 3.2.1 Encodeing:
      • 3.2.2 Interaction:
      • 3.2.3 Decoding
  • 四、Experiments
    • 4.1 Dataset
    • 4.2 消融实验
  • 五、不足与未来发展方向
    • 5.1 不足
    • 5.2 未来可能的方向
  • 总结


前言

思维链在大模型中的应用效果显著,想了解CoT的最新研究,最近看了一篇《Multimodal Chain-of-Thought Reasonging in Language Models》。
本篇文章是我学习阅读《Multimodal Chain-of-Thought Reasonging in Language Models》这篇文章时所记录的笔记,在此作为留存,以供后续回顾。文章中的内容仅供学习参考。

Zhang, Zhuosheng, et al. “Multimodal chain-of-thought reasoning in language models." arXiv preprint arXiv:2302.00923 (2023).
Paper: arxiv/abs/2302.00923
GitHub: https://github/amazon-scien…

一、Abstract

大语言模型利用思维链提示生成中间推理链作为推断答案的基本原理,在复杂推理方面表现出令人印象深刻的性能。现有研究主要集中在语言形态上,文中提出了多模态coT,将语言和图像模态分为两个阶段的框架,分离理由生成和答案推理。通过这种方式,答案推理可以利用多模态信息生成更好的理由。Mulitimodal-CoT,在十亿个参数下的性能比LLM(chat-3.5)高出16个百分点,甚至超过了ScienceQA基准的人类性能。

二、Introduction

2.1 引出多模态CoT的方法

一般有两种方法引出多模态推理

  • 提示LLM:通过将不同模态的输入转换为一种模态的输入,例如将视频模态的字幕利用字幕模型提取字幕,然后将字幕与原始预言输入送到大模型中。但是在字幕提取的过程中存在信息损失的问题,在不同模态表示空间中缺乏相互协同问题。

  • 微调LMs:通过融合多模态特征微调较小的语言模型。这种方法允许灵活调整模型架构来纳入多模态功能。

    为了促进多模态之间的交互文中使用微调小模型。

关键的挑战是,1000亿参数以下的模型容易出现误导模型答案推理的幻觉理论,为了减轻幻觉这个问题文中提出Multimodal-CoT 将语言(文本)和视觉(图像)模态合并到一个两阶段的框架中,该框架将基本原理生成和答案推理分开。通过这种方式可以利用基于多模态的信息更好的生成理由。

2.2 Contributions

• 这项工作是第一个研究在不同模态下的CoT推理。
• 提出一个两阶段的框架,通过微调语言模型来融合视觉和语言表示来表现多模态CoT。该模型能够产生信息的理由来促进推断最终答案。
• 论文中的方法在ScienceQA基准测试中实现了最先进的性能,比GPT-3.5的准确率高出16%,甚至超过了人类的性能。

三、Framwork

3.1 两阶段多模态CoT


基本原理生成阶段:
• 首先提供X={X_language^1,X_vision } 〖 x〗_language^1 表示第一阶段的语言输入,X_vision 表示视觉输入
• 目的是学习一个基本原理生成模型R=F(X)R是基本原理
答案推理阶段:
• 将原理R附加到原始语言X1中 X_language2=X_language1∘R o表示连接
• 将更新后的输入X′={X_language2,X_vision}送到答案推理模型
推断最终的答案A=F(X^′)

3.2 具体的模型架构

首先将语言文本输入Transformer编码器中,获得文本表示,在输入到Tranformer解码器之前与视觉表示交互并融合

3.2.1 Encodeing:

首先将模型语言输入和视觉输入进行编码,采用Transformer最后一层的隐藏状态作为语言表示,利用现有的图像提取模型来将图像矢量化为视觉特征,例如DERT。获得模块快化视觉特征之后,使用可学习的投影矩阵Wh将形状转换为语言相同的形状。

3.2.2 Interaction:

在获得语言输入和视觉表征之后,使用单头注意力机制将文本和图像相关联。dk的维度与Hlanguage相同。

然后使用门控融合机制融合

3.2.3 Decoding

H_fuse 被送到解码器中来预测目标Y

四、Experiments

4.1 Dataset

在ScienceQA基准上进行评估。 ScienceQA是第一个大规模的多模态科学问题数据集。
由于多模态CoT任务需要生成推理链并利用视觉特征
因此使用T5编码器-解码器架构

4.2 消融实验


通过将多模态与单个模式进行对比可以看出多模态的有效性

五、不足与未来发展方向

5.1 不足

在实验结果中可以发现正确的样本结果可能或包含不正确的思维链(10%)。对于不正确的样本,经常会出现常识性错误(88%),还有一种错误是
逻辑错误(12%)思维链中存在矛盾,还有一种情况是CoT是对的,但是不一定和答案相关(6%)。

5.2 未来可能的方向

  • 结合更多信息的视觉特征并进行改进语言-视觉交互,以便能够理解地图和计数
  • 注入常识知识
  • 应用过滤机制(例如仅使用有效的CoT来推断答案,去除不相关的CoT)

总结

文章振翅研究多模态CoT问题,提出多模态CoT将语言和视觉模态纳入一个两阶段的框架中,分离理由生成和答案推理。答案推理利用可以更好的理由。

本文标签: 笔记ThoughtchainMultimodalModels