VLM系列文章1-LLaVA|电子爱好者

admin管理员组
文章数量:1531300

作为VLM系列的第一篇文章，打算以LLaVA入手，毕竟是VLM领域较为经典的工作。

1. 核心贡献

多模态指令跟随数据：包括PT、SFT数据的构造流程；
大型多模态模型：一种新的框架，结构较为简单高效；
评估数据集；

2. 模型架构与重建目标

2.1 模型架构

核心思想就是将视觉特征嵌入到LLM中，作为LLM的prefix（前缀），LLM作为建模的主体。

首先输入的Xv 经过一个vision encoder，比如open-clip等， siglip-so400m-patch14-384，抽取图像特征；
得到Zv经过一个Project W，这个是将视觉特征和LLM进行特征对齐，当然这里的对齐是比较简单，后续的工作包括一些Lora方式（CogView）等；
经过project得到的Hv 转换特征和来自Xq 经过embedding得到的Hq 进行拼接，一起送到LLM中，比如Vicuna；

2.2 训练流程

PT阶段：仅训练Projecter，视觉和LLM固定；
SFT阶段：训练Projecter和LLM，视觉固定；

当然你会想为什么这么设计，为什么是需要两阶段？一阶段不行吗？以及视觉为什么不训练？当然这些实验后续的工作也进行设计，我们后面的一些文章应该会涉及到；

2.3 重建目标

在第一次看这些公式以及重建的目标的时候，自己理解其实是不深刻的，为什么要这么设计，特别是看到仅绿色的序列或者token参与Loss计算的时候，还是有点懵的，自回归的Loss到底是什么了？

之前也阅读了LLava的代码，可能结合代码会有着更加深刻的认识，这里简单的介绍几点。

2.3.1 Conversion

这个是llava代码中比较关键的部分，地址为：llava/conversation.py

在PT和SFT脚本中，有个关键的区别就是有个--version 字段，它在PT和SFT阶段一般是不同的。在PT阶段一般设置的是plain，这个不同的LLM可能都是这个，而SFT阶段可能设置就不一样了，有设置llava_llama_2 、mistral_instruct 等。这个设置的不同的是主要是因为不同的LLM在训练时候使用的template是不同的，因为它需要控制不同的角色，比如system, user，assistant，这部分内容可参考：huggingface.co/docs/transformers/main/en/chat_templating

具体来看：

在PT阶段，使用plain 模板，最终在preprocess函数中使用preprocess_plain 本质上是直接将问题，变成<image> 了，因为PT默认使用的数据集是单轮的，经过CC3M过滤的图像描述数据集，PT阶段主要是视觉和LLM对齐；
SFT阶段：主要使用的

因为这里的情况稍微复杂一点，区分有图像和没有图像（可能只是纯文本作为SFT数据），那么有图像的话就将图像标记-200插入进去，只是在第一轮插入；最后的返回有两个，一个是input_ids一个是labels，那么label主要会有一个IGNORE_INDEX (-100），这个决定了哪些inputs_ids的数值在计算loss会被忽略。

2.3.2 LlavaMetaForCausalLM

这个函数是比较重要的，比如我们建模llava_llama 这个函数，

不同的LLM最后都通过多继承的方式继承LlavaMetaForCausalLM, 该类的核心就是将来自的视觉特征和LLM特征插入。因为这里不是使用input_ids，也是将其变成emdedding，然后将视觉特征进行插入。

2.3.3 Loss计算

在训练代码中，其实没有显式的调用loss，它其实是用的shift loss进行计算的。-100 在这里就体现了。

3 数据构造

3.1 PT阶段

主要是在CC3M基础上进行过滤，使用Spacy 工具对名词性短语进行排序，核心的思想就是过滤出现频率太低的，同时也抑制出现频率太高的。

3.2 SFT阶段

主要是借助GPT-4（text-only）进行ICL学习构造样本。

Conversation：对话数据，共 58K 个样本
Detailed description：对图像丰富而全面的描述，共 23K 个样本
Complex reasoning：复杂推理数据，数据的回复通常需要遵循严格的逻辑逐步推理，共 77K 个样本

Conversation 数据的构造思路如下：

给出一个 system prompt，要求 GPT4 根据提供的图片描生成多轮对话
提供几个示例，便于 GPT4 理解以及生成类似的多轮对话
将上面的内容输入给 GPT4，GPT4 返回多轮对话

这部分详细可参考：LLaVA（五）构造多模态数据感觉讲的挺好，这里不在赘述了。

4 结果

结果还算可以。

5 参考文献

Visual Instruction Tuning
多模态大语言模型 LlaVA 论文解读：Visual Instruction Tuning
LLaVA（一）LLaVA 论文解读

本文标签：系列文章 VLM LLaVA

版权声明：本文标题：VLM系列文章1-LLaVA 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1725457536a1024380.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

VLM系列文章1-LLaVA

1. 核心贡献

2. 模型架构与重建目标

2.1 模型架构

2.2 训练流程

2.3 重建目标

2.3.1 Conversion

2.3.2 LlavaMetaForCausalLM

2.3.3 Loss计算

3 数据构造

3.1 PT阶段

3.2 SFT阶段

4 结果

5 参考文献

更多相关文章

PWA(Progressive Web App)入门系列：（一）PWA简介

【Linux系列】Linux查看日志常用命令大全，再也不怕不会看日志啦

linux基本功系列-which命令实战

【ECharts系列】ECharts 鼠标悬停线格式化

java删不掉_java删除文件删不掉相关阅读-java删除文件删不掉文章阅读-123文学网...

文本编辑器激活系列（二）：UltraEdit安装、激活、汉化教程

下载微信文章中腾讯视频的方法

arch系列安装腾讯会议linux版本

职业规划系列：软件工程师的十大层次

【愚公系列】2024年02月 《网络安全应急管理与技术实践》 016-网络安全应急技术与实践（Web层-应急响应技术总结）

【Mac 教程系列】Mac 实用命令大全

AGI系列（4）：提示词的优化、打分、迭代

2020最全前端面试系列（浏览器原理）（最容易忽视的面试隐藏大杀器）

App系列------app获取system权限

路由器系列：华为路由器：首次登陆配置Console、Telnet登录、Web登录（亲测有效）

华为AR1200系列路由器WEB登录服务开启

今日头条文章采集ChatGPT3.54.0驱动浏览器改写文章软件说明文档

AMD锐龙Ryzen CPU系列安装黑苹果MacOS 10.14 Mojave安装教程

AMD fx4300，FX系列的CPU有核显吗

【Android开发—智能家居系列】（三）：手机连接WIFI模块

发表评论

推荐文章

电脑黑屏只有鼠标能动

什么是GPU？GPU和显卡的关系？GPU国产化布局？

Windows 10家庭版也能共享打印机（上）启用Guest账户

安装Windows 10时出现 Windows无法打开所需的文件 E:Sourcesinstall.wim 错误代码0x8007000D的解决办法

青提WiFi微信小程序项目介绍

热门文章

安全多方计算之四：比特承诺

解决python运行selenium程序执行完后，Chrome浏览器自动关闭的问题

win7服务器如何还原系统教程视频,win7如何系统还原_win7系统还原教程

【原】个人对win7开机黑屏只有鼠标排障总结

启动系统时无法正常启动提示windowssystem32winload.efi 解决方案

linux内核amdgpu源码解析

Linux下搜狗拼音输入法无法输出中文以及显示界面异常

Ubuntu 安装搜狗拼音输入法

Ubuntu下的“类搜狗拼音输入法”

SCSI硬盘系统无法启动取数据办法

最新文章

分区助手合并移动硬盘分区后，无法访问的解决方法

linux kvm挂载移动硬盘,UNRAID 篇四：虚拟机的配置与创建~

移动硬盘内容变成快捷方式处理

测试移动硬盘的真实容量的软件,速度测试：实际拷贝超100MBs

树莓派_挂载移动硬盘

移动硬盘插入笔记本会后，右下角有图标显示,但是我的电脑里面不显示，导致打不开硬盘

判断磁盘类型（U盘，硬盘(移动硬盘还是电脑内置硬盘)）

win10 移动硬盘“拒绝访问”解决方案

Linux服务器如何识别移动硬盘？

移动硬盘（PSSD）中文件占用空间远大于文件大小

移动硬盘使用什么文件系统格式

【毕业设计】基于的单片机的移动硬盘设计与实现 - stm32 嵌入式 物联网

TOSHIBA移动硬盘挂载Macos系统的方法

Mac电脑移动硬盘文件呈灰色，无法打开怎么办？

识别到硬盘 计算机不显示盘符,Win10系统下移动硬盘可以识别但是不显示盘符的解决方法...

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【愚公系列】2024年02月《网络安全应急管理与技术实践》 016-网络安全应急技术与实践（Web层-应急响应技术总结）

【毕业设计】基于的单片机的移动硬盘设计与实现 - stm32 嵌入式物联网

识别到硬盘计算机不显示盘符,Win10系统下移动硬盘可以识别但是不显示盘符的解决方法...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载