Faithful Vision-Language Interpretation via Concept Bottleneck Models (FVLC)|电子爱好者

admin管理员组
文章数量:1609966

本篇文章发表于ICLR 2024。

文章链接：https://openreview/attachment?id=rp0EdI8X4e&name=pdf

一、概述

由于ICLR 2024刚刚放榜不久，这篇论文在官网上还没有更新作者，状态还停留在审稿阶段，但实际上已经被接收了。

比较有趣的是，作者在本文摘要的后面引用了美国著名历史学家丹尼尔·J·布尔斯廷的一句话，意思大概是：“阻碍我们发现新知识的并不是无知，而是对知识的自以为是。”这句话在一定程度上也揭示了发展可解释深度学习的意义和思路——真正自以为是的究竟是不可解释的黑盒模型还是我们人类，抑或是我们都是？我们人类运用的知识一定是正确/全面的吗，会不会限制我们对新知识的发现呢？——这些值得我们去思考。

从标题和摘要就能看出来，这篇文章也是CBMs“大家庭”的一员。概念瓶颈模型舍弃了传统端到端的方式，在最终预测之前添加了一个概念瓶颈层 (Concept Bottleneck Layer, CBL)，用以预测人类可理解的概念，通过这些概念再进一步地得到最终预测，由此实现了模型的可解释性。众所周知，概念瓶颈模型的这种形式具有两个比较明显的缺点，首先是因为对输入信息进行了压缩，模型会存在accuray-interpretability的trade-off；此外，概念瓶颈层中的概念需要人类自行定义，需要大量的人工annotation，大大限制了CBM在现实中的应用。

随着近几年多模态大语言模型的发展，这个问题在一定程度上被得以解决。Label-Free CBM借用pre-trained GPT-3自动生成concepts，并用CLIP-Dissect将网络提取到的图像特征与自动生成的concepts进行匹配 (align)，从而消除了人工标注的步骤。但是，输入图像与文本易被噪声所干扰，使用pre-trained模型存在unstable的问题，因此本篇文章的作者在Label-Free CBM的基础上提出了更加stable的模型——Faithful Vision-Language Concept (FVLC) models。

作者指出，faithful concept应该具备四个特性：

Faithful concept应该尽可能与original concept一致：Significant overlap between the top-k indices of the “faithful concept” and the original concept, ensuring interpretability.
在concept generation过程中可以抵抗噪声和干扰：Inherent stability, with the concept vector remaining robust against random noise and perturbations during LLM concept set generation.
预测结果要与vanilla CBMs保持一致：A prediction distribution close to that of the vanilla CBMs, preserving its outstanding performance.
Output distribution具备稳定性(stable)：Stable output distribution, remaining robust during self-supervised learning and LLM concept set generation, even in the presence of perturbations.

二、方法

在具体介绍本文提出的方法之前，我们先来回顾一些知识点。

1. Concept Bottleneck Models (CBMs)

首先是概念瓶颈模型CBMs，这一部分已经写过很多篇博客了。如果大家对CBMs熟悉的话，应该知道CBMs有两大主要缺点：1. 因为原始数据特征的不完全提取而导致的性能损失； 2. 需要大量的人工标注。针对这两个问题，已经有大量文献提出了潜在的解决方法，比如SENN、PCBM、Label-Free CBM等。

回顾一下CBMs的notation：We consider a classification task with a concept set denoted as and a training dataset represented as , where for , is the feature vector, denotes the label, where corresponds to the number of classes, and denotes the concept vector whose -th entry represents the weight of the concept . In CBMs, we aim to learn two representations, one transforms from the input space to the concept space, which is represented by . The other one maps from the concept space to the prediction space, which can be denoted by . For any input , we aim to make its predicted concept vector and prediction to be close to its underlying ones.

2. Label-free CBMs

Label-free CBMs有四个步骤：

Step 1: Concept set creation and filtering.

询问GPT-3一系列问题并做筛选，产生概念集合；

Step 2 and 3: Learning the Concept Bottleneck Layer (CBL).

学习从特征空间到概念空间的prejection weights 。具体的做法是首先使用CLIP生成concept activation matrix ，其中与分别为CLIP中的image encoder与text encoder，矩阵的行代表不同的图片，列代表不同的概念，其中的元素代表图片 i 中概念 j 的存在情况（表示为乘积）。是一个的矩阵，代表了特征空间到概念空间的映射，。用表示我们关注的神经元，所有图片在该神经元上对应的activation pattern可以表示为，优化目标是使得第 i 个神经元与第 i 个concept尽可能对齐/匹配，由以下式子给出：

Step 4: After successfully learning the Concept Bottleneck Layer, the next step involves training the final predictor using the fully connected layer.

学习从概念到类别的映射，

接下来介绍本文提出的FVLC。

3. Faithful Vision-Language Concept

由于Label-free CBMs概念集合的产生依赖于GPT-3，因此可能会引入不稳定(instability)和扰动(perturbation)。此外，不仅概念会被干扰，输入图片也会不可避免地存在被干扰的风险，因此在以上情况下更需要保持概念的stability，也就是所谓的“faithful concept”。

那么什么是faithful concept？由上所述我们可以知道，faithful concept要具备当输入或概念集本身被扰动时概念向量仍然能够保持稳定的能力。我们应该对此进行合理的定义。（图片截取自原论文）

定义一：

两个概念向量按激活值从大到小的顺序排列后前 k 个concepts的overlap程度

此处是为了后面比较faithful concepts与original concepts之间的差异所作出的定义。

(注: 是一个包含了concept索引的集合，而并不是具体的concept，因此后面对concept进行perturbation后，对于stable and faithful concept而言，这个索引集是不会发生太大变化的，即使concept本身发生了变化。)

定义二：

Similarity of Explanation: faithful concept 与original concept 的 top-k1 overlap 程度大于等于，易知对应于二者的top-k1 concepts完全相同。这一点是为了保证faithful concept要尽可能与original concept在前 k1 个concepts上保持一致；
Stability of Explanation: 进行的扰动后的概念与扰动前的概念的top-k2 overlap程度大于等于，易知对应于二者完全相同。这一点是为了保证扰动后概念向量仍然不会发生太大变化(具体来说是扰动后概念的rank尽可能与原来保持一致)；
Closeness of Prediction: 用faithful concept与original concept产生的结果要尽可能一致，代表某种距离度量比如KL散度，时对应于二者的预测结果完全一致；
Stability of Prediction: 对faithful concept进行扰动后的预测结果不会发生太大变化，时对应于二者的预测结果完全一致；

整体上，我们可以说：

4. FVLC Framework

这一节的写作上有点乱，领会精神吧......

Sensitivity: 除了上面讨论的similarity与stability，sensitivity敏感性指的是，当我们排除掉(exclude)关键的concep时预测应该表现出敏感性，而对其进行微小扰动时应该表现出稳定性。

让我们再次回到定义二，总结一下各个参数的理想值应该是什么：

Top-k approach: 尽可能接近于1；

Stability: 应该尽可能大，尽可能接近于1；

Prediction: 应该尽可能大，尽可能接近于0；

网络整体示意图：

整体的做法和Label-free CBM基本是一致的，只是使用来限制网络以产生faithful concepts。总体的目标函数为：

这四项分别对应于：prediction closeness，concept similarity，prediction stability，concept stability。

可以使用PSGD解决这个优化问题，但是因为top-k overlap function 是不可微的，所以要用surrogate loss来替代。

具体来说，只优化前k个entries并简单地使用使得它们尽可能接近，见下：

（然而，从交集变为的“逐点匹配”，虽然使损失函数可微了，但对concept的rank也进行了限制。也就是说，如果是使用原本的交集操作，只要top-k中的concepts存在就行了，对顺序没有要求——比如perturbation之前top-k concepts的indices是{1,3,5,7}，perturbation之后是{3,1,7,5}，交集的结果是二者“完全重合”，但用则不是。）

从而，放宽后的目标函数变为：

三、实验及结果

1. Experimental Setup

Datasets: CIFAR-10、CIFAR-100 、CUB和Places365.

Addition of perturbations:

Word perturbation 1 (WP1): 将full concepts输入到GPT-3并让其将5%或10%的单词替换为同义词；
Word perturbation 2 (WP2)选择text encoder的最后一层embedding，添加噪声：
；
Input perturbation (IP): 向输入图像中添加高斯噪声。

Evaluation Metrics: Total Concept Perturbation Change (TCPC) and Total Output Perturbation Change (TOPC).

Backbone:

CIFAR: CLIP image encoder

CUB: ResNet-18

Places365: ResNet-50

2. Results

Utility evaluation:

第一行standard指的是没有concept bottleneck layer的黑盒模型；

结果显示在各种扰动下FVLC的表现都是最好的。

Stability evaluation:

perturbation不会引起concept与prediction的较大变化；

Ablation Study:

本文标签： language interpretation Faithful Vision Models

版权声明：本文标题：Faithful Vision-Language Interpretation via Concept Bottleneck Models (FVLC) 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1728575705a1164441.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

Faithful Vision-Language Interpretation via Concept Bottleneck Models (FVLC)

一、概述

二、方法

三、实验及结果

1. Experimental Setup

2. Results

更多相关文章

Natural Language Inference Over Interaction Space(DIIN)阅读笔记

AUTORT 论文翻译: EMBODIED FOUNDATION MODELS FOR LARGE SCALE ORCHESTRATION OF ROBOTIC AGENTS

哥本哈根诠释（Copenhagen Interpretation）

【软件分析第14讲-学习笔记】抽象解释 Abstract Interpretation

[DICOM] Photometric Interpretation Attribute (0028, 0004) Tag 的讲解

Faithful Vision-Language Interpretation via Concept Bottleneck Models (FVLC)

CS61A The Structure and Interpretation of Computer Programs

Structure and Interpretation of Computer Programs笔记

机器学习-Probabilistic interpretation

推荐：ECCV2022-Paper-Code-Interpretation - 技术探索的瑰宝库

光模块行业术语之名词interpretation（三）

An Interpretation of Logistic Regression

Multicarrier Interpretation of OTFS（OTFS的多载波解释）（7）⭐

signature=874d35de771f000cd34718a6fed95e40,The Interpretation Problems of Multilingual Treaties

signature=c6caa89b4de0f520e4ec0147d95111d3,Local luminance amplitude modulates the interpretation of...

AOT JIT and Interpretation

Interpretation of 403 Bounded biharmonic weights

贝叶斯方法（Bayesian approach） —— 一种概率解释（probabilistic interpretation）

The distinct interpretation of the $(),${} between make and shell

《structs and interpretation of computer program》讀書筆記

发表评论

推荐文章

鸿蒙系统和安卓的区别在哪里，有什么不同

CSAPP: BombLab 拆炸弹谜题题解（x86 环境）

实习笔记 C#创建excel表格并且学会使用NPOI

安卓盒子root--包好

linux 鬼精灵漏洞,鬼精灵Grinch：比Bash破壳（shellshock）更严重的Linux漏洞

热门文章

苹果CMSV10模板-MXoneV10.8魔改版-二开大气短视模板-2023-12-30

固态硬盘SATA与NVME区别

理解Systemd服务重启策略：on-failure vs always

TDengine3.0全方位安装体验与数据订阅进阶功能实践

PyTorch Bug 记录：one of the variables needed for gradient computation has been modified by an inplace

互联网摸鱼日报(2024-09-18)

2012年50款最佳iPhone应用

如何用EXCEL和PPT制作动态“表格”分析算法题目

一个shell中诡异问题的解决

Fabric-samples 1.4商业票据教程详细过程（Commercial paper tutorial）

最新文章

[学习笔记]2020年win10最常用dos命令以及win+R即可运行的命令（使用命令打开自己想要的内容，总比找不到更好，赶快收藏）

史上最详细的Studio One 6.6.2破解版2024最新图文安装激活教程（附Crack下载）

WIN2012远程桌面授权服务器许可证问题解决方法

机器学习环境的搭建和使用----anacondajupytertensorflow-gpu opencv等 win10安装和常用使用方法总结

CorelDRAW2024精简版安装包下载包含CDR2024绿色永久激活码

win10系统连接wifi后可以上网但是显示【无Internet，安全】解决 and Maple初始化失败问题

EditPlus激活码

Xshell完美连接win10 Linux子系统

win10上成功运行faster-rcnn.pytorch-1.0

Beyond Compare 软件如何永久试用？

Office激活后还是弹激活窗口解决办法

typroa的永久使用

Win10下安装OpenVINO

【关闭个人数据跨境传输】

2024年手把手教你下载、安装和激活Guitarpro8中文永久破解版（附Crack）

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载