admin管理员组

文章数量:1590161

作者:Runmin Cong , Qinwei Lin , Chen Zhang , Chongyi Li , Xiaochun Cao , Qingming Huang , and Yao Zhao

期刊:IEEE Transactions on Image Processing ( Volume: 31) 2022

代码:rmcong/CIRNet_TIP2022 (github)

目录

Overview

Progressive Attention guided Integretion(PAI)

Refinement Middleware

Self-Modality Attention Refinement(smAR)

Cross-Modality Weighting Refinement(cmWR)

Importance Gated Fusion(IGF)

Loss Funtion


网络框架:

Overview

两分支backbone均为CNN网络,输入分别是RGB和Depth图像。在encode阶段,高层次的RGB和Depth特征图通过Progressive Attention guided Integretion(PAI)生成RGB-D特征图。考虑到自模型的信息冗余和跨模态的内容完整,作者设计了self-modality attention refinement (smAR)和cross-modality weighing refinement (cmWR)。在decode阶段,通过importance gated fusion(IGF)完成RGB和Depth特征图和RGB-D特征图的融合,也就是说跨模态融合在encode和decode均出现。最终三个分支输出预测显著图。

Progressive Attention guided Integretion(PAI)

设计这部分主要考虑两个方面:(1)多层次信息融合;(2)信息提取和增强。对于(1),不同层次具有不同的信息表达,于是设计了由粗到细的跨层次融合方法;对于(2),仅有concat-conv的方式会导致信息冗余和特征混乱,于是设计了空间注意力来增强信息完整性和减小冗余。

  

从第三层特征开始,对RGB和Depth特征图进行concat->conv->BN->activation,分别生成。使用第三、四层的结果分别为四、五层生成空间注意力超量,再进行空间增强。

Refinement Middleware

一个编解码之间的连接,用于修复本模态和跨模态的特征图,作者在此部分主要考虑了两个方面:(1)每个模态都包含由冗余的空间和通道信息,这给特征的学习造成了麻烦;(2)不同模态的联系和互补关系,比如RGB模态包含色彩对比、Depth模态包含结构对比。

针对这两方面,作者分别提出了Self-Modality Attention Refinement(smAR) Unit和Cross-Modality Weighting Refinement(cmWR) Unit

 

Self-Modality Attention Refinement(smAR)

目前主要的空间和通道注意力使用的方法有三种:根据特征层次不同单独使用;对单一特征图连续地使用;平行使用再融合。但这三种方法均有缺点:单独使用不一定适用于所有任务;连续使用对空间和通道使用顺序要求严格;平行使用容易产生信息冗余并且同时只能增强一个方面,增加了计算量。针对这些问题作者提出了spatial-channel 3D attention tensor:1)使用平行方式提高鲁棒性,建立3D注意力模型减小计算量;2)同时在空间和通道维度修复单模态特征。

 对于encode阶段最后产生的单模态特征图(图中是),先对其进行空间和通道注意力操作,再通过矩阵乘法生成3D注意力矩阵

再与点乘、加上残差块、卷积,生成新的单模态特征图

Cross-Modality Weighting Refinement(cmWR)

smAR单元修复了单一模态,但还没有充分利用不同模态间的联系和完整性,因此提出cmWR单元进一步获取长期的不同模态的依赖

将smAR的输出通过一个可学习的矩阵(1*1conv+resharpe实现)转换为HW*C/2或者C/2*HW的四个矩阵

相乘后生成两个HW*HW的矩阵,这两个矩阵softmax激活后再点乘生成注意力图

最终生成的跨模态全局相关性权值M矩阵,用以修复原图

Importance Gated Fusion(IGF)

作者认为在encode阶段更多地生成一般特征,而在decode阶段强调与显著区域有关的特征,因此,在decode阶段设计了一种跨模态信息交互的方法,考虑让RGB和Depth流继续引导RGB-D流。为了更有效地筛选有价值的信息,设计了一个动态更新可学习权重的重点矩阵,用以选择性地控制跨模态的信息,比如筛掉一些低质量的特征图。

 分别在RGB和Depth分支将encode和decode特征图通道维concatenate->double(Conv->BN->ReLU)生成两个显著预测图传递到下一层次,两者生成的显著预测图再通道维concatenate->Conv->BN->ReLU,生成decoder特征图。

由上层的IGF特征图与本层的通过卷积->通道注意力->sigmoid激活生成本层的

如此便生成第层次的IGF特征图

注意这里的与框架中输入的RGB和Depth的encode阶段特征图序号相反

Loss Funtion

作者对RGB、Depth和IGF三分支预测显著使用了交叉熵损失函数

 

 

 

本文标签: 论文CrossModalityNETInteraction