【论文阅读】CIR-Net: Cross-Modality Interaction and Refinement for RGB-D Salient Object Detection|电子爱好者

admin管理员组
文章数量:1590161

作者：Runmin Cong , Qinwei Lin , Chen Zhang , Chongyi Li , Xiaochun Cao , Qingming Huang , and Yao Zhao

期刊：IEEE Transactions on Image Processing ( Volume: 31) 2022

代码：rmcong/CIRNet_TIP2022 (github)

Overview

Progressive Attention guided Integretion(PAI)

Refinement Middleware

Self-Modality Attention Refinement(smAR)

Cross-Modality Weighting Refinement(cmWR)

Importance Gated Fusion(IGF)

Loss Funtion

网络框架：

Overview

两分支backbone均为CNN网络，输入分别是RGB和Depth图像。在encode阶段，高层次的RGB和Depth特征图通过Progressive Attention guided Integretion(PAI)生成RGB-D特征图。考虑到自模型的信息冗余和跨模态的内容完整，作者设计了self-modality attention refinement (smAR)和cross-modality weighing refinement (cmWR)。在decode阶段，通过importance gated fusion(IGF)完成RGB和Depth特征图和RGB-D特征图的融合，也就是说跨模态融合在encode和decode均出现。最终三个分支输出预测显著图。

Progressive Attention guided Integretion(PAI)

设计这部分主要考虑两个方面：(1)多层次信息融合;(2)信息提取和增强。对于(1)，不同层次具有不同的信息表达，于是设计了由粗到细的跨层次融合方法；对于(2)，仅有concat-conv的方式会导致信息冗余和特征混乱，于是设计了空间注意力来增强信息完整性和减小冗余。

从第三层特征开始，对RGB和Depth特征图进行concat->conv->BN->activation，分别生成。使用第三、四层的结果分别为四、五层生成空间注意力超量，再进行空间增强。

Refinement Middleware

一个编解码之间的连接，用于修复本模态和跨模态的特征图，作者在此部分主要考虑了两个方面：(1)每个模态都包含由冗余的空间和通道信息，这给特征的学习造成了麻烦;(2)不同模态的联系和互补关系，比如RGB模态包含色彩对比、Depth模态包含结构对比。

针对这两方面，作者分别提出了Self-Modality Attention Refinement(smAR) Unit和Cross-Modality Weighting Refinement(cmWR) Unit

Self-Modality Attention Refinement(smAR)

目前主要的空间和通道注意力使用的方法有三种：根据特征层次不同单独使用；对单一特征图连续地使用；平行使用再融合。但这三种方法均有缺点：单独使用不一定适用于所有任务；连续使用对空间和通道使用顺序要求严格；平行使用容易产生信息冗余并且同时只能增强一个方面，增加了计算量。针对这些问题作者提出了spatial-channel 3D attention tensor：1)使用平行方式提高鲁棒性，建立3D注意力模型减小计算量；2)同时在空间和通道维度修复单模态特征。

对于encode阶段最后产生的单模态特征图（图中是），先对其进行空间和通道注意力操作，再通过矩阵乘法生成3D注意力矩阵

再与点乘、加上残差块、卷积，生成新的单模态特征图

Cross-Modality Weighting Refinement(cmWR)

smAR单元修复了单一模态，但还没有充分利用不同模态间的联系和完整性，因此提出cmWR单元进一步获取长期的不同模态的依赖

将smAR的输出通过一个可学习的矩阵(1*1conv+resharpe实现)转换为HW*C/2或者C/2*HW的四个矩阵

相乘后生成两个HW*HW的矩阵，这两个矩阵softmax激活后再点乘生成注意力图

最终生成的跨模态全局相关性权值M矩阵，用以修复原图

Importance Gated Fusion(IGF)

作者认为在encode阶段更多地生成一般特征，而在decode阶段强调与显著区域有关的特征，因此，在decode阶段设计了一种跨模态信息交互的方法，考虑让RGB和Depth流继续引导RGB-D流。为了更有效地筛选有价值的信息，设计了一个动态更新可学习权重的重点矩阵，用以选择性地控制跨模态的信息，比如筛掉一些低质量的特征图。

分别在RGB和Depth分支将encode和decode特征图通道维concatenate->double(Conv->BN->ReLU)生成两个显著预测图传递到下一层次，两者生成的显著预测图再通道维concatenate->Conv->BN->ReLU，生成decoder特征图。

由上层的IGF特征图与本层的通过卷积->通道注意力->sigmoid激活生成本层的

如此便生成第层次的IGF特征图

注意这里的与框架中输入的RGB和Depth的encode阶段特征图序号相反

Loss Funtion

作者对RGB、Depth和IGF三分支预测显著使用了交叉熵损失函数

本文标签：论文 Cross Modality NET Interaction

版权声明：本文标题：【论文阅读】CIR-Net: Cross-Modality Interaction and Refinement for RGB-D Salient Object Detection 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1728076114a1144495.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【论文阅读】CIR-Net: Cross-Modality Interaction and Refinement for RGB-D Salient Object Detection

Overview

Progressive Attention guided Integretion(PAI)

Refinement Middleware

Self-Modality Attention Refinement(smAR)

Cross-Modality Weighting Refinement(cmWR)

Importance Gated Fusion(IGF)

Loss Funtion

更多相关文章

Channel Interaction Networks for Fine-Grained Image Categorization-笔记

【OpenLayers】Select Interaction 手动添加选择的要素

Channel Interaction Networks for Fine-Grained Image Categorization《阅读笔记》

手把手教你使用SPSS做出亚组分析的交互作用效应(p for Interaction)

【ACM MM 2021】Cross-modality Discrepant Interaction Network for RGB-D Salient Object Detection

Bi-directional Interaction Network for Person Search 阅读笔记

论文解读：Prediction of Protein–Protein Interaction Sites Using Convolutional Neural Network

Prism8.x+WPF报错Interaction不存在

开源GIS（五）——openlayers中interaction的select、draw与modify

论文解读：KGNN: Knowledge Graph Neural Network for Drug-Drug Interaction Prediction

XR Interaction Toolkit教程⭐四、实现与UI交互

WEBGIS使用OpenLayers3中Interaction绘制长方形和正方形

OpenLayers3基础教程——OL3 介绍interaction

Openlayers 遍历查找交互事件（ol.interaction）

Modularized Interaction Network for Named Entity Recognition

WPF Interaction

有关OpenLayers中ol.interaction.Translate的hitTolerance属性的问题

CVPR2019-行人重识别-Interaction-and-Aggregation Network for Person Re-identification

MPAndroidChart 教程：与图表的交互 Interaction with the Chart

Active Interaction 使用指南

发表评论

推荐文章

连接真机开发安卓(Android)移动app MUI框架——混合式开发（一） （敲详细）

APP常见测试点总结

实验3 Linux常用命令

Linux命令高清壁纸

TCPIP，HTTP，RPC、SOA、长连接短连接等的区别

热门文章

使用a标签下载文件，解决页面跳转的问题

PostgreSql linux 常用命令

Linux常用命令和快捷键大全

linux常用命令command not found的解决方案（自己整理）

win7服务器远程灰色的,小编为你细说win7系统远程协助复选框是灰色的详细技巧...

计算机一个远程控制用户怎么回事,电脑如何远程操作_两个电脑怎么远程控制-win7之家...

回收站清空的文件能恢复吗，数据恢复专家为你搞定！

电脑处理器排行榜2021版

一网打尽 忘了root密码？开机启动故障？Linux启动故障排除-开机自动加载服务

树莓派 忘记密码的解决方法

最新文章

VM安装Ghost XP的方法

服务器硬盘能做ghost,如何使用ghost给CCBoot制作镜像？

oracle vm virtualbox安装xp,如何在VirtualBox虚拟机中安装XP系统？

kali linux 忘记密码如何重置|在 kali 上重置密码

linux之Centos系统破解密码两种方法

windows server 2003 详细安装过程带镜像资源

gho镜像安装器linux,Ghost镜像安装器

华为手机计算机快捷设置密码,华为手机首次重启绘制图案密码后让输入解锁密码。我没有设置呀？怎么办...

树莓派 忘记密码的解决方法

CentOS6忘记密码的解决办法。

VMware17虚拟机安装Windows XP详解

轻松Ghost XP系统！

【编辑】VMware安装没有引导的Ghost镜像win10

linux 找回登录密码,linux找回密码

Ubuntu 重置密码

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

连接真机开发安卓(Android)移动app MUI框架——混合式开发（一）（敲详细）

一网打尽忘了root密码？开机启动故障？Linux启动故障排除-开机自动加载服务

树莓派忘记密码的解决方法

树莓派忘记密码的解决方法

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载