Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware|电子爱好者

admin管理员组
文章数量:1589821

Title	Authors	Pub	Link
Modular Interactive Video Object Segmentation:Interaction-to-Mask, Propagation and Difference-Aware Fusion	Ho Kei Cheng,Yu-Wing Tai,Chi-Keung Tang	CVPR2021	project

0.Abstract

提出了一个模块化迭代VOS(MiVOS)框架，该框架将VOS任务分解为interaction-to-mask(用户交互产生分割图模块)和mask propagation(分割传播)两个模块，该方法能够得到高泛化能力以及更加准确的分割图。两个模块单独训练，其中，用户交互模块接受用户的交互并产生一个初始的mask，分割传播模块接受初始的mask，在时空记忆中（space-time memory）使用一个新的top-k过滤读取策略实现时间信息传播。为了有效地使用用户的输入，提出了一个新的difference-aware module(差异感知模块)来学习如何正确的融合过去和当前的交互的masks使mask和target frames对齐。我们在DAVIS数据集上以不同的用户交互方式（涂鸦，点击）定性和定量的验证了我们的模型，实验显示，我们的方法超过了当前的SOTA算法同时需要更少的用户交互。此外推动VOS领域的研究和发展，我们构建了一个大规模的合成的带逐像素标注的VOS数据集（4.8M帧）。

3.Methods

模型主要有3个模块：

Interaction Module(交互模块)
Propagation Module（传播模块）
Fusion Module（融合模块）

Interaction Module(交互模块)

在交互模块，假设在第r轮，用户使用涂鸦选取视频帧中的任何一帧进行标注，输入Scribble-to-Mask (S2M)网络得到其mask，此时，用户可以判断该mask是否满足需求，如果用户不满意，则进入第r+1轮，用户继续标注，S2M再产生一个mask，用户再判断，如此循环，直到用户满意为止。
S2M网络使用DeepLavV3+语义分割网络做为backbone，S2M网络接收6通道输入（RGB image+existing mask+positive/negative scribble maps+deals with two cases: initial interaction (where the existing mask is empty) and corrective interaction (where the existing mask contains error).）

mask =  net(RGB, mask, scribble, interaction state)

Propagation Module（传播模块）

传播模块的作用是使用交互模块得到的mask，将其传播到剩余的所有帧中（双向，既向前传播，也向后传播）。

时间传播模块主要是在STM的基础上添加了一个Top-k Filtering模块。

对于前T帧，每一帧都计算一个key和value，存入memory中。在处理当前帧(query)时，计算其key,value，然后使用如下公式计算query和memory的关系，得到一个匹配矩阵F

以前的STMs方法就是对F做一个softmax操作，然后和memory的value做点乘，然后在和当前帧的value做concat。作者认为这种操作有两个问题：1）对于query的每一个位置，权重大部分只对应memory的一小部分帧中，剩下的帧的信息都是噪声。2）这些噪声会随着memory容量的增加而导致模型性能退化。针对于以上观察，作者提出了一个top-k filter操作，只保留匹配矩阵F中top-k帧的信息。具体使用公式2得到一个权重：

然后使用该权重和memory的value做weight of sum操作得到feature m：

然后将feature m和query的value做concat，送入decoder得到第二阶段的mask

mask = decoder(m, q_value)

Fusion Module（融合模块）

在融合模块阶段，首先计算第r-1，r，r+1轮得到的mask之间的差异：

利用公式2的权重矩阵得到对齐后的mask:

然后还额外添加了一个传统的线性系数用于模拟传播过程中可能的衰减形式：

最后，把前面的一系列feature，送入一个decoder，最后一层sigmoid，输出最终的融合后的mask。

fuseMask = residualNetwork(Iti,Mr,Mr-1,A+,A-,nr,nc)

4.Dataset:BL30K

数据集参数：

一些样本：

6.Experiments

在DAVIS interactive validation set上的性能比较：

一些分割结果：
消融实验：

ps:博主是VOS初学者，肯定有对文章理解不到位或者错误的地方，欢迎友好指正。

本文标签： object Segmentation Video Modular Interactive

版权声明：本文标题：Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1728076288a1144517.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware

0.Abstract

3.Methods

Interaction Module(交互模块)

Propagation Module（传播模块）

Fusion Module（融合模块）

4.Dataset:BL30K

6.Experiments

更多相关文章

AttributeError: ‘Model‘ object has no attribute ‘_get_distribution_strategy‘

FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding

video控制条在部分浏览器禁止显示“下载”-解决方法

Python3提示Exception inside application: object.__init__() takes exactly one argument (the instance to

IDEA启动报错：during initialization of VM Could not reserve enough space for object heap

Error occurred during initialization of VM Could not reserve enough space for object heap

【Docker】Segmentation Fault or Critical Error encountered. Dumping core and abor

IE浏览器不支持object-fit的解决方案

Leawo Video Converter（狸窝视频转换器）V8.1.0 下载安装和激活和常见操作说明

推荐一款功能强大的视频修复软件：Apeaksoft Video Fixer

HTML5 video标签禁止下载

TypeError: Object of type *** is not JSON serializable

语义分割标注工具Semantic Segmentation Editor 快速安装指南

java dwg文件_Object java添加dwg文件问题

PASCAL Visual Object Classes Challenge 2011 (VOC2011) 图像标注指南标注规则

小程序 video 控制器外观调整_Kessil 360X Tuna Sun无线控制器使用分享

4K Video Downloader (4K超高清视频下载器）V6.1.46版本发布

论文阅读-Modular Interactive Video Object Segmentation Interaction-to-Mask, Propagation

论文阅读：Compositional Learning for Human Object Interaction

Video-based Evanescent, Anonymous, Asynchronous Social Interaction: Motivation and Adaption to Mediu

发表评论

推荐文章

华为路由器默认用户名密码

程序员常用Linux命令

AutoCAD 2020 简体中文版 珊瑚版：设计师的得力助手

Windows11中文用户名问题:适合于新电脑

台式计算机开不了机,台式电脑开不了机

热门文章

基于NB-IoT的智慧路灯监控系统（NB-IoT专栏—实战篇2:硬件开发）

关于h5唤起App的方式

将linux操作系统迁移到另一个固态硬盘上

unbutu服务器误删文件,ubuntu中恢复rm命令误删文件

【学习笔记】云服务器入门教程（搭建云盘、网站，安装anaconda、WinSCP、宝塔面板等）

Netty快速入门

2019微信公开课张小龙演讲全文

IDEA 2019 激活码（注册码）

Unity VR：XR Interaction Toolkit 输入系统（Input System）：获取手柄的输入

R语言使用interaction.plot函数创建交互关系图进行多因素方差分析（两个或者多个分类变量作为预测变量的方差分析、分析预测变量交互关系的可视化检验）

最新文章

NO pyvenv.cfg file解决办法

ROS queue_size和buff_size设置

Go 1.16中，go module机制的变化 no required module provides package err

国防科大人工智能考研_AI +消费级无人机技术将改变国防部

经典编译错误&amp;警告收集

The dependencies of some of the beans in the application context form a cycle 循环依赖异常处理

Update your application to remove the dependency cycle between beans

windows下配置ssh（FreeSSHD + putty）

打包local .aar文件加载编译问题

靶机渗透练习20-My School

Python3 list 列表操作

SSH连接远程Linux服务器时出现“Server Refused Your Key” 错误的一种解决方法

Ubuntu 22.04 使用私钥登录时提示 server refused our key

springCloud-alibaba-整合springsecurity+oauth2 进行接口保护，使用FeignClient 自定义授权header 进行远程服务调用

【Python】Flask 框架安装虚拟环境报错—处理中......

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

Python3提示Exception inside application: object.init() takes exactly one argument (the instance to

AutoCAD 2020 简体中文版珊瑚版：设计师的得力助手

经典编译错误&警告收集

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载