半监督交互式视频物体分割 Fast User-Guided Video Object Segmentation by Interaction-and-propagation Networks|电子爱好者

admin管理员组
文章数量:1589945

Aim

实现一种视频分割的工作流：在视频的任意一帧上进行交互得到当前帧的修正结果，并传播到剩余帧。

Contribution

两个模块：Interaction Network 和 Propagation Network。
– Interaction Network：接受用户的交互 (如涂抹) 来分割前景物体。
– Propagation Network：将交互的帧上的分割结果，传播到其他相邻的帧。
– 将其通过 Feature Aggregation Module 的方式 internally 连接在一起，且相互的输出作为对方的输入而 externally 连接。
Multi-Round Training Scheme：模拟真实的交互式视频分割的场景。一次 Training Iteration 包含 Multi-Round，即多次交互 + 传播的过程。通过这样的方式，网络能够理解交互的意向并且在训练过程中修正错误。

Motivation 和 Related Work

Frame-by-frame 的操作 => Round-based interaction：挑选一帧进行标记，然后计算视频中剩余所有帧的结果。Round 越多效果越好
Unsupervised Methods：基于 appearance 或者 motion 显著性，而不能准确地挑选感兴趣的物体。
Semi-Supervised Methods：所谓半监督就是仅仅给出视频的一帧的金标准 (注意这里不是交互的方式)，然后目标是如何传播到整个视频序列。
– Online Learning： Fine-tuning at test time，然后对于每一帧进行 static image segmentation。
– Propagation-based：Bilateral Filter，Siamese two-stream networks (利用模拟的训练图像)也是本文 feature aggregation的启发

Methods

工作流

给定初始交互，仅仅根据交互信息得到所有帧上的分割结果。然后用户给出修正交互，算法根据初始分割结果和修正交互对上次结果进行修正。每个子网络的输入都有上一个round的分割结果。对于 Interaction Network，上一个 round 的分割结果是 Propagation Network 的输出；对于 Propagation Network，另一个输入上个时间点的分割结果是 Interaction Network 的输出

ROI 的设置

为了解决尺度问题。通过 ROI 使得 Training Loss 具有尺度不变性，而不用使用 balanced loss function。

Feature Aggregation Module

目标：避免 Propagation 过程中的误差累加。
方法：不同于传统方法比如用 Siamese network 直接考虑 reference frame，我们考虑的是用户交互帧中的信息。因此提出特征融合模块，积累所有之前的 Interaction Network 中编码的交互信息。将其 concat 在 Propagation Network 中尤其对于 Long-term 的传播具有很好的作用。
-Self-Attention机制：

Training 细节

Loss 的计算：对于每个 iteration, 对于每个中间结果计算 loss，然后进行反向传播。
在模拟的Static 图像上预训练，再在真实的 Video 上进行 Fine-Tuning：通过随机的形变等生成模拟的 video，只不过没有时间上的真实的信息。

Testing 细节

Propagation 还是存在误差累计，尤其是目标帧距离交互帧很远的时候。因此采用 continuous updating 和 restricted propagation。

Ablation Study

测试各个模块，和在模拟图像上预训练的有效性

Conclusion

其实之前就有一篇做交互式视频分割的文章 A. Benard and M. Gygli. Interactive video object segmentation in the wild. arXiv preprint arXiv:1801.00269, 2017.2，但是方法设计上没有本文来的巧妙 (Interaction-and-Propagation Network的贡献)。
另外，通过 Self-Attention 来设计 Propagation Network，能够直接考虑所有之前的交互信息，也是一个很值得玩味的点。
另一个小点：这样的修正 Multi-Round 结果，在设计框架时反应为每个 network 的输入都有上一个 round 的分割结果，其他的输入就是不同 network 的不同任务所需要的。

本文标签：物体视频 User Guided Video

版权声明：本文标题：半监督交互式视频物体分割 Fast User-Guided Video Object Segmentation by Interaction-and-propagation Networks 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1728077325a1144648.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

谷歌浏览器无法自动播放视频问题

2天前

在网站中，可能有时候需要一个展示效果... 这时候我们或许会采用视频处理，但自动播放会遇到一些小问题以下是谷歌的声明： 谷歌正在一步步解决Chrome浏览器遇到的站点自

谷歌浏览器中video播放视频进度条无法拖动，一点击进度条就回到0重新播放

2天前

问题：一个.mp4视频进度条无法拖动，只在谷歌浏览器中有问题，火狐中没有问题，console也不报错。初步排查到的bug原因:与Video标签适配的

谷歌浏览器无法显示上传视频的预览图

2天前

要实现的功能一个和上传图片极其相似的功能，只不过换成了上传视频，选择完文件后也要有预览图。问题本来以为没什么问题的，因为网上有许多关于视频预览图的文章&#

androidstudio开发教程视频，android手机开发者模式

2天前

一、Android面试题 Android面试题包括Android基础，还有一些源码级别的、原理这些等。所以想去美团面试，一定要多看看源码和实现方式，常用框架可以试试自己能不

字节跳动抖音测试工程师视频面试

2天前

字节跳动2021提前批测试开发 ---------------------------------------面经1 2020-07-03-------------------------------------- 接口测试中遇到的问题怎

Python：使用user-agents库解析浏览器信息

2天前

浏览器请求头 Mozilla5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit537.36 (KHTML, like Gecko) Chrome88.0.4324.150 Saf

解决PC端鼠标离开视频后视频自动暂停的问题

2天前

一、打开页面调试界面，然后remove相应的函数就行

【Unity3D小功能】Unity中实现鼠标经过物体时变颜色，离开时恢复

2天前

推荐阅读 CSDN主页GitHub开源地址Unity3D插件分享简书地址我的个人博客QQ群：1040082875大家好，我是佛系工程师☆恬静的小魔龙☆，不定时更新Unity开发技巧，觉得有用记得一键三连哦。一、前言点击3D物体时变颜

汉邦高科监控视频删除后恢复

2天前

汉邦高科作为众多监控品牌中的一种，使用也是比较广泛的，但是监控视频经常会因为各种各样的原因导致其丢失损坏，那么遇到这种情况我们该怎么办呢?甲驭科技数据恢复中心小编教您如何对丢失的汉邦监控视频数据恢复。汉邦监控视频目前主要有两种格式的，一个

视频编辑软件Vegas中的轨道怎么恢复默认大小？

2天前

其实Vegas的轨道出现问题一般会有3个原因，分别如下： 一、轨道高度属性设置问题问题界面： 图1：轨道高度变大在视频剪辑软件Vegas中如

常用的两个火狐扩展--下载视频音乐和截图

1天前

下载视频音乐：Video DownloadHelper 截图：Awesome Screenshot Plus - Capture, Annotate & More

用迅捷视频转换器如何在视频中加文字水印

1天前

为了保护原创作品，给视频加水印是一种有效的措施。水印可以展示创作者的身份和知识产权，同时防止他人随意搬运、抄袭和恶意使用视频。水印的样式有多种，包括图片水印、文字水印、动态水

用迅捷视频转换器怎么截取视频的一部分制作成gif动画?

1天前

有时候我们在录制一段视频后，会发现视频中的一些片段非常的有意义，这时候大家就会想截取视频中的部分区域单独保存，有时候还会想着制作成gif动画来保存。迅捷视频转换器针对视频

运用Ntop监控网络流量（视频Demo）

1天前

运用Ntop监控网络流量 ____网络流量反映了网络的运行状态，是判别网络运行是否正常的关键数据，在实际的网络中，如果对网络流量控制得不好或发生网络拥塞&#xff0c

Uni-app 小程序 App 的广告变现之路：激励视频广告

1天前

Intro 激励视频广告，是cpm收益最高的广告形式。手机用户观看几十秒视频广告，在广告播放完毕后可获得应用开发商提供的奖励，而应用开发商则可以从广告平台获取不菲的广告收入。与开屏、信息流等广告变现方式不同，激励视频收益高、但场景设

4K Video Downloader (4K超高清视频下载器）V6.1.46版本发布

1天前

软件名称：4K Video Downloader 软件开发：Jihosoft Studio 软件版本：6.1.46 软件语言：简体中文所属分类&

photoshop 学习视频

1天前

完全掌握Photoshop CC视频教程 138集 6.07G等多个文件链接：https:pan.baidus1bGSQYOT4KsyTe4pPOb8NbQ 提取码：8viz 复制这

linux系统视频软件,腾讯视频Linux版下载

10小时前

腾讯视频Linux版是一款适用于Linux系统的视频播放器，此客户端支持QQ和微信登录、弹幕发送、分辨率设置、倍速设置、添加收藏、全屏模式观看等功能，完全可以满足日常娱乐所需&#xff0c

Unity XR Interaction Toolkit 获取手中拿到的物体

3小时前

方法一： 通过射线获取，缺点会获取到射线与已抓取物体之间的物体 public XRRayInteractor rRayInteractor; bool staterRayInteract