admin管理员组文章数量:1589945
Aim
实现一种视频分割的工作流:在视频的任意一帧上进行交互得到当前帧的修正结果,并传播到剩余帧。
Contribution
- 两个模块:Interaction Network 和 Propagation Network。
– Interaction Network: 接受用户的交互 (如涂抹) 来分割前景物体。
– Propagation Network:将交互的帧上的分割结果,传播到其他相邻的帧。
– 将其通过 Feature Aggregation Module 的方式 internally 连接在一起,且相互的输出作为对方的输入而 externally 连接。
- Multi-Round Training Scheme:模拟真实的交互式视频分割的场景。一次 Training Iteration 包含 Multi-Round,即多次交互 + 传播的过程。通过这样的方式,网络能够理解交互的意向并且在训练过程中修正错误。
Motivation 和 Related Work
- Frame-by-frame 的操作 => Round-based interaction:挑选一帧进行标记,然后计算视频中剩余所有帧的结果。Round 越多效果越好
- Unsupervised Methods:基于 appearance 或者 motion 显著性,而不能准确地挑选感兴趣的物体。
- Semi-Supervised Methods:所谓半监督就是仅仅给出视频的一帧的金标准 (注意这里不是交互的方式),然后目标是如何传播到整个视频序列。
– Online Learning: Fine-tuning at test time,然后对于每一帧进行 static image segmentation。
– Propagation-based:Bilateral Filter,Siamese two-stream networks (利用模拟的训练图像)也是本文 feature aggregation的启发
Methods
工作流
给定初始交互,仅仅根据交互信息得到所有帧上的分割结果。然后用户给出修正交互,算法根据初始分割结果和修正交互对上次结果进行修正。每个子网络的输入都有上一个round的分割结果。对于 Interaction Network,上一个 round 的分割结果是 Propagation Network 的输出;对于 Propagation Network,另一个输入上个时间点的分割结果是 Interaction Network 的输出
ROI 的设置
为了解决尺度问题。通过 ROI 使得 Training Loss 具有尺度不变性,而不用使用 balanced loss function。
Feature Aggregation Module
- 目标:避免 Propagation 过程中的误差累加。
- 方法:不同于传统方法比如用 Siamese network 直接考虑 reference frame,我们考虑的是用户交互帧中的信息。因此提出特征融合模块,积累所有之前的 Interaction Network 中编码的交互信息。将其 concat 在 Propagation Network 中尤其对于 Long-term 的传播具有很好的作用。
- -Self-Attention机制:
Training 细节
- Loss 的计算:对于每个 iteration, 对于每个中间结果计算 loss,然后进行反向传播。
- 在 模拟的Static 图像上预训练,再在真实的 Video 上进行 Fine-Tuning:通过随机的形变等生成模拟的 video,只不过没有时间上的真实的信息。
Testing 细节
- Propagation 还是存在误差累计,尤其是目标帧距离交互帧很远的时候。因此采用 continuous updating 和 restricted propagation。
Ablation Study
测试各个模块,和在模拟图像上预训练的有效性
Conclusion
- 其实之前就有一篇做交互式视频分割的文章 A. Benard and M. Gygli. Interactive video object segmentation in the wild. arXiv preprint arXiv:1801.00269, 2017.2,但是方法设计上没有本文来的巧妙 (Interaction-and-Propagation Network的贡献)。
- 另外,通过 Self-Attention 来设计 Propagation Network,能够直接考虑所有之前的交互信息,也是一个很值得玩味的点。
- 另一个小点:这样的修正 Multi-Round 结果,在设计框架时反应为每个 network 的输入都有上一个 round 的分割结果,其他的输入就是不同 network 的不同任务所需要的。
版权声明:本文标题:半监督交互式视频物体分割 Fast User-Guided Video Object Segmentation by Interaction-and-propagation Networks 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/xitong/1728077325a1144648.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论