admin管理员组

文章数量:1531793

中文标题:挖掘自监督单眼深度估计的潜力

——针对基于双目匹配的单目深度估计

创新点

  1. 数据嫁接,使模型能够学习除垂直图像位置外更有效的线索。
  2. 首次在没有任何辅助网络的情况下将自蒸馏应用于MDE,并基于面向训练的选择性后处理方法生成更好的伪标记。
  3. 提出有效的全尺寸模型,增强约束,同时增强编码器的特异性。

数据嫁接

问题

模型推测物体深度靠其所在的垂直位置,文章推测这是由于将整幅图像送入网络,使网络易于学习到深度在垂直方向上的分布。

解决方法

  • 双目匹配中,点的匹配均位于同一水平线上,所以可以在竖直方向上对图像进行嫁接,打乱网络对于竖直方向上深度规律的学习,使网络更专注学习区域内语义信息。

全尺度模型

问题

  • 传统多尺度深度补全网络为编码器与解码器的结构
  • 其中编码器学习抽象及普遍的特征,解码器学习深度估计相关的特征
  • 直觉上,对模型施加更多的约束有助于提升性能

解决方法

  1. 在编码器上添加深度预测模块
  2. 在编码器预测模块与残差模块之间添加RSU模块[39]
  3. 使用RSU模块构建Decoder

自蒸馏

思路

  1. 自蒸馏是为模型产生更多监督信号的方法
  2. 在全尺寸深度估计过程中,最好的深度预测值不一定产生于最大尺寸

解决方法

  1. 在所有尺度的深度预测结果中选取最佳值

    在像素域寻找深度最佳预测值,形成伪标签。
  2. 使用为标签作为自监督信号,组成自蒸馏损失函数。

参考文献

[1] Peng R, Wang R, Lai Y, et al. Excavating the potential capacity of self-supervised monocular depth estimation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 15560-15569.
[39] Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R. Zaiane, and Martin Jagersand. U2-Net: Going deeper with nested U-structure for salient object detection. PR, page 107404, 20

本文标签: 笔记论文potentialExcavatingCapacity