【论文笔记】视觉重定位 PixLoc || Back to the Feature: Learning Robust Camera Localization from Pixels to Pose|电子爱好者

admin管理员组
文章数量:1650835

本文提出了基于metric learning 的视觉重定位方法，PixLoc。只需要给定一张查询图像和场景的三维模型，以及具有先验位姿的参考图像，即可进行重定位。这种将模型参数与场景几何分离开来的度量学习方法，使得PixLoc能够轻易的泛化到任意场景中。

视觉定位可以被分为三步：

估计场景中的大致位姿
提取鲁棒不变的特征
回归精确的位姿估计值或者场景坐标估计值

其中步骤1，2不受限于某一特定场景，通过图像检索可以解决1，现有的CNN可以提取鲁棒的特征，解决了2。目前步骤3，即位姿估计是通过经典几何方法完成的（特征匹配、图像对齐等），而这些方法均不可微。本文专注于如何提取鲁棒、通用的特征点，使得位姿估计步骤能够做到和场景无关。通过可微的几何估计步骤将位姿估计模块纳入到网络训练过程中，PixLoc能够直接通过位姿误差损失对特征进行监督学习。

论文介绍：PixLoc

已知数据：查询图像，三维场景模型（点云），参考图像序列（多个）
输出：6-Dof 位姿

1. Localization as image alignment

Image Representation:

本文对查询图像和参考图像，构建特征金字塔，如 l l l层的特征图： F l ∈ R W l × H l × D l \mathbf{F}^{l} \in \mathbb{R}^{W_{l} \times H_{l} \times D_{l}} Fl∈RWl×Hl×Dl，最后对每个通道的特征进行L2正则化，提升不同数据集下的特征稳定性。

Direct alignment:

通过最小化查询图像和参考图像之间的差异进行对齐。将三维点投影到参考图像中，并根据预测的位姿变换到查询图像中，计算插值后对应像素位置的特征残差：
r k i = F q l [ p q i ] − F k l [ p k i ] ∈ R D p q i = Π ( R P i + t ) \mathbf{r}_{k}^{i}=\mathbf{F}_{q}^{l}\left[\mathbf{p}_{q}^{i}\right]-\mathbf{F}_{k}^{l}\left[\mathbf{p}_{k}^{i}\right] \in \mathbb{R}^{D} \\ \mathbf{p}_{q}^{i}=\Pi\left(\mathbf{R} \mathbf{P}_{i}+\mathbf{t}\right) rki=Fql[pqi]−Fkl[pki]∈RDpqi=Π(RPi+t)
最后的总损失是：
E l ( R , t ) = ∑ i , k w k i ρ ( ∥ r k i ∥ 2 2 ) ρ 为鲁棒损失函数， w k i 为逐残差权重系数 E_{l}(\mathbf{R}, \mathbf{t})=\sum_{i, k} w_{k}^{i} \rho\left(\left\|\mathbf{r}_{k}^{i}\right\|_{2}^{2}\right)\\ \rho为鲁棒损失函数，w_k^i为逐残差权重系数 El(R,t)=i,k∑wkiρ(∥∥rki∥∥22)ρ为鲁棒损失函数，wki为逐残差权重系数
然后使用LM算法，以位姿初值（R0,t0）为初始值，迭代优化该损失函数。

依次优化每一层特征，从L=1层开始（粗特征），优化下一层特征时使用上一层的结果作为初始值。
权重更新量的计算：
δ = − ( H + λ diag ⁡ ( H ) ) − 1 J ⊤ W r J i , k = ∂ r k i ∂ δ = ∂ F q ∂ p q i ∂ p q i ∂ δ and H = J ⊤ W J \boldsymbol{\delta}=-(\mathbf{H}+\lambda \operatorname{diag}(\mathbf{H}))^{-1} \mathbf{J}^{\top} \mathbf{W r} \\ \mathbf{J}_{i, k}=\frac{\partial \mathbf{r}_{k}^{i}}{\partial \boldsymbol{\delta}}=\frac{\partial \mathbf{F}_{q}}{\partial \mathbf{p}_{q}^{i}} \frac{\partial \mathbf{p}_{q}^{i}}{\partial \boldsymbol{\delta}} \quad \text { and } \quad \mathbf{H}=\mathbf{J}^{\top} \mathbf{W} \mathbf{J} δ=−(H+λdiag(H))−1J⊤WrJi,k=∂δ∂rki=∂pqi∂Fq∂δ∂pqi and H=J⊤WJ
更新位姿：
[ R + t + ] = exp ⁡ ( δ ∧ ) ⊤ [ R t 0 1 ] \left[\begin{array}{ll} \mathbf{R}^{+} & \mathbf{t}^{+} \end{array}\right]=\exp \left(\boldsymbol{\delta}^{\wedge}\right)^{\top}\left[\begin{array}{cc} \mathbf{R} & \mathbf{t} \\ \mathbf{0} & 1 \end{array}\right] [R+t+]=exp(δ∧)⊤[R0t1]
当更新量 δ \boldsymbol{\delta} δ足够小时停止迭代。

Infusing visual priors：

上述步骤等同于经典的光度对齐方法，该步骤则基于上述操作，加入CNN独有的视觉先验信息。
通过CNN为每一层的查询和参考特征图预测uncertainties map: U k l ∈ R > 0 W l × H l \mathbf{U}_{k}^{l} \in \mathbb{R}_{>0}^{W_{l} \times H_{l}} Ukl∈R>0Wl×Hl，然后计算残差权重系数：
w k i = u q i u k i = 1 1 + U q l [ p q i ] 1 1 + U k l [ p k i ] ∈ [ 0 , 1 ] w_{k}^{i}=u_{q}^{i} u_{k}^{i}=\frac{1}{1+\mathbf{U}_{q}^{l}\left[\mathbf{p}_{q}^{i}\right]} \frac{1}{1+\mathbf{U}_{k}^{l}\left[\mathbf{p}_{k}^{i}\right]} \in[0,1] wki=uqiuki=1+Uql[pqi]11+Ukl[pki]1∈[0,1]
即：当某一三维点同时投影在查询图像和参考图像的低不确定度位置时，权重接近1；当查询图像和参考图像的投影位置有任意一个的不确定度较高时，权重接近为0；
该不确定度图U没有被显式地监督。
每个特征层级的不确定性定义不同，因为不同的线索可能在优化的不同阶段有用。如粗特征中重复纹理可能会干扰位姿估计，但是在细特征中对于优化位姿精度非常有用。

Fitting the optimizer to the data：

以往深度学习的优化方法，使用CNN通过视觉特征和特征残差预测LM算法中的损失函数 ρ \rho ρ或者阻尼系数 λ \lambda λ,甚至是权重更新量 δ \delta δ。然而这会使得视觉语义信息被编码到优化器参数中，损害其在其他数据集上的泛化性。因此作者认为应该使用poses或者残差而不是视觉特征来拟合优化器。具体的，将 λ \lambda λ作为一个固定的模型参数，并通过梯度下降和CNN一起学习它。

对于每层的特征以及每一个6Dof-pose的分量，使用单独的 λ \lambda λ参数：
log ⁡ 10 λ l = λ min ⁡ + sigmoid ⁡ ( θ l ) ( λ max ⁡ − λ min ⁡ ) \log _{10} \boldsymbol{\lambda}_{l}=\lambda_{\min }+\operatorname{sigmoid}\left(\boldsymbol{\theta}_{l}\right)\left(\lambda_{\max }-\lambda_{\min }\right) log10λl=λmin+sigmoid(θl)(λmax−λmin)
当摄像机安装在一辆汽车或一个基本直立的机器人上时，可以预计平面内旋转的pose参数的阻尼会很大。相比之下，常见的启发式方法同等对待所有姿势参数，不允许每个参数设置单独的阻尼。

2. Learning from poses

Training:

不需要精确的三维场景模型，稀疏重建的点云、激光雷达数据、RGBD数据都可以。
PixLoc使用端到端的方式训练，梯度flow从pose开始，经过uncertainty map ,features以及CNN一直到像素点。

Loss function:

通过计算每一层特征估计出来的位姿与真实位姿之间的距离计算损失，具体的，优化三维点的重投影误差：
L = 1 L ∑ l ∑ i ∥ Π ( R l P i + t l ) − Π ( R ‾ P i + t ‾ ) ∥ γ \mathcal{L}=\frac{1}{L} \sum_{l} \sum_{i}\left\|\Pi\left(\mathbf{R}_{l} \mathbf{P}_{i}+\mathbf{t}_{l}\right)-\Pi\left(\overline{\mathbf{R}} \mathbf{P}_{i}+\overline{\mathbf{t}}\right)\right\|_{\gamma} L=L1l∑i∑∥∥Π(RlPi+tl)−Π(RPi+t)∥∥γ
其中 γ \gamma γ是Huber cost（小误差二次损失，大误差线性损失）。上述损失函数对每个训练样本的旋转和平移进行了自适应加权，并对场景的规模大小具有不变性，从而使使用SfM生成的数据进行训练成为可能。

为了防止困难样本平滑掉精细特征，仅在前一层特征使pose充分接近真值时，才在该层特征上计算损失。否则，随后的损失项将被忽略。

3. Comparisons to existing approaches

PixLoc vs. sparse matching:

通过局部特征匹配的位姿估计通常都包含了多个不可导的步骤，如关键点选择、RANSAC等。
论文《einforced feature points: Optimizing feature detection and description for a high-level task.》CVPR 2020通过强化学习的方式进行位姿估计，但是需要较强的与预训练。相比之下，PixLoc非常简单，并且使用图像分类训练的通用权重就能够很好的收敛。

PixLoc vs. GN-Net:

PixLoc训练更简单，能够从噪声数据中学习额外的强先验知识。

定位Pipeline介绍：

使用图像检索的结果的得到初始位姿，构建图像金字塔来进一步扩大感受野，在较大的梯度basin中成功对齐图像。如下图：

三维场景模型：使用 HLOC + COLMAP 得到有pose真值的reference images，然后三维重建得到SFM model.

对于查询图像，先检索得到top - 5参考图像，然后收集所有可观测的3D点，在其2D观测中提取特征金字塔，根据置信度进行平均。

Experiments

特征提取器： VGG19 encoder pretrained on ImageNet + UNet feature extractor
得到特征 L=3 feature maps with strides 1, 4, and 16, and dimensions Dl=32, 128, and 128
提特征100ms, 优化位姿200ms–1s，取决于三维点的数目。
使用dense-vlad作为图像检索模块。

与基于深度学习的方法相比：

三种方法：IR：image retieval; FM: feature matching ; 端到端

PixLoc优于或者略优于现有方法，但是PixLoc是没有泛化性问题的，基于学习的方法只能使用在训练过的场景中。
可见oracle的检索精度优于densevlad, 最终的PixLoc精度也要更高，说明图像检索对位姿估计的影响很大。

large-scale、long-term localization：

数据集《 Benchmarking 6DOF outdoor visual localization in changing conditions. In CVPR, 2018》

可见图像检索+PixLoc的方法优于所有基于学习的方法，与特征匹配的方法还有距离。hloc + PixLoc后优化精度最高，主要在aachen数据集上的结果不好，原因在于aachen数据集中的参考图像过于稀疏，导致初始位姿先验更加粗糙。这对于基于direct alignment模式的PixLoc来说显然是致命的。不过PixLoc是唯一一个端到端、不需要重新训练就能泛化到其他数据集上的方法。

作为其他定位方法的后处理步骤

本文是基于直接对齐的定位方法，依赖于初始位姿的精度，很容易陷入局部极小值，类似于ICP。因此也可以作为其他定位方法的优化步骤，这里选择优化的是HLOC的定位结果。

上表中最后一行是后优化的结果，可以看到提升明显，但是在aachen上有轻微降低，论文认为是真值和相机内参不准导致的，并在附录中进行了验证

消失实验

局限性分析：

PixLoc依赖于CNN特征的梯度，只能对有限的上下文进行编码。因此，这是一种局部方法，由于视点变化过大，初始重投影误差过大，可能会陷入错误的极小值。
PixLoc也可能因明显的遮挡物而获得较大的异常值比率，并且对相机校准错误更为敏感。

本文标签：视觉笔记论文 feature PixLoc

版权声明：本文标题：【论文笔记】视觉重定位 PixLoc || Back to the Feature: Learning Robust Camera Localization from Pixels to Pose 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1729534387a1205227.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

【论文笔记】视觉重定位 PixLoc || Back to the Feature: Learning Robust Camera Localization from Pixels to Pose

论文介绍：PixLoc

1. Localization as image alignment

Image Representation:

Direct alignment:

Infusing visual priors：

Fitting the optimizer to the data：

2. Learning from poses

Training:

Loss function:

3. Comparisons to existing approaches

PixLoc vs. sparse matching:

PixLoc vs. GN-Net:

定位Pipeline介绍：

Experiments

与基于深度学习的方法相比：

large-scale、long-term localization：

作为其他定位方法的后处理步骤

消失实验

局限性分析：

更多相关文章

Emulator: handleCpuAcceleration: feature check for hvf Emulator: added library vulkan-1.dll的一种解决办法

特征重要度（feature importance）如何获取、排序、可视化、以及可视化阈值设置？

在Opendaylight中karaf启动的时候自动安装feature

学习笔记 | Feature Toggle

论文阅读：AlignDet：Revisiting Feature Alignment for One-stage Object Detection

keras学习之：20分钟，教你通过 feature map 生成 attention 图（heatmap 图）

FFD：Fast Feature Detector运行失败解决

解决：Containers Windows Feature is not available

【论文笔记】视觉重定位 PixLoc || Back to the Feature: Learning Robust Camera Localization from Pixels to Pose

轻松解决“cannot import name 'Feature' from 'setuptools'”

Geotools创建Feature的两种方式

如何在GMS中添加相关feature

OpenDaylight（Oxygen）安装feature出现错误的解决方案

【语义分割】DFANet --Deep Feature Aggregation for Real-Time Semantic Segmentation

Docker问题——Docker安装报错 Containers Windows Feature is not available

无人驾驶小车调试笔记（五）-- 命令行通信

spring boot校园商铺系统 毕业设计源码论文+答辩PPT

【狂神说Java】SpringCloud笔记(5万字保姆级笔记)

SpringCloud 超详细个人笔记

电磁仿真软件CST2020 下载链接及安装破·解教程笔记

发表评论

推荐文章

Vue warn]: Error compiling template:Templates should only be responsible for mapping the state to

结构最清晰的Yolov3 head和loss实现完全解析

基于Andoird 4.2.2的Account Manager源代码分析学习：创建选定类型的系统帐号

Vue 集成 PDF.js 实现 PDF 预览和添加水印

window10 telnet工具测试 端口号是否开放

热门文章

centos 安装qq

小米电视刷android系统升级,小米盒子跳升安卓8.0系统：针对电视等大屏产品进一步优化...

Pytorch深度学习实战教程：UNet语义分割网络

地下水数值模拟软件有哪些？GMS、Visual modflow、FEFLOW哪个更好用呢？

如何将FoxitPhantomPDF.exe福昕高级PDF编辑器应用密文的默认填充黑色改成白色或其它色

多线程下载利器——IDM：重塑您的下载体验

Pytorch从入门到放弃（8）——可视化FeatureMap(特征图)

用计算机设计芯片,厉害了！用6个芯片打造复古经典计算机

android 酷狗demo_酷狗音乐(Android)v8.1.5去广告清爽版

scrapy_redis分布式爬取酷狗音乐

最新文章

一款轻、快、无广告的杀毒安全软件（火绒5.0）

易语言 减小体积、减少杀毒软件误报

计算机安全技术 实验报告,网络安全技术实验报告(共10篇).doc

CATIA V5R21安装包下载及图文安装教程

优秀开源杀毒软件ClamAV

ubuntu系统安装搜狗输入法（18.04、20.04均适用）

Antimalware Service Executable白名单设置或关闭杀毒

avast 8.0.1483 许可文件（杀毒软件免费激活）

杀毒软件和系统工具注册码

麦咖啡杀毒软件会阻止发送自己用程序写的邮件

删除计算机病毒怎么办,电脑软件客户端被误报病毒而删除了怎么办？

ISE简介及其下载 安装 和谐 与 卸载

Oracle下载安装教程—Oracle19c下载安装(每一步)

【免费获取】【下片神器】IDM非主流网站视频免费下载神器IDM+m3u8并解决idm下载失败问题

U盘杀毒软件U盘Clear

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

spring boot校园商铺系统毕业设计源码论文+答辩PPT

window10 telnet工具测试端口号是否开放

易语言减小体积、减少杀毒软件误报

计算机安全技术实验报告,网络安全技术实验报告(共10篇).doc

ISE简介及其下载安装和谐与卸载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载