admin管理员组

文章数量:1530518

文章名称:A Survey of 6D Object Detection Based on 3D Models for Industrial Applications,J. Imaging | Free Full-Text | A Survey of 6D Object Detection Based on 3D Models for Industrial Applications (mdpi)

综述

刚性物体的六维检测是一个与工业背景下的质量控制和机器人操作特别相关的问题。这项工作是对六维物体检测技术现状的调查,其中考虑到了这些用例,特别是侧重于只用三维模型或其渲染物训练的算法。我们的第一个贡献是列出了工业应用中通常遇到的要求。第二个贡献是收集了用合成数据训练的几种不同的6D物体检测方法的定量评估结果,并对其进行了比较和分析。我们针对工业应用对物体检测器的个别要求确定了顶级方法,但发现由于缺乏可比较的数据,无法在多个方面进行大规模比较。

一、介绍

6D物体检测的问题包括物体的检测以及对其平移和旋转的估计。在三维空间中,这两个属性都有三个自由度,因此形成了术语的6D部分。在许多情况下,解决这个问题的算法也给出了目标物体类别的估计(在这项工作中,物体检测一词意味着物体分类)。这里用于记录场景的最常见的传感器是照相机。在这项工作中,我们着重研究解决这个问题的方法,它有两个具体的特性。

  • RGBD相机(即颜色和深度)可用于为算法提供输入;

  • 只需要三维物体模型(CAD或重建)来设置算法(即不需要真实相机的记录)。

具有这些特性的算法特别适合于工业应用,特别是自动化任务。一方面,RGBD图像在生产环境中很容易获得。我们有大部分的室内场景,照明可控,简化了主动传感器的使用。与RGB相机相比,较大的外形尺寸在静态设置中通常没有问题,而且高质量的RGBD传感器的价格不会对公司规模的预算造成很大影响。另一方面,工业制造的产品通常基于计算机辅助设计(CAD),这使得目标物体的3D模型很容易获得。在工业环境中,有两个主要的用例需要对现实世界的物体进行定位:机器人操纵和质量控制,这些例子在图1中显示。

在这项工作中,我们研究了6D物体检测在工业用例中的应用现状。我们把重点放在经验数据上;据我们所知,我们收集了迄今为止对具有上述特性的物体检测器的评价分数的最全面比较。我们的核心贡献有以下几点。

  • 典型的工业用例对物体检测器的要求清单。

  • 全面收集符合确定标准的6D物体检测器的实验经验数据。

  • 关于物体检测器FFB6D性能的经验数据,该检测器还没有用纯粹的基于模型的训练进行评估。

在这项工作的其余部分,我们首先对相关工作进行了概述。然后,我们通过提出6D物体检测任务的定义来介绍我们的工作背景,通过确定典型工业应用的要求来建立我们关注的理由,并简要介绍了基于模型的训练(严格来说,训练一词是指建立基于学习的算法。为了提高可读性,在这项工作中,我们也用它来指代为非基于学习的算法生成参考数据)和为此目的的合成数据生成。然后,我们描述了我们的分析方法,包括对所研究的算法的分类和对所使用的数据集和指标的描述。最后,对收集到的数据进行了介绍和讨论,然后是一个简短的结论。

二、相关工作

在本节中,我们概述了与工业应用的6D物体检测有关的论文,首先列出该领域的综述和基准,然后介绍各个物体检测器及其具体贡献,最后介绍基于模型的训练和为物体检测器的训练生成合成数据的技术现状。

2.1. 综述和基准

Hoda ˇ n等人在他们的BOP挑战赛2020中对6D物体检测器进行了大规模的基准测试。他们以统一的格式提供了7个文献中已知的数据集,并为每个数据集添加了用BlenderProc生成的合成图像,BlenderProc是一套允许用Blender对程序生成的场景进行基于物理的渲染的脚本(https://www.blender/)。他们测试了26种不同的方法,发现CosyPose在他们的衡量标准下具有最佳的整体得分,以及合成训练的物体检测器的最佳得分。除了他们的论文,他们还在附带的网站(https://bop.felk.cvut.cz/home/)上发表了他们的评估结果,该网站仍在扩展新的评估数据和新的数据集。

Sahin等人【A review on object pose recovery: From 3D bounding box detectors to full 6D pose estimators】在2020年发表了迄今为止关于6D物体检测的最全面的评论。他们根据数学模型对各自的方法进行了分类,比较了其经验结果,并确定了不同数据集的挑战。

2021年,Cong【A Comprehensive Study of 3-D Vision-Based Robot Manipulation】等人和Du【Vision-based robotic grasping from object localization, object pose estimation to grasp estimation for parallel grippers: a review】等人讨论了机器人操纵的具体用例。与Sahin等人一样,他们对不同的物体检测器和数据集进行了分类。他们还收集了大量的定量数据来比较各种方法。然而,与之前的综述不同,他们考虑了抓取估计的具体指标和数据集。

我们将上述参考文献作为我们研究的起点,但用在撰写本文时尚未得到的算法的评估结果来扩展这些作品中讨论的数据。我们还把数据放在一个新的背景下,把研究的重点放在第3.2节中定义的工业用例的要求上。

2.2. 6D物体检测器和姿态估计器

在这里,我们列出了不同的6D姿势估计方法,以及他们各自出版物中提出的创新之处。粗体关键词标志着符合本工作范围的要求的方法,因此在我们的分析中被考虑。

2010年,Drost等人[9]提出了一种检测点云(或深度图像)中已知三维模型的物体的方法。他们依靠计算基于两个物体点之间的距离和法线角度的特征,称为点对特征(PPFs)。

Hinterstoisser等人(2016)通过引入更稳健的采样和投票方案改进了PPFs,Vidal等人进一步发展了这些方案。他们的方法在2018年BOP挑战赛中取得了第一名[12]。

2011年,Hinterstoisser等人通过对输入图像的模板匹配进行6D物体检测,他们的方法称为LineMOD。匹配是在描述RGB-和深度梯度的特征空间中完成的。他们通过改进训练姿势的策略和引入基于物体颜色的过滤策略来改进其方法。Rios-Cabrera和Tuytelaars[15]将LineMOD进一步扩展到DTT-OPT-3D,通过SVMs的判别学习模板。2014年和2018年,Tejani等人将LineMOD特征整合到基于斑块的回归森林中,并将得到的算法称为latent-class Hough forest (LCHF) [16,17]。另一个基于模板的方法是由Hodan等人[18]在2015年提出。与LineMOD不同,他们的方法是基于投票方案的。

2014年,Brachmann等人[19]提出了一种基于随机森林的方法,预测2D-3D的对应关系,从中使用RANSAC估计姿势。这项工作在[20]中被扩展到自动上下文随机森林和标记的不确定性驱动的姿势估计。2016年,Kehl等人[21]发表了一个基于回归和投票的方法,在RGBD图像上使用卷积自动编码器(CAE)。同一作者在2017年提出了一个单次拍摄姿势(SSD)算法扩展到SSD6D,该算法在RGB上工作。2017年,Buch等人[22]提出了一个基于子群投票和姿势聚类的物体检测器,它使用两个模型的定向点构成的约束。Rambach等人[23]在2018年明确解决了从合成图像中学习物体姿势的任务。他们试图通过让他们的网络在边缘过滤的图像上操作来弥补领域的差距。

Tekin等人[24]在2018年发表了YOLO6D,其主要贡献是让CNN预测物体的3D边界框角的投影,并使用获得的2D-3D对应关系来解决使用PnP算法的姿势。2018年,Sundermeyer等人[25]提出了增强的自动编码器(AAE),它建立在去噪自动编码器的基础上,并通过训练他们的自动编码器使其不受差距影响的方式来解决合成到现实领域的差距。Park等人[26]发表了Pix2Pose,预测每个像素的物体的三维坐标,并使用基于RANSAC的PnP算法重建姿势。Zakharov等人[27]的密集姿势物体检测器(DPOD)以类似的方式工作,但也采用了基于RGB的细化方式。

Thalhammer等人[28]提出了SyDPose,它再次明确了只使用合成数据进行训练。Li等人[29]的基于坐标的分解姿势网络(CDPN)分别预测了翻译和旋转。Hagelskjar和Buch[30]的PointVoteNet,与其他大多数基于神经网络的方法不同,它从无序的点云中估计姿势。Labbé等人的CosyPose[5]也支持多视角姿势估计,并且是2020年BOP挑战赛[3]的最佳表现者之一。Hoda ˇ n等人的EPOS[31]将物体表示为紧凑的表面片段。Su等人的SynPo-Net[32]在预测前将训练图像和输入图像转换为边缘过滤的表示,以弥补领域差距。Deng等人[33]提出PoseRBPF,使用Rao-Blackwellized粒子过滤框架,分别考虑旋转和平移。He等人[34]提出了PVN3D,这是一个依靠关键点检测和Hough投票的网络,建立在Wang等人[35]的DenseFusion特征之上。他们在2020年扩展了这项工作,对RGB和深度特征进行了双向融合,并将所得方法称为FFB6D[2]。Haugaard和Buch[36]的SurfEmb引入了一个对比性损失。

2.3. 基于模型的训练和图像合成

在这一节中,我们介绍了在训练时只有目标物体的三维模型可用时解决物体检测任务的工作。这里的一个特殊挑战是渲染("合成")适合训练基于学习的检测器的图像。

Rudorfer等人[37]发现,通过静态背景的刚体模拟,在随机背景上的渲染优于现实背景下的渲染。2019年,Denninger等人[4]提出了BlenderProc,这是一个基于Blender的渲染管道,可以创建基于物理渲染(PBR)的合成图像。他们提供了逼真的照明和不同的模式,如法线图和深度图像。这后来被用于2020年BOP挑战赛,以提供合成训练图像。Hodan等人[38]将基于物理的渲染与现实的光照、表面、物体放置和场景背景进行比较,以渲染随机照片,发现基于物理的渲染优于后者的方法。这一发现被Hoda ˇ n等人[3]在他们的2020年BOP挑战赛的背景下证实。

对于二维物体检测问题,Hinterstoisser等人[39]表明,在适当的情况下,基于合成训练的检测器可以胜过用真实图像训练的检测器。他们特别关注将领域随机化应用于渲染,并创建具有良好视点覆盖的图像。Rojtberg等人[40]利用GANs来学习真实和合成图像之间的差异,然后基于这些网络将合成图像转化为真实域。他们发现,这种策略不能达到真实图像的性能,但与纯领域随机化相比,性能有所提高。Eversberg和Lambrecht [41]研究了减少真实图像和合成图像之间领域差距的不同策略的效果,只关注物体检测。他们发现,基于图像的照明,使用高动态范围图像和使用随机真实图像作为背景有利于合成训练;他们建议使用至少5000张图像。Rambach等人[23]和Su等人[32]通过首先应用各种增强技术,然后将合成训练图像和真实输入图像带入一个共同的pencil filter域来解决领域差距问题。他们发现,这种策略提高了合成训练的物体检测器的准确性。

三、背景

本节提供了本工作中所参考的概念的背景信息,并为我们的分析设定了范围。具体来说,我们定义了6D物体检测的问题,描述了工业应用提出的要求,描述了什么是基于模型的训练,并概述了我们在这项工作中考虑到的模式。

3.1. 问题的定义:6D物体检测

六维物体检测包括对物体的检测以及对其三维平移和三维旋转的估计。我们将六维物体检测、物体检测和六维姿态估计的关系定义如下。

6D object detection = object detection + 6D pose estimation

即,6D物体检测器检测场景中的物体实例,并将其位置输出为6D姿势。对于一些检测方法来说,这是一个单一的算法步骤(通常称为单阶段检测器,例如[9,26,34]),而其他一些方法则将物体检测和姿势估计作为不同的步骤(两阶段或多阶段检测器,例如[42-44])。后者通常首先采用一个物体检测器,为图像中发现的物体实例输出二维边界框,然后将其输入姿势估计器。

Hoda ˇ n等人[3]在他们工作的附录1中区分了物体检测和物体定位。当检测物体时,人们试图找到一个未知数量的物体,而定位物体意味着我们预先知道场景中可见N个物体,我们需要找到它们的位置。在我们的具体案例中,定位一个物体意味着估计其6D姿势。因此,在这项工作中,物体定位一词是N个物体的6维姿势估计的同义词,根据上面给出的关系,物体定位是6维物体检测的一个子任务。

文献中物体检测的常见用法也意味着对物体的分类。在这项工作中,我们假设物体的三维模型作为参考来寻找,也就是说,我们研究的是基于非常具体的几何属性来执行任务的物体检测器,这被称为实例级检测。这与类别级检测形成对比,后者的目标是检测属于更广泛类别的物体,例如,"找到图像中的所有汽车"。

与Sahin等人[6]类似,我们将6D姿势估计正式定义为

其中,T = (r1, r2, r3, t1, t2, t3)是物体实例i的六维姿势,I是输入图像,S是看到的物体实例,O是一个物体类别的参考。姿势估计器试图使概率函数P最大化。在实践中,不同的姿势估计器主要交替使用其对P的表述,例如,一些使用神经网络[27,34,45],而另一些使用手工制作的启发式方法来确定概率[9,14]。P的输出也可以被解释为检测分数。

一个用例是检测还是定位任务有两个重要的实际意义。

  • 该算法的参数化是不同的。对于定位,我们可以接受物体检测器产生的N个最佳假设,而对于检测,我们需要为P设定一个分数阈值,作为假设的接受标准。

  • 评价性能所需的指标也不同。对于定位来说,确定一个只考虑阳性检测率的分数就足够了(例如,召回率)。由于检测器最多输出N个结果,我们知道每一个假阳性都意味着一个假阴性,例如,这里的精度总是至少和召回率一样好。对于检测任务来说,这不是真的,所以我们需要考虑到同时考虑到真阳性和假阳性的指标(例如召回率和精确度)。

3.2. 工业应用

当应用于工业环境中发生的问题时,物体检测器有很大的潜力。来自质量控制和机器人操作领域的特殊任务需要快速和准确地检测和估计目标物体的姿势。为了推断出工业用例对物体检测器的要求,我们确定了它们在6D物体检测方面的机会和挑战。机会是这些场景中可能简化6D物体检测的方面,而挑战是那些使之更难的方面。机会如下:

  • 有CAD模型,这意味着生成参考数据很便宜。

  • 高端和RGBD相机是可用的,因为与RGB相机相比,较高的成本和较大的外形尺寸在大规模生产环境中是可以忽略不计的。

  • 场景设置是可控的。生产大多发生在室内,灯光和摄像机的位置可以很容易控制。室内设置也允许更多可能的RGBD摄像机,因为主动式摄像机在阳光下往往不能很好地工作。

  • 许多自动化任务的最小要求帧率是生产的任务时间,通常低于互动应用的要求帧率。

我们的结论是,将RGBD相机和3D模型结合起来作为参考,可以最佳地利用这些机会。RGBD允许比RGB有更高的鲁棒性和准确性,而3D模型的可用性允许生成合成图像,这些图像的获取比有注释的真实世界的记录要简单和便宜得多。另一方面,我们发现,工业应用对6D物体检测提出了以下具体挑战。

  1. 很多工业化生产的物体是没有纹理的。具体来说,处于生产链初期的工件往往是由单一材料制成的,表面平坦,没有纹理

  2. 很多人造物体,特别是那些几何形状简单的物体,都是旋转对称的,或者至少在某些角度下看起来是如此。这使得它们的姿势模糊不清,这对依靠优化的算法来说是个难题。

  3. 机器人操作领域的一个常见任务是物体抓取。在这里,单个物体可能是高度遮蔽的。

  4. 此外,特别是在物体抓取任务中,我们有同一物体类别的未知数量的实例。如第3.1节所述,我们把这项任务称为物体检测,与物体定位相反,在物体定位中,要检测的物体数量是预先知道的。当试图检测未知数量的实例时,假阳性可能是一个主要问题。

  5. 在参考数据中物体的颜色往往是不明确的。CAD模型通常存储一个物体的几何和动力学属性,但不存储其表面属性,定义颜色和反射行为。

  6. 有些物体的表面特性难以识别,阻碍了基于光学记录的几何特性的识别,即由高镜面反射的材料制成的物体,如金属,或由半透明或透明材料制成的物体,如玻璃。

在这里,RGBD也可以缓解这些挑战带来的问题。当目标物体上没有可辨别的纹理或参考中没有颜色信息时,在深度通道中编码的几何信息可以补充颜色信息并导致更好的精度。特别是在以大量对象实例为目标的用例中,通过生成带注释的合成场景、显示成堆的对象可以获得很多好处,因为手动注释对这些对象来说几乎是不可行的。

当然,不一定所有这些特性都适用于每个工业用例。然而,根据我们的经验,我们发现这些特性在生产环境中是典型的,所以它们设定了这项工作的范围。在剩下的部分,我们将分析好的已发表的物体检测器是否以及如何满足所提出的机会和挑战所带来的要求

3.3. 基于模型的培训

在本节中,我们给出了什么是基于模型的训练的定义,并概述了如何生成合成图像。对于只考虑目标物体的几何属性的物体检测器,基于模型的训练是直接的。这种算法可以通过在潜在空间中生成特征,直接用参考模型进行训练,例如,PPF就属于这种类型。

训练对象检测器的工作是在表面属性和模型几何形状的投影上进行的(即在图像上),这涉及到更多。这对基于学习的算法来说尤其如此,一般来说,训练时可用的数据与推理时的输入数据越相似,其效果就越好。

生成 "真实的图像",即用于估计的目标物体的记录,并用地面真实姿势来注释它们,是一个非常复杂和昂贵的过程。如果用例要求在许多不同的角度、光照条件下或从不同的物体上拍摄训练图像,这一点尤其严重。

另一方面,由模拟记录组成的合成图像很方便,可以很容易地生成大量不同模拟条件下的图像。要做到这一点,必须要有目标物体的三维模型,在工业生产环境中就是这样,因为大多数产品在制造之前通常都有模型。从这些模型中,人们可以推导出渲染的图像,同时考虑到记录过程的属性。我们发现利用现实世界的模型来训练物体检测器的策略有以下几种:

三维模型:在这里,我们直接从三维模型中包含的信息,即模型的顶点和法线,推导出潜在空间的特征,例如,PPF在训练时只需要一个物体的三维模型。

增强的真实图像:在这个策略中,真实图像被增强以产生更多种类的训练图像。这可以通过模拟不同的记录条件来实现,例如,改变图像的大小或长宽比,其亮度或清晰度,或添加噪音。一个更复杂的图像增强模式是 "渲染和粘贴 "策略,在这个策略中,一个物体从它的原始场景中被裁剪出来,粘贴到不同的背景上以模拟不同的背景,或者被另一个裁剪所覆盖以模拟遮挡情况。

渲染:渲染是模拟整个图像记录管道的过程,从而从三维模型生成二维图像。在这种模拟的实现方式和所产生的输出的真实性方面有很大的差异。渲染图像的最简单、最快速的方法是使用基于光栅化的渲染器,如OpenGL。这种类型的渲染器通常会产生可信的,但不一定是物理上准确的渲染,以实现实时性能。一种更好的生成真实图像的模式被称为基于物理的渲染(PBR),这不是一个严格定义的术语,但通常需要比常用的Blinn-Phong模型[46]更真实地模拟光线和表面的行为,例如,通过采用光线追踪。

在这项工作中,基于模型的训练物体检测器这一术语指的是仅在三维模型或其渲染(合成图像)上训练的算法,即这些算法的训练不包括记录物理目标物体。然而,请注意,我们并不排除使用涉及通用真实世界图像作为背景、纹理或干扰物的训练图像的算法,因为这些图像可以很容易地从二维图像数据集中获得,例如ImageNet(https://www.image-net/)。

我们没有调查用于训练这里所提到的方法的每个训练集的性质。这意味着,如果在用更先进的合成图像生成策略生成的图像上进行训练,一些方法的表现很可能会好得多。因此,所提出的数值应该被看作是每个算法性能的经验证明的下限。

3.4. 模态

如第3.2节所述,我们假设在工业使用案例中可以使用RGBD相机,并包括将RGBD图像作为输入的6D物体检测器。对于潜在的用户来说,一种方法的精度和它使用的模态更加相关,RGBD比RGB方法精度更高,只要它与可用的硬件兼容。由于基于RGB的检测器与RGBD图像完全兼容,我们的调查中也包括前者。请注意,通过采用基于几何的细化算法,如ICP [47],基于RGB的检测可以很容易地用深度信息进行细化。

有两种模式可以很好地满足第3.1节中定义的工业用例的要求,但在这项工作中没有明确考虑它们:多视角图像和点云。我们发现,使用这些模式作为输入的算法很难符合这项工作的范围,原因如下:

  • 除了CosyPose[5],我们没有找到任何符合我们用例所给范围的多视图方法。

  • 基于点云的物体检测器在自动驾驶领域非常流行。因此,它们通常在为这一用例量身定做的数据集和指标上进行评估(例如,KITTI数据集),而文献中发现的评估分数不能与大多数基于RGBD的物体检测器相提并论。

然而,我们也发现,这些模式有可能有利于工业使用案例,特别是在这些方面:

  • 多视角图像以及点云通常比单视角图像覆盖更大的场景部分。因此,它们可以减轻由于遮挡、姿势不明确和镜面反射造成的问题。

  • 点云主要是场景的几何表示,因此,基于几何三维模型的物体检测可能需要较少的训练数据预处理,因为输入和训练数据已经处于同一领域。特别是,可以跳过合成图像的相关生成。

由于这些原因,我们决定将对基于这些模式的物体检测器的评估推迟到未来的工作中;特别是,我们计划用通常用于基于RGBD的检测器的指标和数据集来评估其性能。

四、材料和方法

4.1. 方法

在本节中,我们将对我们所研究和比较的6D物体检测方法进行分类。由于这项工作的范围是特定于使用情况的,我们重点关注对方法的使用进行约束的方法属性,以及作为实施细节使用的CNN类型等方面。在下文中,我们将描述我们发现的与应用场景相关的方法属性,以及它们能以何种方式约束潜在的使用。这些属性描述应该被看作是一套一般准则,而不是严格的规则,例如,尽管基于深度的检测器往往比基于RGB的检测器能提供更好的相机与物体的距离估计,但这不一定在所有情况下都是真的。表1显示了我们对算法的分类。

Modality模态:描述了一个方法在训练时和运行时接受哪种类型的输入。基于RGB的方法在估计物体与摄像机的距离时,往往有较大的误差。基于深度的方法只基于几何学,所以它们不能使用物体上可见的颜色线索或纹理。基于RGBD的方法可以利用两者的优点。我们只考虑核心方法使用的模式,即没有可选的细化步骤。当然,每一个基于RGB的检测器都可以扩展为RGBD,例如,用ICP[47]对结果进行后处理,每一个基于深度的检测器都可以通过采用某种基于二维边缘的姿势细化扩展为RGBD。

Features特征:说明一个方法是使用学习的还是手工制作的特征进行物体检测,也就是说,该算法是数据驱动还是模型驱动。顾名思义,数据驱动的方法往往需要大量的训练数据:在我们的例子中是合成图像。这些数据的生成和随后的训练在计算上要求很高,在某些情况下需要几天的时间才能完成全部设置。手工制作的特征通常不需要那么多的数据,而且训练数据到特征的转换是直接的,因为不需要进行权重优化。然而,后者往往有更多的参数需要进行微调以获得最佳结果。

Scope尺度:描述了物体检测步骤中的特征是代表整个目标物体(如 "模板")还是单个兴趣点(如单个像素或图像补丁)。代表整个物体的全局特征,在检测一个物体类别的多个实例时,通常更加稳健,这些实例彼此接近或甚至相互遮挡。局部特征往往对一般的遮挡或困难的光照条件更加稳健。

Output输出:给出了输出姿势所处的空间类型。基于回归的方法预测的是连续的结果,也就是说,他们估计的姿势在理论上是无限精确的。基于分类的方法预测的是离散的结果,也就是说,它们的输出是先前学到的有限数量的类别之一。离散的估计结果是否足够好,取决于用例的要求,以及是否有足够的计算资源来执行细化步骤。

这项工作中提到的所有方法都是通过基于模型的训练来测试的。请注意,不同的方法生成合成数据的模式不同,也就是说,可能存在更好的分数,因此,所提出的分数只是下限值。

对个别方法的评论

  • 基于学习的方法FFB6D[2]是由我们自己在合成图像上训练的。为了训练FFB6D,我们使用了BlenderProc[4]为BOP挑战赛2020[3]生成的合成图像,将场景2作为验证集。我们停用了所有的数据增强功能,并按照渲染图的原样进行训练。训练运行了366,000次迭代,批次大小为3。

  • PoseRBPF[33]是一种跟踪方法,而不是一种物体检测方法。然而,该算法实际上可以用于物体检测(在相应的论文中被称为初始化),而且姿势估计的准确性在连续的帧中得到了改善。出于这个原因,我们在这项工作中考虑了它,尽管它不完全符合所需的特征。

  • PointVoteNet[30]支持全局和局部特征,因为它是基于Qi等人的PointNet[50],它将目标对象表示为全局和局部特征的级联。

  • 基于深度的方法PointVoteNet[30]、PoseCluster[22]和所有PPF变体[9-11]都可以只用点云来训练,即这里不需要图像合成。

4.2. 数据集

在这项工作中,我们把重点放在数据集上,一方面,这些数据集提出的挑战与第3.2节所述的要求相符,而且文献中也有大量的定量数据。对于这项工作中使用的所有数据集,都有RGBD图像,并有地面真实姿势和所描述物体的3D模型的注释。此外,合成的RGBD训练图像通过BOP提供(见https://bop.felk.cvut.cz/home/)。数据集的样本图像可以在图2中看到。这些都被视为这项工作的一部分。

LineMOD(LM)[14]:LM数据集由Hinterstoisser等人首次提出,用于评估他们的同名算法,提供了15个场景。在每个场景中,15个不同的物体中的1个被标注在办公环境中,并放置在一个有严重杂乱的桌面上。

LineMOD occluded(LMO)[19]:该数据集包括原始LineMOD数据集中的第2个场景,但在单帧中带有不同类别的多个物体的地面真实注释。除了背景杂波外,这也带来了物体间大量遮挡的挑战

T-LESS[51]:T-LESS数据集包括20个场景,有30个不同物体类别的注释。所描述的物体都是典型的工业制造的物体,由无纹理的白色塑料制成,其中许多是旋转对称的。这些物体都被放置在一个黑色的背景上,所以没有什么背景杂波。所有场景都显示了不同位置的物体的不同组合,一个场景中有多个物体的实例,物体之间相互遮挡。

对于其他通常用于评估6D物体检测的数据集的全面概述,我们建议阅读Hodan. 等人的出版物[3]。他们的工作不仅给出了数据集的细节和它们所带来的具体挑战,而且作者还将12个广泛使用的数据集放在一个共同的格式中,并为其中大多数提供了使用BlenderProc[4]生成的合成训练图像。

4.3. 评估指标

对物体检测器的评估通常是将其视为二进制分类器。因此,用于评估物体检测器性能的指标是分两个阶段计算的:

1.检测到的实例和地面真实注释的距离用一个几何指标来计算。基于一个特定的度量阈值,每个检测到的实例和地面真实注释都被分为真阳性(TP)、假阳性(FP)和假阴性(FN)之一。

2.TPs、FPs和FNs的数量根据二元分类器的评价指标进行汇总,然后给出最终评价分数

在文献中,有几个常用的指标来确定物体检测器的性能。我们只详细描述与本工作有关的指标。如果一个指标能够对符合工业使用情况的多个物体检测器进行比较,则被认为是相关的。我们注意到,大部分考虑基于模型的训练的出版物都使用了下面介绍的指标之一。关于这些指标在文献中的分布概况,请参考表2。

以下是文献中最常使用的几何指标,用于评估仅在三维模型上训练的6维物体检测器的性能:

平均距离(对称)(ADD(S))[14]:这个指标测量物体模型用两个不同姿势变换后的三维点的平均距离。ADD-S(也是ADI)是一个变体,它考虑到旋转对称的物体可以有多个有效的姿态估计。ADD(S)用于表示对称变体ADD-S用于具有旋转对称性的物体,ADD用于非对称性物体。将一个估计值归类为正确的最常用的阈值是t = 0.1 - d,其中d是目标物体的直径。有些出版物使用t = 0.15,在相应的位置上都有标注。

视觉表面差异(VSD)[52]:顾名思义,这个指标衡量的是一个物体用两个不同的姿势变换后相对于相机的可见表面的差异,也就是说,如果一个物体用两个姿势变换后看起来完全一样,VSD就是0。特别是,这比ADD(S)更直观地处理旋转对称性。这个指标有两个阈值参数,决定一个姿势是否被认为是正确的:

τ是重叠像素的相机距离的最大允许差异;θ是根据τ条件需要认为正确的物体像素的最小允许百分比,以使整个假设被认为是正确的。一个广泛使用的阈值组合是τ = 20 mm和θ = 0.3。BOP挑战赛2020[3]采用了一种不同的方法,在[0.05-d, 0.5-d]区间内以0.05-d为单位增加τ,在[0.05, 0.5]区间内以0.05为单位增加θ。然后他们确定每一对τ-θ的得分,并取其平均值作为总分。我们把这种配置称为VSDBOP。

对于评估作为二进制分类器的物体检测器,我们发现,对于符合我们要求的方法,最广泛使用的指标是召回率和F1分数,后者是召回率和精确度的谐波平均值。它们的计算方式如下:

召回适用于评估物体定位任务,如第3.1节所定义的。在这种情况下,我们知道场景中有N个物体实例,而我们最多有N个结果假设。由此可见,FPs≤FNs,召回率≤精度。这使得计算精度对这个任务来说是多余的。对于物体检测来说,要找到的物体的数量是未知的,所以这里需要F1分数,因为它考虑到了真阳性和假阳性。

我们没有考虑的几何指标,由于它们基于上述条件不相关,但可以在文献中找到,包括二维投影误差、联合体上的交叉(IoU)、平移和角度误差、最大对称性感知表面距离(MSSD)、最大对称性感知投影距离(MSPD)和平均方向相似度(AOS)。我们没有考虑的二元分类指标包括平均精度(AP)、平均平均精度(mAP)和曲线下面积(AUC)。关于这些指标的更多信息见Hoda ˇ n等人[3]或Sahin等人[6]。

五、评估

物体检测器的基准由三个主要方面定义:使用的数据集、使用的评估基准和用于将检测结果分类为成功或失败的阈值(公差)。在搜索符合我们提出的要求的物体检测器的性能的定量数据时,我们发现了表2中所列的数据集-度量组合的数据。

尽管我们在这项工作中着重于物体检测任务,但我们也检查了物体定位基准的结果。一方面,在一些工业用例中,物体定位已经足够,另一方面,如第3.1节所述,物体定位可以被看作是6D物体检测的一个子任务。

请注意,我们发现的经验数据并没有解决第3.2节中提出的两个挑战:未知物体颜色和困难的表面。对于基于学习的方法来说,用于训练的合成图像的属性对物体颜色变化的鲁棒性起着重要作用,特别是渲染是用已知的颜色还是用一些随机化策略生成的。我们无法收集到关于本文介绍的所有算法的训练数据生成模式的足够信息,因此关于这方面的性能仍然没有结论。反光或半透明物体也是如此,这对所有的计算机视觉任务来说都是一个非常具有挑战性的案例,而且据我们所知,目前还没有关于6D物体检测的注释数据集。

5.1. 讨论

在下文中,我们介绍了我们为几个物体检测器发现的经验评估结果。我们首先总结了我们在基准分数方面的发现,同样关注第3.2节中定义的要求,然后我们看看不同方法的运行时间,最后向后退一步,描述我们对文献中经验数据的可用性和可比性的发现。

5.1.1. 方法得分

表3中报告了我们在纯粹基于模型的数据上训练出来的物体检测器的定量评估结果。从这些数字中,我们可以得出以下结论,关于第3.2节中提出的要求。

物体定位:对于LM-ADD(S)、LM-VSD、LM-VSDBOP、TLESS-VSD和TLESSVSDBOP,以下各自的方法表现最好。LCHFs [17], Vidal等人的PPFs [11], SurfEmb [36], PoseRBPF [33]和SurfEmb [36]。LMOVSDBOP允许对PFFs和SurfEmb进行直接比较,由此我们可以认为后者是总体上更好的方法。我们无法比较其他排名靠前的选手,因为他们没有在相同的度量-数据集组合上进行评估,所以最佳的整体物体定位器仍然没有结论。

物体检测:对于LMO-ADD(S)-F1,LCHFs[17]表现最好。由于它们在LM-ADD(S)的物体定位方面也表现非常好,我们得出结论,这种方法可以胜过许多其他的物体检测器,尽管有一些保留。

遮挡:LMO-VSDBOP排名以SurfEmb[36]为首,其次是PointVoteNet[30]和HybridPose[42],还有一些距离。

工件检测(无纹理,旋转对称):在TLESS-VSD上排名靠前的是带SDF的PoseRBPF,其次是没有细化的同一方法[33],带ICP的AAE细化[43]以较大的优势排名第三。对于TLESS-VSDBOP,SurfEmb[36]再次以较大的优势排名第一,其次是HybridPose[42]和CosyPose[5]。

当RGBD图像和只有基于模型的训练数据可用时,哪个是总体上最好的6D姿势估计器?从定量数据中,我们发现我们无法回答这个问题。大多数表现最好的方法是在不同的数据集-指标组合上评估的,因此不能根据现有的数据进行比较。特别是大多数有前途的方法,LCHF[17]、Vidal等人的PPF[11]、SurfEmb[36]和PoseRBPF[33],不能直接相互比较。

值得注意的是,在某些情况下,手工制作的特征仍然可以与基于学习的方法抗衡。特别是对于LM-ADD(S),十年前的LineMOD算法[14]和Rios-Cabrera[15]的变体几乎达到了LCHFs[17]的性能,并且超过了很多其他的新方法(例如SSD6D[44]、SynPo-Net[32]和AAEs[43])。对于LM-VSD,Vidal等人[11]的基于PPF的方法仍然优于所有其他方法,而对于TLESS-VSD,它取得了第二名。然而,在这个排名中的良好表现需要被置于一些保留意见之下:

  • 文献中的很多新方法都是在真实数据或真实数据与合成数据的结合上进行训练的,对于很多普遍看好的方法,目前还没有或很少有纯粹基于模型训练的性能的经验数据;即使有数据,也没有可比性。

  • 与基于学习的方法相比,LineMOD和PPF都有缺点,这些缺点没有反映在分数上,比如需要手动优化参数(两者都是),对遮挡的脆弱性(LineMOD)和缓慢的运行时间(PPF)。

  • LineMOD和PPF对LM-F1的表现都很一般,而在产生高召回率方面却很好。我们认为这是因为这两种方法都不是鉴别性的(即它们没有明确地 "知道 "要排除什么),因此往往比基于学习的方法有较低的精度。

5.1.2. 运行时间

在表4中,我们列出了被评估的方法的运行时间,如果它们可用的话。表现最好的两个方法和唯一达到交互式实时应用的帧率的方法是基于神经网络的方法,这些方法在RGB图像上工作,没有任何细化[24,32],这并不奇怪。最快的基于RGBD的方法是LineMOD-variant DTT-OPT-3D[15]。这些数字表明,ICP-细化是一个昂贵的操作。依靠ICP的方法通常表现较差,更具体地说,当我们比较AAE时,我们可以看到0.6秒的差异,有和没有细化。最慢的方法是那些基于PPF的方法。值得注意的是,SurfEmb,在闭塞和工件检测方面表现最好的方法,每帧需要大约9秒,这对于许多用例来说是不可接受的。

5.1.3. 经验数据的可用性和可比性

在表2中,我们列出了每个数据集-指标组合所拥有的数据量。我们观察到文献中对基于召回的指标的关注。基于召回的指标共有70行数据,而同时考虑精度的F1分数只有7行,也就是说,许多出版物只评估他们的算法关于物体定位的性能,而忽略了假阳性,这在物体检测场景中可能是一个重要的问题。

许多方法由于在不同的数据集或度量标准上被评估而不能被比较。我们认为这其中的一个主要原因是处理多个数据集或实现不同指标所需的努力。最好能有一个基准框架,对数据集和姿势估计结果有一个明确的接口,支持多种指标,并允许简单的扩展。这个框架应该有一个在线数据库,可以方便地收集和分析关于物体探测性能的经验数据。BOP是朝着这个方向迈出的一大步,特别是在数据集的标准化方面。然而,这里实现的评估指标在发表时是新的,所以它们与旧的结果没有可比性。

此外,BOP挑战在他们的基准中没有考虑精度。在[3]的附录A.1中,作者讨论了他们关于在基准中排除精度的决定,并得出结论,为了他们的基准,基于召回的分数是合适的,原因有二。首先,这些分数在写作时还没有饱和,其次,对于评估框架来说,只有关于召回的计算复杂性较低。我们认为,对于针对研究界的基准来说,这些论点是有效的,但我们认为,对于物体检测器的潜在应用,需要更多的信息,以便在考虑特定用例的要求时确定其适用性。

六、总结和展望

在这项工作中,我们调查了6D物体检测的技术状况,重点是工业应用,我们认为基于模型的训练和对RGBD图像的支持特别重要。我们介绍了从文献中收集的关于物体检测器的定性和定量信息以及物体检测器FFB6D的新数据[2]。我们讨论了这些数据,并确定了应对工业应用的具体挑战的有希望的候选者。

此外,我们还看了一下数据的可用性,这些数据提供了关于算法对我们所分析的用例的适用性的信息。我们发现,对于许多方法来说,文献中没有足够的经验数据来确定它们在应对特定挑战方面的适合程度,或者将它们与竞争方法进行比较。特别是,文献中的许多方法只在真实数据上进行了测试,而且许多方法只在基于召回的指标上进行了评估。

基于这些发现,我们认为以下未来的研究课题将有利于6D物体检测在工业背景下的应用:

  • 用基于模型的数据训练已有的和有前途的物体检测器,并对其进行评估。

  • 用考虑到精度的指标来评估已建立的和有前途的物体检测器。

  • 将基于点云和多视角图像的方法考虑在内。

  • 通过提供工具和框架,使研究人员能够产生有意义的和可比较的数据,这些工具和框架提供统一的格式和界面,以便在众多不同的数据集和指标上评估物体检测器。此外,提供一个在线数据库,以简化评估结果的收集、分类和分析。我们认为BOP是这个方向的一个良好开端,但是为了成为一个评估物体检测的通用框架,它应该用更多的指标和更简单的接口进行扩展。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

本文标签: 模型目标工业