admin管理员组

文章数量:1597475

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者丨paopaoslam

来源丨泡泡机器人SLAM

标题:Embracing Single Stride 3D Object Detector with Sparse Transformer

作者:Lue Fan, Ziqi Pang, Tianyuan Zhang, Yu-Xiong Wang, Hang Zhao, Feng Wang, Naiyan Wang, Zhaoxiang Zhang

来源:CVPR 2022

编译:鞠季宏

审核:阮建源,王志勇

摘要

    用于自动驾驶的 LiDAR 3D 对象检测与 2D 检测情况相比,对象大小与输入场景大小的对比要小得多。许多 3D 检测器遵循 2D 检测器的常见做法,也对点云量化后的特征图进行下采样,这样的做法忽略了3D与2D目标相对尺寸的差异。在本文中,我们重新考虑了多步长方案对 LiDAR 3D 物体检测器的影响。我们的实验指出,下采样操作带来的优势很少,并且不可避免地导致信息丢失。为此,我们提出了单步稀疏变换器(SST)来保持神经网络从开始到结束的分辨率不变。借助 Transformer,我们的方法解决了单步架构中感受野不足的问题。它还与点云的稀疏性很好地配合,避免了高昂的计算。最终,我们的 SST 在大规模 Waymo 开放数据集上取得了最佳结果。值得一提的是,由于单步长的特点,我们的方法在小物体(行人)检测上可以达到极佳性能(83.8 LEVEL 1 AP on validation split)。

代码将在https://github/TuSimple/SST 发布。

主要贡献

  1. 本文通过实验验证神经网络的步长是当前主流3D目标识别方法的主要问题。

  2. 简单地缩短步长受限于感受野不足的问题。于是本文提出了基于 Transformer 的单步长稀疏变换器 (SST):既避免了下采样带来的信息缺失,又确保了足够的感受野。

  3. 应用SST,本文在 Waymo 开放数据集小物体检测上获得了极佳的表现

方法概述

    如图1所示,相比与传统的多步长3D检测器,SST 不对体素化的特征图进行下采样和上采样;并且SST也并不使用卷积层,而是利用点云特征图的稀疏性应用自注意力机制提取特征。

    SST使用类似 PointPillars 的方法将点云转化为鸟瞰视角的伪特征图像。然后将获得的稀疏伪特征图像以与 Vision Transformer 相似的方法分割成互不重叠的区域。自注意力机制被应用于相同区域内的特征。为解决跨区域特征的物体的问题,如图3所示,SST 在一次局部自注意之后,区域分割被整体平移进行第二次局部自注意。这样即便是区域边缘的特征也可以在第二次局部自注意时注意到区域边缘另一侧的特征。

    由于雷达点云数据的稀疏性,作为输入的鸟瞰视角的伪特征图像也具有一定的稀疏性。自注意力机制的运算复杂度与特征数量呈二次方关系,这样的稀疏性天然与自注意力机制完美搭配。另外,自注意力机制也无需像卷积层一样为稀疏性专门改良适配。

    将多个这样的 SST 模块堆叠起来,再加上一个将稀疏特征变换回稠密特征图的模块即可组成一个单步长稀疏变换器 (SST),输入是体素化的伪特征图像,输出是相同尺寸的伪特征图像。在此基础上,任意目标识别器均可用于预测三维物体的类别、位置与尺寸。

实验结果

    表2显示 SST 在 Waymo 公开数据集上车辆检测的性能全面优于其他方法。

    表3显示 SST 在 Waymo 公开数据集上行人检测的性能优于其他方法。

    下图显示以粉点为查询特征,其周围其他特征相应的注意力权重。权重有高到低颜色由红变蓝。可以看到高注意力权重与相应的物体高度相关。

总结

  • 本文通过实验分析发现3D 目标识别并不需要下采样。

  • 为解决移除下采样带来的感受野问题提出了基于自注意力机制的单步长稀疏 Transformer(SST)。

  • 实验显示 SST 在检测小物体时尤其有优势。

Abstract

In LiDAR-based 3D object detection for autonomous driving, the ratio of the object size to input scene size is significantly smaller compared to 2D detection cases. Overlooking this difference, many 3D detectors directly follow the common practice of 2D detectors, which downsample the feature maps even after quantizing the point clouds. In this paper, we start by rethinking how such multi-stride stereotype affects the LiDAR-based 3D object detectors. Our experiments point out that the downsampling operations bring few advantages, and lead to inevitable information loss. To remedy this issue, we propose Single-stride Sparse Transformer (SST) to maintain the original resolution from the beginning to the end of the network. Armed with transformers, our method addresses the problem of insufficient receptive field in single-stride architectures. It also cooperates well with the sparsity of point clouds and naturally avoids expensive computation. Eventually, our SST achieves state-of-the-art results on the large scale Waymo Open Dataset. It is worth mentioning that our method can achieve exciting performance (83.8 LEVEL 1 AP on validation split) on small object (pedestrian) detection due to the characteristic of single stride. Codes will be released at this https URL

本文仅做学术分享,如有侵权,请联系删文。

干货下载与学习

后台回复:巴塞罗自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件

后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf

后台回复:3D视觉课程,即可学习3D视觉领域精品课程

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近5000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

本文标签: 稀疏目标CVPRTransformer