





图 1从1998年到2018年,物体检测领域的出版物数量不断增加。(数据来自Google学术搜索高级搜索:allintitle:“对象检测"和"检测对象”

图 2对象检测的路线图。此图中的里程碑检测器:VJ Det. [10, 11], HOG Det. [12], DPM [13, 14, 15],RCNN[16],SPPNet[17],Fast RCNN[18],Faster RCNN[19],YOLO[20],SSD[21],Pyramid Networks [22],Retina-Net[23].




18年前,P. Viola和M. Jones首次实现了人脸的实时检测,没有任何限制(例如,肤色分割)[10,11]。该探测器采用700MHz奔腾III CPU,在相当的检测精度下,其速度比任何其他算法快数十倍甚至数百倍。检测算法后来被称为"Viola-Jones(VJ)探测器",本文由作者的名字给出,以纪念他们的重大贡献。
定向梯度直方图(HOG)特征描述符最初由N. Dalal和B. Triggs于2005年提出[12]。HOG可以被认为是其当时的尺度不变特征变换[33,34]和形状上下文[35]的重要改进。为了平衡特征不变性(包括平移、比例、照明等)和非线性(在区分不同对象类别时),HOG 描述符设计为在均匀间隔的单元的密集网格上计算,并使用重叠的局部对比度归一化(在"块"上)以提高准确性。虽然HOG可用于检测各种对象类别,但它的动机主要是行人检测的问题。为了检测不同大小的物体,HOG检测器会多次重新缩放输入图像,同时保持检测窗口的大小不变。HOG探测器长期以来一直是许多物体探测器[13,14,36]和各种计算机视觉应用的重要基础。
DPM作为VOC-07、-08和-09检测挑战的赢家,是传统物体检测方法的巅峰之作。DPM最初由P. Felzenszwalb [13]在2008年提出,作为HOG探测器的扩展,然后R.Girshick[14,15,37,38]进行了各种改进。
虽然今天的物体检测器在检测精度方面已经远远超过了DPM,但其中许多检测器仍然深受其宝贵见解的影响,例如混合模型、硬负挖掘、边界框回归等。2010年,P.Felzenszwalb和R.Girshick被PASCAL VOC授予"终身成就”。
随着手工制作的特征的性能变得饱和,物体检测在2010年之后达到了一个平台。R. Girshick说:“…在2010-2012年期间,进展缓慢,通过构建集成系统和采用成功方法的次要变体获得了很小的收益”[38]。2012年,世界见证了卷积神经网络的重生[40]。由于深度卷积网络能够学习图像的鲁棒性和高级特征表示,一个自然的问题是我们是否可以将其用于对象检测?R. Girshick等人在2014年率先打破了僵局,提出了具有CNN特征的区域(RCNN)用于对象检测[16,41]。从那时起,物体检测开始以前所未有的速度发展。
RCNN背后的想法很简单:它从通过选择性搜索[42]提取一组对象提案(对象候选框)开始。然后,每个提案被重新缩放为固定大小的图像,并输入到在ImageNet上训练的CNN模型(例如AlexNet [40])以提取特征。最后,线性SVM分类器用于预测每个区域中物体的存在并识别物体类别。RCNN在VOC07上显著提升了性能,平均精度(mAP)从33.7%(DPM-v5 [43]) 大幅提升至58.5%。
2014年,K.他等人提出了空间金字塔池网络(SPPNet)[17]。以前的CNN型号需要固定大小的输入,例如,AlexNet的224x224图像[40]。SPPNet的主要贡献是引入了空间金字塔池(SPP)层,这使得CNN能够生成固定长度的表示,而不管感兴趣图像/区域的大小如何,而无需重新缩放。使用SPPNet进行物体检测时,只能从整个图像中计算一次特征图,然后可以生成任意区域的固定长度表示来训练探测器,从而避免了重复计算卷积特征。SPPNet比R-CNN快20倍以上,而不会牺牲任何检测精度(VOC07 mAP = 59.2%)。
虽然SPPNet有效地提高了检测速度,但仍然存在一些缺点:首先,训练仍然是多阶段的,其次,SPPNet仅微调其完全连接的层,而简单地忽略了所有先前的层。次年晚些时候,Fast RCNN [18]被提出并解决了这些问题。
2015年,R.Girshick提出了Fast RCNN探测器[18],这是对R-CNN和SPPNet的进一步改进[16,17]。快速RCNN使我们能够在相同的网络配置下同时训练检测器和边界盒回归器。在VOC07数据集上,Fast RCNN将mAP从58.5%(RCNN)提高到70.0%,同时检测速度比R-CNN快200倍以上。
虽然Fast-RCNN成功集成了R-CNN和SPPNet的优势,但其检测速度仍受到提案检测的限制(详见第2.3.2节)。然后,自然会出现一个问题:"我们可以用CNN模型生成对象提案吗?后来,Faster R-CNN [19]回答了这个问题。
2015年,S. Ren等人在Fast RCNN之后不久提出了Faster RCNN探测器[19,44]。Faster RCNN是第一个端到端的,也是第一个近实时的深度学习检测器(COCO mAP@.5=42.7%,COCO mAP@[.5,.95]=21.9%,VOC07 mAP=73.2%,VOC12 mAP=70.4%,采埃孚-Net为17fps[45])。Faster-RCNN的主要贡献是引入了区域提案网络(RPN),可实现几乎免费的区域提案。从R-CNN到Faster RCNN,对象检测系统的大多数单个模块,例如提案检测,特征提取,边界框回归等,已经逐渐集成到一个统一的端到端学习框架中。
虽然 Faster RCNN 突破了 Fast RCNN 的速度瓶颈,但在后续检测阶段仍然存在计算冗余。后来,提出了各种改进,包括RFCN [46]和Light head RCNN [47]。(有关详细信息,请参阅第 3 节。
2017年,T.-Y.Lin等人在Faster RCNN的基础上提出了特征金字塔网络(FPN)[22]。在FPN之前,大多数基于深度学习的检测器仅在网络顶层运行检测。虽然CNN更深层的特征有利于类别识别,但不利于对象的定位。为此,在FPN中开发了一种具有横向连接的自上而下的架构,用于构建所有规模的高级语义。由于CNN通过其前向传播自然形成特征金字塔,因此FPN在检测具有各种尺度的物体方面显示出巨大的进步。在基本的Faster R-CNN系统中使用FPN,它可以在MSCOCO数据集上实现最先进的单模型检测结果,而不会出现花里胡哨的东西(COCO mAP@.5 = 59.1%,COCO mAP@[.5,.95]= 36.2%)。FPN现已成为许多最新探测器的基本组成部分。
你只看一次 (YOLO)
YOLO由R. Joseph等人于2015年提出。它是深度学习时代的第一个单级探测器[20]。YOLO非常快:YOLO的快速版本以155fps的速度运行,VOC07 mAP = 52.7%,而其增强版本以45fps的速度运行,VOC07 mAP = 63.4%,VOC12 mAP = 57.9%。YOLO是"你只看一次"的缩写。从其名称可以看出,作者已经完全放弃了之前"提案检测+验证"的检测范式。相反,它遵循一个完全不同的哲学:将单个神经网络应用于完整图像。该网络将图像划分为多个区域,并同时预测每个区域的边界框和概率。后来,R. Joseph在YOLO的基础上做了一系列的改进,并提出了v2和v3版本[48,49],在保持极高检测速度的同时,进一步提高了检测精度。
尽管YOLO的检测速度有了很大的提高,但与两级检测器相比,YOLO的定位精度有所下降,特别是对于一些小物体。YOLO的后续版本[48,49]和后者提出的SSD [21]更加关注这个问题。
单次多盒探测器 (SSD)
SSD [21]由W. Liu等人于2015年提出。它是深度学习时代的第二个单级探测器。SSD的主要贡献是引入了多参考和多分辨率检测技术(将在2.3.2节中介绍),这显着提高了单级探测器的检测精度,特别是对于一些小物体。SSD在检测速度和精度方面均具有优势(VOC07 mAP=76.8%,VOC12 mAP=74.9%,COCO mAP@.5=46.5%,mAP@[.5,.95]=26.8%,快速版本以59fps的速度运行)。SSD与以前的任何探测器之间的主要区别在于,前者在网络的不同层上检测不同比例的物体,而后者仅在其顶层上运行检测。
尽管速度快,简单,但单级探测器多年来一直落后于两级探测器的精度。T.-Y. Lin等人发现了背后的原因,并在2017年提出了RetinaNet[23]。他们声称,在密集探测器训练期间遇到的极端前景 - 背景类不平衡是核心原因。为此,RetinaNet中引入了一个名为"焦点损失"的新损失函数,通过重塑标准的交叉熵损失,使探测器在训练期间更加关注困难的、错误分类的例子。焦散使单级探测器能够达到与两级探测器相当的精度,同时保持非常高的检测速度。(COCO mAP@.5=59.1%,mAP@[.5, .95]=39.1%)。


构建偏差较小的大型数据集对于开发高级计算机视觉算法至关重要。在对象检测方面,过去10年已经发布了许多知名的数据集和基准测试,包括PASCAL VOC挑战[50,51](例如VOC2007,VOC2012),ImageNet大规模视觉识别挑战赛(例如ILSVRC2014)[52],MS-COCO检测挑战赛[53]等数据集。这些数据集的统计数据见表I。图 4 显示了这些数据集的一些图像示例。图3显示了2008年至2018年VOC07、VOC12和MS-COCO数据集检测精度的提高情况。

图 3改进了VOC07、VOC12和MS-COCO数据集上物体检测的准确性。此图中的探测器:DPM-v1 [13]、DPM-v5 [54]、RCNN [16]、SPPNet [17]、Fast RCNN [18]、Faster RCNN [19]、SSD [21]、FPN [22]、Retina-Net [23]、RefineDet [55]], TridentNet[56].

表 1一些众所周知的对象检测数据集及其统计信息。
PASCAL 可视对象类 (VOC) 挑战(2005年至2012年)[50,51]是早期计算机视觉界最重要的竞赛之一。PASCAL VOC 中有多个任务,包括图像分类、对象检测、语义分割和动作检测。Pascal-VOC的两个版本主要用于对象检测:VOC07和VOC12,前者由5k tr.图像+ 12k注释对象组成,后者由11k tr.图像+ 27k注释对象组成。在这两个数据集中注释了生活中常见的20类对象(人:人;动物:鸟,猫,牛,狗,马,羊;车辆:飞机,自行车,船,公共汽车,汽车,摩托车,火车;室内:瓶子,椅子,餐桌,盆栽植物,沙发,电视/显示器)。近年来,随着ILSVRC和MS-COCO(即将推出)等一些较大的数据集的发布,VOC逐渐过时,现在已成为大多数新探测器的试验台。
ImageNet 大规模视觉识别挑战赛(ILSVRC)推动了通用物体检测领域的技术水平。ILSVRC从2010年到2017年每年举办一次。它包含使用 ImageNet 图像的检测挑战 [57]。ILSVRC 检测数据集包含 200 类可视对象。其图像/对象实例的数量比VOC大两个数量级。例如,ILSVRC-14 包含 517k 图像和 534k 带注释的对象。
可可[53]是目前最具挑战性的物体检测数据集。基于MS-COCO数据集的年度竞赛自2015年以来一直举行。与 ILSVRC 相比,它的对象类别数量较少,但对象实例更多。例如,MS-COCO-17 包含来自 80 个类别的 164k 图像和 897k 注释对象。与VOC和ILSVRC相比,MS-COCO最大的进步是除了边界框注释之外,每个对象都使用每个实例分割进一步标记,以帮助精确定位。此外,MS-COCO包含比VOC和ILSVRC更多的小物体(其面积小于图像的1%)和更密集的物体。所有这些功能使MS-COCO中的对象分布更接近现实世界的对象分布。就像当时的ImageNet一样,MS-COCO已经成为物体检测社区事实上的标准。
2018年引入了开放图像检测(OID)挑战赛,紧随MS-COCO之后,但规模空前。打开图像中有两个任务:1)标准对象检测,以及2)视觉关系检测,用于检测特定关系中的配对对象。对于对象检测任务,数据集由 1,910k 图像和 600 个对象类别上的 15,440k 带注释的边界框组成。
除了一般的物体检测,近20年来,行人检测、人脸检测、文字检测、交通标志/灯光检测、遥感目标检测等特定领域的检测应用蓬勃发展。表 II-VI 列出了这些检测任务的一些常用数据集55#Cites显示了截至2019年2月的统计数据。.有关这些任务的检测方法的详细介绍,请参见第 5 节。
数据 年 描述 #Cites
2000 首批行人检测数据集之一。包括∼500 培训和∼200 张测试映像(基于 LabelMe 数据库构建)。url:
因里亚 [12]
2005 早期最著名和最重要的行人检测数据集之一。由HOG论文介绍[12]。 网址:
加州理工学院 [59, 60]
2009 最著名的行人检测数据集和基准之一。包括∼190,000 名行人在训练场和∼160,000 在测试集。该指标是 Pascal-VOC @ 0.5 IoU。网址:
基蒂 [61]
2012 交通场景分析最著名的数据集之一。在德国卡尔斯鲁厄被俘。包括∼100,000 名行人 (∼6,000人)。网址: http://www.cvlibs/datasets/kitti/index.php
市民 [62]
2017 基于 CityScapes 数据集构建 [63]。包括 ∼19,000 名行人参加训练集和∼测试集 11,000。与加州理工学院的指标相同。网址: https://bitbucket/shanshanzhang/citypersons
欧洲城 [64]
2018 迄今为止最大的行人检测数据集。从12个欧洲国家的31个城市捕获。包括∼238,000 个实例∼47,000 张图片。与加州理工学院的指标相同。 1
表 2一些常用行人检测数据集的概述。
数据 年 描述 #Cites
FDDB [65]
2010 包括∼2,800 张图片和∼来自雅虎的5,000张面孔!遮挡、姿势更改、失焦等 url:
迷航 [66]
2011 包括∼来自 Flickr 的 26,000 张面孔和 22,000 张图像,带有丰富的面部地标注释。 网址:
伊吉布 [67]
2015 IJB-A/B/C 由超过 50,000 个图像和视频帧组成,用于识别和检测任务。
加宽面 [68]
2016 最大的人脸检测数据集之一。包括∼32,000 张图像和 394,000 张具有丰富注释的面孔,即比例、遮挡、姿势等。
UFDD [69]
2018 包括∼6,000 张图片和∼11,000 张面孔。变化包括基于天气的退化,运动模糊,焦点模糊等。
最狂野的脸 [70]
2018 跟∼68,000 个视频帧和∼2,200个镜头,64个与名人在不受约束的场景中战斗。数据集尚未发布。 2
表 3一些常用人脸检测数据集的概述。
数据 年 描述 #Cites
ICDAR [71]
2003 ICDAR2003 是首批用于文本检测的公共数据集之一。ICDAR 2015 和 2017 是 ICDAR 挑战赛 [72, 73] 的其他热门迭代。
全景电视 [74]
2010 包括∼350 张图片和∼720 个文本实例取自 Google 街景。 网址:
MSRA-TD500 [75]
2012 包括∼500张室内/室外图片,附中英文文本, 网址: http://www.iapr-tc11/mediawiki/index.php/MSRA_Text_Detection_500_Database_(MSRA-TD500)
IIIT5k [76]
2012 包括∼1,100 张图片和∼来自街道和原生数字图像的5,000字。 网址:
可湿90k [77]
2014 一个综合数据集,其中包含从 90,000 个多种字体词汇表生成的 900 万张图像。
可可文本 [78]
2016 迄今为止最大的文本检测数据集。基于 MS-COCO 构建,包括∼63,000 张图片和∼173,000 个文本批注。。
表 4一些常用场景文本检测数据集的概述。

数据 年 描述 #Cites
TLR [79]
2009 在巴黎被一辆移动的车辆捕获。包括∼11,000 个视频帧和∼9,200 个红绿灯实例。 网址:
丽莎 [80]
2012 首批交通标志检测数据集之一。包括∼6,600 帧视频,∼47 个美国标志的 7,800 个实例。 网址:
GTSDB [81]
2013 最受欢迎的交通标志检测数据集之一。包括∼900 张图片∼1,200 个交通标志在一天中的不同时间捕获各种天气条件。 网址:
比利时TSD [82]
2012 包括∼7,300 张静态图像,∼120,000 个视频帧,以及∼11,000个交通标志注释,共269种。每个标志的 3D 位置都已添加注释。网址:
TT100K [83]
2016 迄今为止最大的交通标志检测数据集,具有∼100,000 张图像 (2048 x 2048) 和∼128 个类的 30,000 个流量标志实例。每个实例都使用类标签、边界框和像素掩码进行批注。网址:
英国国家图书馆 [84]
2017 最大的交通灯检测数据集。包括∼5000 张静态图像,∼8300 个视频帧,以及∼24000 个红绿灯实例。
表 5一些常用的交通信号灯检测和交通标志检测数据集的概述。
数据 年 描述 #Cites
塔斯马尼亚州 [85]
2008 由来自 Google 地球的 729x636 像素的 30 张图像组成,以及∼1,300 辆车。 网址:
手术室 [86]
2009 包含由机载摄像头捕获的 900 张图像(0.08-0.3 米/像素)和 1,800 个带注释的车辆目标。 url: https://sourceforge/projects/oirds/
数码单反3K [87]
2013 小型车辆检测最常用的数据集。由9,300辆汽车和160辆卡车组成。
2015 包括∼900 谷歌地球图片,∼2,800辆汽车和∼3,200 架飞机。
网址: http://www.ucassdl/resource.asp
吠代 [89]
2016 包括∼1,200 张图像(0.1-0.25 米/像素),∼9个班级的3,600个目标。设计用于检测遥感图像中的小目标。
新世界疫苗-VHR10 [90]
2016 近年来使用最频繁的遥感探测数据集。包括∼800 张图像(0.08-2.0 米/像素)和∼3800个十类遥感目标(如飞机、轮船、棒球钻石、网球场等。 204
莱维尔 [91]
2018 包括∼22,000 谷歌地球图片和∼10,000 个独立标记的目标(飞机、轮船、油罐)。 网址:
多塔 [92]
2018 第一个包含旋转边界框的遥感检测数据集。包括∼2,800 谷歌地球图片和∼15 个类的 200,000 个实例。
xView [93]
2018 迄今为止最大的遥感探测数据集。包括∼100万个60类遥感目标(30万/像素),覆盖1415个km2 土地面积。 网址: http://xviewdataset
表 6部分遥感目标检测数据集概述.
近年来,最常用的物体检测评估是"平均精度(AP)”,它最初是在VOC2007中引入的。AP定义为不同召回率下的平均检测精度,通常以特定类别的方式进行评估。为了比较所有对象类别的性能,通常使用所有对象类别的平均 AP (mAP) 作为性能的最终衡量指标。为了测量对象定位精度,使用并集交叉点 (IoU) 来检查预测框和地面实况框之间的 IoU 是否大于预定义的阈值(例如 0.5)。如果是,则该对象将被标识为"成功检测到”,否则将被标识为"错过"。多年来,基于 0.5 IoU 的 mAP 已成为对象检测问题的事实指标。
2014年后,由于MS-COCO数据集的普及,研究人员开始更加关注边界框位置的准确性。MS-COCO AP 不是使用固定的 IoU 阈值,而是在 0.5(粗略定位)和 0.95(完美定位)之间的多个 IoU 阈值上取平均值。指标的这种变化鼓励了更准确的对象定位,并且对于某些实际应用可能非常重要(例如,想象有一个机器人手臂试图抓住扳手)。
最近,在Open Images数据集中,评估有一些进一步的发展,例如,通过考虑框组和非穷尽的图像级类别层次结构。一些研究人员还提出了一些替代指标,例如"本地化召回精度"[94]。尽管最近发生了变化,但基于VOC/COCO的mAP仍然是对象检测最常用的评估指标。



图 4早期的一些众所周知的探测模型:(a)特征面[95],(b)共享重量网络[96],(c)空间位移网络(Lenet-5)[97],(d)VJ探测器的哈尔小波[10]。
"按组件识别"作为一种重要的认知理论[98],长期以来一直是图像识别和物体检测的核心思想[99,100,13]。一些早期的研究人员将物体检测框定为对物体组件,形状和轮廓之间相似性的测量,包括距离变换[101],形状上下文[35]和Edgelet [102]等。尽管初步结果很有希望,但在更复杂的检测问题上,情况并不顺利。因此,基于机器学习的检测方法开始蓬勃发展。

图 5从2001年到2019年,物体检测中多尺度检测技术的演变:1)特征金字塔和滑动窗口,2)使用对象建议进行检测,3)深度回归,4)多参考检测,以及5)多分辨率检测。此图中的检测器:VJ Det. [10]、HOG Det. [12]、DPM [13, 15]、示例 SVM [36]、Overfeat [103]、RCNN [16]、SPPNet [17]、Fast RCNN [18]、Faster RCNN [19], DNN Det. [104], YOLO [20], YOLO-v2 [48], SS
构建对象的统计模型,如图5(a)所示,如特征面[95,106],是对象检测历史上第一波基于学习的方法。1991年,M. Turk等人通过使用特征面分解[95]在实验室环境中实现了实时人脸检测。与当时基于规则或基于模板的方法相比[107,108],统计模型通过从数据中学习特定于任务的知识,更好地提供了对象外观的整体描述。
早期的 CNN 用于对象检测
使用CNN检测物体的历史可以追溯到1990年代[96],当时Y. LeCun等人做出了巨大贡献。由于计算资源的限制,当时的CNN模型比今天的模型小得多,也浅得多。尽管如此,计算效率仍然被认为是早期基于CNN的检测模型中难以破解的难题之一。Y. LeCun等人进行了一系列改进,如"共享权重复制神经网络"[96]和"空间位移网络"[97],通过扩展卷积网络的每一层来减少计算,从而覆盖整个输入图像,如图5所示。 (b)-(c)。通过这种方式,整个图像的任何位置的特征都可以通过仅采取一次网络的正向传播来提取。这可以被认为是当今全卷积网络(FCN)[110,111]的原型,该网络是在近20年后提出的。CNN还被应用于其他任务,如人脸检测[112,113]和当时的手部跟踪[114]。
VJ探测器和HOG探测器等早期检测模型专门设计用于检测具有"固定长宽比"的物体(例如,人脸和直立的行人),只需构建特征金字塔并在其上滑动固定尺寸的检测窗口即可。当时没有考虑检测"各种宽高比”。为了检测具有更复杂外观的物体,如PASCAL VOC中的物体,R. Girshick等人开始在特征金字塔之外寻求更好的解决方案。“混合模型”[15]是当时最好的解决方案之一,通过训练多个模型来检测具有不同长宽比的物体。除此之外,基于示例的检测[36,115]通过为训练集的每个对象实例(示例)训练单个模型提供了另一种解决方案。
一种对象提案检测算法应满足以下三个要求:1)召回率高,2)定位精度高,3)在前两个要求的基础上,提高精度,缩短处理时间。现代提案检测方法可分为三类:1)分割分组方法[42,117,118,119],2)窗口评分方法[116,120,121,122]和3)基于神经网络的方法[123,124, 125, 126, 127, 128].我们向读者推荐以下论文,以全面回顾这些方法[129,130]。

图 7: 2001年至2019年对象检测中边界框回归技术的演变。此图中的检测器:VJ Det. [10]、HOG Det. [12]、示例 SVM [36]、DPM [13、 15]、Overfeat [103]、RCNN [16]、SPPNet [17]、Fast RCNN [18]、Faster RCNN [19], YOLO [20], SSD [21], YOLO-v2 [48], Unified Det. [105], FPN [22],RetinaNet [23],RefineDet [55],TridentNet [56].

图 8: 从2001年到2019年,对象检测中上下文启动的演变:1)使用本地上下文进行检测,2)使用全局上下文进行检测,3)使用上下文交互进行检测。此图中的检测器:Face Det. [139]、MultiPath [140]、GBDNet [141, 142]、CC-Net [143]、MultiRegion-CNN [144]、CoupleNet [145]、DPM [14、 15]、StructDet [146]、YOLO [20], RFCN++ [147], ION [148], AttenContext [149], CtxSVM [150], PersonContext [151], SMN [152], RetinaNet [23], SIN [153].
多引用检测是用于多尺度对象检测的最常用框架 [19, 44, 48, 21]。其主要思想是在图像的不同位置预先定义一组具有不同大小和宽高比的参考框(又名锚框),然后根据这些参考预测检测框。
每个预定义锚盒的典型损失由两部分组成:1) 用于类别识别的交叉熵损失和 2) 用于对象定位的 L1/L2 回归损失。损失函数的一般形式可以写如下:

哪里t和t∗是预测和地面实况边界框的位置,p和p∗是它们的类别概率。借据{一个,一个∗}是锚点之间的 IOU一个及其基本事实一个∗.η是 IOU 阈值,例如 0.5。如果锚点未覆盖任何对象,则其定位损失不计入最终损失。
边界框 (BB) 回归是对象检测中的一项重要技术。它旨在根据初始建议或锚点框优化预测边界框的位置。在过去的20年中,BB回归的演变经历了三个历史时期:“没有BB回归(2008年之前)”,"从BB到BB(2008-2013)“和"从特征到BB(2013年后)”。图 7 显示了边界框回归的演变。
BB 回归首次引入对象检测系统是在 DPM [15] 中。当时的BB回归通常充当后处理块,因此它是可选的。由于 PASCAL VOC 中的目标是预测每个对象的单个边界框,因此 DPM 生成最终检测的最简单方法应直接使用其根筛选器位置。后来,R. Girshick等人引入了一种更复杂的方法来预测基于对象假设的完整配置的边界框,并将此过程表述为线性最小二乘回归问题[15]。这种方法在PASCAL标准下产生了明显的检测改进。

图 9: 从1994年到2019年,非最大抑制(NMS)技术在对象检测中的演变:1)贪婪选择,2)边界框聚合,以及3)学习NMS。此图中的探测器:VJ Det. [10],Face Det. [96],HOG Det. [12],DPM [13,15],RCNN [16],SPPNet [17],Fast RCNN [18],Faster RCNN [19],YOLO [20],SSD[21], FPN [22], RetinaNet [23], LearnNMS [154], MAP-Det [155], End2End-DPM [136], StrucDet [146], Overfeat [103], APC-NMS [156], MAPC [157], SoftNMS [158], FitnessNMS [159].
在 2015 年引入 Faster RCNN 后,BB 回归不再用作单独的后处理块,而是与检测器集成并以端到端方式进行训练。同时,BB回归已经发展到直接基于CNN特征预测BB。为了获得更稳健的预测,通常使用平滑-L1 函数 [19],

或平方根函数 [20],

作为其回归损失,对于异常值而言,它们比 DPM 中使用的最小二乘法损失更可靠。一些研究人员还选择对坐标进行归一化,以获得更可靠的结果[18,19,21,23]。
全局上下文利用场景配置作为对象检测的附加信息源。对于早期的物体检测器,整合全球背景的一种常见方法是整合构成场景的元素的统计摘要,如Gist [160]。对于基于现代深度学习的探测器,有两种方法可以整合全局上下文。第一种方法是利用大接受场(甚至大于输入图像)[20]或CNN特征的全局池操作[147]。第二种方法是将全球语境视为一种顺序信息,并使用递归神经网络学习它[148,149]。
非最大抑制 (NMS) 是对象检测中的一组重要技术。由于相邻窗口通常具有相似的检测分数,因此本文将非最大抑制用作后处理步骤,以删除复制的边界框并获得最终的检测结果。在物体检测的早期,NMS并不总是集成的[30]。这是因为当时物体检测系统的期望输出并不完全清楚。在过去的20年中,NMS已逐渐发展为以下三组方法:1)贪婪选择,2)边界盒聚合,3)学习NMS,如图9所示。

图 10: 1994年至2019年物体检测中硬负片采矿技术的演变。此图中的探测器:面部 [164]、哈尔区 [29]、VJ 区 [10]、HOG 分机组 [12]、DPM [13、 15]、RCNN [16]、SPPNet [17]、快速 RCNN [18]、速度更快的 RCNN [19]、YOLO [20], SSD [21], FasterPed [165], OHEM [166], RetinaNet [23], Refinedet [55].

图 11: 使用基于标准贪婪选择的非最大抑制时可能失败的示例:(a) 最高评分框可能不是最合适的,(b) 它可能抑制附近的对象,以及 (c) 它不抑制误报。图片来自R. Rothe等人, ACCV2014 [156]。
BB 聚合
BB聚合是用于NMS [10,156,103,157]的另一组技术,其思想是将多个重叠的边界框组合或聚类到一个最终检测中。这种类型的方法的优点是它充分考虑了对象关系及其空间布局。有一些众所周知的探测器使用这种方法,例如VJ探测器[10]和Overfeat[103]。
学习 NMS
最近受到广泛关注的一组NMS改进正在学习NMS [154,155,136,146]。这些方法组的主要思想是将NMS视为过滤器,以重新对所有原始检测进行评分,并以端到端的方式将NMS训练为网络的一部分。与传统的手工制作的NMS方法相比,这些方法在改善遮挡和密集物体检测方面取得了有希望的结果。
对象检测器的训练本质上是一个不平衡的数据学习问题。在基于滑动窗口的探测器的情况下,背景和物体之间的不平衡可能非常极端104∼105每个对象的背景窗口。现代检测数据集需要预测对象长宽比,进一步将不平衡比提高到106∼107 在这种情况下,使用所有背景数据将对训练有害,因为大量简单的负面因素将淹没学习过程。硬负挖掘(HNM)旨在解决训练过程中数据不平衡的问题。HNM在物体检测中的技术演变如图10所示。
对象检测中的 Bootstrap 是指一组训练技术,其中训练从一小部分背景样本开始,然后在训练过程中迭代添加新的未分类背景。在早期,引入自举的目的是减少数百万个背景样本的训练计算[164,29,10]。后来,它成为DPM和HOG检测器[12,13]中解决数据不平衡问题的标准训练技术。
基于深度学习的探测器中的 HNM
在深度学习时代的后期,由于计算能力的提高,自举在2014-2016年期间很快在对象检测中被丢弃[16,17,18,19,20]。为了缓解训练期间的数据不平衡问题,像Faster RCNN和YOLO这样的检测器只是简单地平衡了正负窗口之间的权重。然而,研究人员后来注意到,权重平衡不能完全解决不平衡的数据问题[23]。为此,在2016年之后,自举被重新引入基于深度学习的探测器[21,165,166,167,168]。例如,在SSD [21]和OHEM [166]中,只有极少数样本(具有最大损耗值的样本)的梯度将反向传播。在 RefineDet [55] 中,设计了一个"锚点细化模块"来过滤容易出现的负面因素。另一种改进是设计新的损失函数[23,169,170],通过重塑标准的交叉熵损失,使其更加关注困难的,错误分类的例子[23]。



图 12: 对象检测中的加速技术概述。


减少空间计算冗余的最常用思想是特征图共享计算,即在滑动窗口之前仅计算整个图像的特征图一次。本文中传统探测器的"图像金字塔"可以被认为是"特征金字塔"。例如,为了加速HOG行人探测器,研究人员通常会积累整个输入图像的"HOG地图",如图13所示。然而,这种方法的缺点也很明显,即特征图分辨率(该特征图上滑动窗口的最小步长)将受到像元大小的限制。如果一个小物体位于两个单元格之间,则所有检测窗口都可能忽略它。此问题的一个解决方案是构建一个完整的要素金字塔,这将在第 3.6 节中介绍。

图 13: 如何计算图像的 HOG 映射的图示。
特征图共享计算的思想也已被广泛用于基于卷积的探测器。一些相关作品可以追溯到1990年代[97,96]。近年来,大多数基于CNN的探测器,例如SPPNet [17],Fast-RCNN [18]和Faster-RCNN [19],都应用了类似的想法,这些想法已经实现了数十甚至数百倍的加速度。
为了减少尺度计算冗余,最成功的方法是直接缩放特征而不是图像,这首先应用于VJ检测器[10]。但是,由于模糊效果,这种方法不能直接应用于类似 HOG 的特征。对于这个问题,P. Dollár等人通过广泛的统计分析发现了HOG的相邻尺度与积分通道特征之间的强(对数线性)相关性[171]。这种相关性可用于通过近似相邻比例的要素图来加速要素金字塔[172]的计算。此外,构建"探测器金字塔"是避免尺度计算冗余的另一种方法,即通过简单地在一个特征图上滑动多个探测器而不是重新缩放图像或特征来检测不同尺度的物体[173]。


传统的基于滑动窗口的检测器,例如HOG检测器和DPM,由于其计算复杂性低,更喜欢使用线性分类器而不是非线性分类器。使用非线性分类器(如内核 SVM)进行检测表明精度更高,但同时会带来较高的计算开销。作为一种标准的非参数方法,传统的核方法没有固定的计算复杂度。当我们有一个非常大的训练集时,检测速度会变得非常慢。
在对象检测中,有许多方法可以加速内核化分类器,其中"模型近似"是最常用的[30,174]。由于经典内核 SVM 的决策边界只能由其一小部分训练样本(支持向量)确定,因此推理阶段的计算复杂性将与支持向量的数量成正比:O(Nsv).简集向量 [30] 是一种用于核 SVM 的近似方法,旨在从少量合成向量中获得等效的决策边界。在对象检测中加速内核SVM的另一种方法是将其决策边界近似为分段线性形式,以实现恒定推理时间[174]。内核方法也可以使用稀疏编码方法[175]进行加速。



图 14: CNN卷积层的加速方法概述及其计算复杂性的比较:(a)标准卷积:O(dk2c).(b) 分解卷积滤波器(k×k → (k′×k′)2或1×k,k×1)😮(dk′2c)或O(dkc).(c) 分解卷积通道:O(d′k2c)+O(dk2d′).(d) 群卷积 (#groups=m)😮(dk2c/m).(e) 按深度分可分卷积:O(ck2)+O(dc).


"网络修剪"的研究可以追溯到20世纪80年代。当时,Y. LeCun等人提出了一种称为"最佳脑损伤"的方法,以压缩多层感知器网络的参数[186]。在这种方法中,通过取二阶导数来近似网络的损失函数,以便去除一些不重要的权重。遵循这一思路,近年来的网络修剪方法通常采用迭代训练和修剪过程,即在每个训练阶段后只去掉一小群不重要的权重,并重复这些操作[187]。由于传统的网络修剪只是简单地删除了不重要的权重,这可能会导致卷积滤波器中出现一些稀疏的连接模式,因此无法直接应用于压缩 CNN 模型。这个问题的一个简单解决方案是移除整个过滤器而不是独立权重[188,189]。


分解卷积是构建轻量级 CNN 模型的最简单、最直接的方法。分解方法有两组。
第一组方法是将一个大卷积滤波器分解成一组空间维度的小滤波器[198,147,47],如图14(b)所示。例如,可以将 7x7 滤波器分解为三个 3x3 滤波器,其中它们共享相同的接受域,但后者更有效。另一个例子是分解k×k过滤成k×1过滤器和1×k过滤器 [198, 199],对于非常大的过滤器,例如 15x15 [199],可能更有效。这个想法最近被用于对象检测[200]。
第二组方法是将一大组卷积分解为两个通道维[201,202]中的小组,如图14(c)所示。例如,可以近似于卷积层d过滤器和的特征图c渠道由d′滤波器 + 一个非线性激活 + 另一个d过滤器 (d′<d).在这种情况下,复杂性O(dk2c)的原始图层可以减少到O(d′k2c)+O(dd′).
假设我们有一个卷积层d过滤器和的特征图c渠道。每个过滤器的大小为k×k.对于深度可分离卷积,每个k×k×c过滤器首先拆分为c每个切片的大小k×k×1,然后使用滤波器的每个切片在每个通道中单独执行卷积。最后,使用许多 1x1 筛选器进行维度转换,以便最终输出应具有d渠道。通过使用深度可分离卷积,计算复杂性可以降低O(dk2c)自O(ck2)+O(dc).这个想法最近被应用于物体检测和细粒度分类[205,206,207]。

图 15: 如何计算"积分 HOG 图"的插图 [177]。通过积分图像技术,我们可以有效地计算任何位置和任何大小的直方图特征,并具有恒定的计算复杂性。



除上述示例外,积分图像还可用于加速物体检测中更一般的特征,例如颜色直方图,梯度直方图[220,177,221,171]等。一个典型的例子是通过计算积分HOG图[220,177]来加速HOG。积分 HOG 映射不是在传统的积分图像中累积像素值,而是在图像中累积梯度方向,如图 15 所示。由于像元的直方图可以看作是某个区域中梯度矢量的总和,因此通过使用积分图像,可以在具有恒定计算开销的任意位置和大小的矩形区域中计算直方图。积分HOG地图已用于行人检测,并在不损失任何精度的情况下实现了数十倍的加速度[177]。
2009年晚些时候,P. Dollár等人提出了一种称为积分通道特征(ICF)的新型图像特征,可以将其视为积分图像特征的更一般情况,并已成功用于行人检测[171]。ICF在其时间的近乎实时的检测速度下实现了最先进的检测精度。

哪里F是傅里叶变换,F−1是逆傅里叶变换,我和W是输入图像和过滤器,∗是卷积运算,并且⊙是按点划分的产品。可以使用快速傅里叶变换 (FFT) 和逆快速傅里叶变换 (IFFT) 来加速上述计算。FFT和IFFT现在经常用于加速CNN模型[222,223,224,225]和一些经典的线性物体探测器[226],这已经将检测速度提高了一个数量级。图16显示了在频域中加速线性物体检测器(例如,HOG和DPM)的标准管道。

图 16: 如何利用快速傅里叶变换和逆快速傅里叶变换在频域中加速线性检测器(例如,HOG检测器、DPM 等)的图示[226]。
矢量量化(VQ)是信号处理中的一种经典量化方法,旨在通过一小组原型矢量近似于一大组数据的分布。它可用于数据压缩和加速对象检测[227,228]中的内积操作。例如,使用 VQ,可以将 HOG 直方图分组并量化为一组原型直方图向量。然后在检测阶段,特征向量和检测权重之间的内部生成可以通过表查找操作来实现。由于在此过程中没有浮点乘法和除法,DPM和示例SVM检测器的速度可以加速超过一个数量级[227]。

哪里U是u×t矩阵包括第一个t的左单数向量W,Σt是t×t包含顶部的对角矩阵t的单数值W和V是v×t矩阵包括第一个t的右奇异向量W.上述过程(也称为截断 SVD)减少了以下位置的参数计数uv自t(u+v),这在以下情况下可能很重要:t远小于 min(u,v).截断的SVD已被用于加速快速RCNN检测器[18]并实现x2加速。




近年来,Deep CNN在许多计算机视觉任务中发挥了核心作用。由于探测器的精度在很大程度上取决于其特征提取网络,在本文中,我们将骨干网络(例如ResNet和VGG)称为探测器的"引擎"。图17显示了三种众所周知的检测系统的检测精度:更快的RCNN [19],R-FCN [46]和SSD [21],具有不同的引擎选择[27]。

图 17: 比较了三种探测器的检测精度:更快的RCNN [19],R-FCN [46]和SSD [21]在具有不同检测引擎的MS-COCO数据集上。图片来自J. Huang等人, CVPR2017 [27]。
AlexNet:AlexNet [40]是一个八层深度网络,是第一个在计算机视觉领域掀起深度学习革命的CNN模型。AlexNet在2012年ImageNet LSVRC-2012竞赛中以很大的优势获胜[15.3%对26.2%(第二名)错误率]。截至2019年2月,Alexnet论文已被引用超过30,000次。
GoogLeNet:GoogLeNet,又名Inception [231, 232, 198, 233],是Google Inc.自2014年以来提出的CNN模型大家族。GoogLeNet增加了CNN的宽度和深度(最多22层)。Inception 系列的主要贡献是引入了因式分解卷积和批处理规范化。
ResNet: The Deep Residual Networks (ResNet) [234],由K提出。他在2015年等人是一种新型的卷积网络架构,比以前使用的架构更深(最多152层)。ResNet旨在通过将网络的层重新表述为参考层输入的学习残差函数来简化网络的训练。ResNet 在 2015 年赢得了多项计算机视觉竞赛,包括 ImageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割。
DenseNet:DenseNet [235]由G. Huang和Z. Liu等人于2017年提出。ResNet的成功表明,CNN中的捷径连接使我们能够训练更深入,更准确的模型。作者接受了这一观察结果,并引入了一个密集连接的块,该块以前馈方式将每一层连接到每隔一层。
SENet:Squeeze and Excitation Networks(SENet)由J. Hu和L. Shen等人于2018年提出[236]。它的主要贡献是集成了全局池和洗牌,以学习功能映射的渠道重要性。SENet在ILSVRC 2017分类竞赛中获得第一名。
近三年来,许多最新的引擎已被应用于物体检测。例如,一些最新的对象检测模型,如STDN [237],DSOD [238],TinyDSOD [207]和Pelee [209]选择DenseNet [235]作为其检测引擎。Mask RCNN [4]作为实例分割的最新模型,应用了下一代ResNet:ResNeXt [239]作为其检测引擎。此外,为了加快检测速度,由Incepion的改进版本Xception [204]引入的深度可分离卷积操作也被用于MobileNet [205]和LightHead RCNN [47]等探测器。



图 18: 不同特征融合方法的例证:(a)自下而上的融合,(b)自上而下的融合,(c)元素总和,(d)元素乘积,以及(e)串联。
特征融合在过去三年中已广泛应用于物体检测。由于 CNN 模型由一系列卷积层和池化层组成,因此更深层中的要素将具有更强的不变性,但等方差较小。虽然这可能有利于类别识别,但它在对象检测中的定位精度较低。相反,较浅层中的特征不利于学习语义,但它有助于对象定位,因为它包含有关边缘和轮廓的更多信息。因此,在 CNN 模型中集成深层和浅层特征有助于提高不变性和等方差。
元素总和是执行特征融合的最简单方法。它经常用于许多最近的物体探测器[22,243,241,246,55]。元素乘积 [249, 245, 250, 251] 与元素总和非常相似,而唯一的区别是使用乘法而不是求和。元素乘积的一个优点是,它可以用来抑制或突出某个区域内的特征,这可能进一步有利于小物体检测[245,250,251]。特征串联是另一种特征融合方式 [240, 244, 212, 237]。它的优点是它可以用来整合不同区域的上下文信息[105,161,149,144],而它的缺点是增加了内存[235]。
同时增加感受场和特征分辨率的海盗方法是引入膨胀卷积(又名atrous卷积,或带孔的卷积)。膨胀卷积最初是在语义分割任务[252,253]中提出的。它的主要思想是扩展卷积滤波器并使用稀疏参数。例如,膨胀率为 2 的 3x3 滤波器将具有与 5x5 核相同的接受域,但只有 9 个参数。膨胀卷积现已广泛用于物体检测[21,254,255,56],并且被证明可以有效地提高精度,而无需任何额外的参数和计算成本[56]。


子区域搜索[256, 257, 258, 184]提供了一种新的检测方法。最近的一种方法是将检测视为一个路径规划过程,该过程从初始网格开始,最终收敛到所需的地面实况框[256]。另一种方法是将检测视为迭代更新过程,以优化预测边界框的角[257]。


在大多数现代探测器中,物体定位被认为是坐标回归问题。但是,这种范式有两个缺点。首先,回归损失函数与定位的最终评估不对应。例如,我们无法保证较低的回归误差将始终产生较高的 IoU 预测,尤其是当对象具有非常大的纵横比时。其次,传统的边界框回归方法不提供本地化的置信度。当有多个BB相互重叠时,这可能导致非最大抑制失败(请参阅2.3.5小节中的更多详细信息)。




改进旋转不变检测的另一种方法是对候选对象进行几何变换[277,278,279]。这对于多级检测器特别有用,其中早期阶段的相关性将有利于后续检测。这个想法的代表是空间变压器网络(STN)[278]。STN 现已用于旋转文本检测 [278] 和旋转人脸检测 [279]。
轮换 RoI 池化

图 19: 多尺度物体检测的不同训练策略:(a):在单个分辨率图像上进行训练,向后传播所有尺度的物体[17,18,19,21]。(b) 多分辨率图像(图像金字塔)的培训,向后传播选定比例的物体。如果对象太大或太小,其渐变将被丢弃 [280, 281, 56]。


大多数基于深度学习的探测器首先在大规模数据集(例如ImageNet)上进行预训练,然后在特定的检测任务上进行微调。人们一直认为,预训练有助于提高泛化能力和训练速度,问题是,我们真的需要在ImageNet上对检测器进行预训练吗?事实上,在对象检测中采用预先训练的网络时存在一些限制。第一个限制是 ImageNet 分类和对象检测之间的差异,包括它们的损失函数和比例/类别分布。第二个限制是域不匹配。由于ImageNet中的图像是RGB图像,而检测有时会应用于深度图像(RGB-D)或3D医学图像,因此预先训练的知识无法很好地转移到这些检测任务中。


由A. Goodfellow等人于2014年推出的生成对抗网络(GAN)[286]近年来受到极大关注。典型的GAN由两个神经网络组成:生成器网络和鉴别器网络,在最小最大优化框架中相互竞争。通常,生成器学习从潜在空间映射到感兴趣的特定数据分布,而鉴别器旨在区分来自真实数据分布的实例和生成器生成的实例。GAN已被广泛用于许多计算机视觉任务,如图像生成[286,287],图像样式传输[288]和图像超分辨率[289]。近两年来,GAN也已应用于物体检测,特别是用于提高对小物体和遮挡物体的检测。


现代物体检测器的训练通常需要大量的手动标记数据,而标记过程耗时,昂贵且效率低下。弱监督对象检测 (WSOD) 旨在通过训练仅使用图像级注释而不是边界框的探测器来解决此问题。
最近,多实例学习已用于 WSOD [294, 295]。多实例学习是一组监督学习方法[296,39]。多实例学习模型不是使用一组单独标记的实例进行学习,而是接收一组标记的袋子,每个袋子包含许多实例。如果我们将一个图像中的对象候选对象视为一个包,并将图像级注释视为标签,那么WSOD可以制定为多实例学习过程。
类激活映射是 WSOD 的另一组最新方法 [297, 298]。对CNN可视化的研究表明,尽管对物体的位置没有监督,但CNN的卷积层仍充当物体探测器。类激活映射阐明了如何使CNN具有定位能力,尽管在图像级标签上进行了训练[299]。
除了上述方法之外,其他一些研究人员还通过选择信息最丰富的区域,然后用图像级注释训练这些区域,将WSOD视为提案排名过程[300]。WSOD的另一种简单方法是遮罩图像的不同部分。如果检测分数急剧下降,那么物体将被高概率覆盖[301]。此外,交互式注释[295]在训练过程中会考虑人类反馈,以改进WSOD。最近,生成对抗训练已被用于WSOD [302]。




行人检测作为重要的物体检测应用,在自动驾驶、视频监控、刑事侦查等诸多领域受到广泛关注。一些早期的行人检测方法,如HOG检测器[12],ICF检测器[171],在特征表示[171,12],分类器[174]的设计以及检测加速度[177]方面为一般物体检测奠定了坚实的基础。. 近年来,一些通用的物体检测算法,如Faster RCNN[19],已被引入行人检测[165],并极大地推动了这一领域的进步。

图 20: 加州理工学院数据集[59,60]中行人检测的一些硬例子:(a)小行人,(b)硬负片,以及(c)密集和被遮挡的行人。
由于计算资源的限制,Haar小波特征已被广泛用于早期的行人检测[30,31,308]。为了改善对被遮挡的行人的检测,当时的一个流行思想是"组件检测"[31,102,220],即将检测视为多个零件探测器的集合,这些探测器在不同的人体部位(例如头部,腿部和手臂)上进行单独训练。随着计算能力的提高,人们开始设计更复杂的检测模型,并且从2005年开始,基于梯度的表示[12,177,309,220,37]和DPM[15,37,54] 已成为行人检测的主流。2009年,通过使用积分图像加速,提出了一种有效且轻量级的特征表示:积分通道特征(ICF)[171]。ICF随后成为当时行人检测的新基准[60]。除了特征表示之外,还考虑了一些领域知识,例如外观恒定性和形状对称性[310]和立体信息[173,311]。
为了改善小型行人检测:尽管深度学习对象检测器(如Fast/Faster R-CNN)在一般物体检测方面已经显示出最先进的性能,但由于卷积特征的分辨率较低,它们在检测小型行人方面的成功有限[165]。这个问题的一些最新解决方案包括特征融合[165],引入超高分辨率手工制作特征[313,314],以及在多种分辨率上结合检测结果[315]。



图 21: 人脸检测方面的挑战:(a)类内变异,来自WildestFaces数据集的图像[70]。(b)面部遮挡,来自UFDD数据集的图像[69]。(c) 多尺度人脸检测。图片来自P. Hu et al. CVPR2017 [322]。
早期的人脸检测算法可以分为三组:1)基于规则的方法。这组方法编码人类对典型面部构成的知识,并捕获面部元素之间的关系[107,108]。2)基于子空间分析的方法。这组方法分析了底层线性子空间中的人脸分布[95,106]。特征面是这组方法的代表[95]。3)基于学习的方法:将人脸检测框定为滑动窗口+二元分类(目标与背景)过程。该组的一些常用模型包括神经网络[96,164,325]和SVM [29,326]。


不同的字体和语言:文本可能具有不同的字体、颜色和语言,如图 22 (a) 所示。
文本旋转和透视失真:文本可能具有不同的方向,甚至可能具有透视失真,如图 22 (b) 所示。
密集排列的文本本地化:具有大纵横比和密集布局的文本行难以准确定位,如图 22 (c) 所示。

图 22: 文本检测和识别方面的挑战:(a) 字体、颜色和语言的变化。图片来自maxpixel(无版权)。(b) 文本旋转和透视失真。图片来自Y. Liu等人。CVPR2017 [336].(c) 密集排列的文本本地化。图片来自Y. Wu et al. ICCV2017 [337]。
文本检测由两个相关但相对独立的任务组成:1) 文本本地化和 2) 文本识别。现有的文本检测方法可以分为两组:“逐步检测"和"集成检测”。我们向读者推荐以下调查以获取更多详细信息[338,339]。
对于文本旋转和透视更改:此问题的最常见解决方案是在锚点框和 RoI 池层中引入与旋转和透视更改 [351, 352, 356, 357, 353, 355] 相关的其他参数。



图 23: 交通标志检测和交通信号灯检测方面的挑战:(a)照明变化。图片来自pxhere(不受版权保护)。(b) 运动模糊。图片来自GTSRB数据集[81]。(c) 恶劣天气下的探测。图片来自Flickr和Max Pixel(无版权)。
在深度学习时代,一些著名的探测器,如Faster RCNN和SSD被应用于交通标志/灯光检测任务[83,84,378,379]。在这些探测器的基础上,一些新技术,如注意力机制和对抗训练,已被用于改善复杂交通环境下的检测[378,290]。



图 24: 遥感目标检测的挑战:(a)“大数据"中的检测:单视点遥感图像与VOC、ImageNet和MS-COCO的平均图像尺寸之间的数据量比较。(b) 被云遮挡的目标。图片来自S. Qiu et al. JSTARS2017 [380] 和 Z. Zou et al. TGRS2016 [381]。
传统的遥感目标检测方法大多遵循两阶段检测模式:1)候选提取和2)目标验证。在候选提取阶段,一些常用的方法包括基于灰度值过滤的方法[383,384],基于视觉显著性的方法[385,386,387,388],基于小波变换的方法[389],基于异常检测的方法[390]等。上述方法的一个相似之处是它们都是无监督方法,因此通常在复杂环境中失败。在目标验证阶段,一些常用的功能包括HOG [391, 390]、LBP [384]、SIFT [386, 388, 392]等。此外,还有一些其他方法遵循滑动窗口检测范式[391,392,393,394]。
在2014年RCNN取得巨大成功后,深度CNN很快被应用于遥感目标检测[275,276,400,401]。像Faster RCNN和SSD这样的通用对象检测框架在遥感社区引起了越来越多的关注[381,402,167,403,404,405,91]。


检测与域适应相结合:任何目标检测器的训练过程基本上都可以被视为在独立且相同分布(i.i.d.)数据的假设下的可能性估计过程。使用非 i.i.d. 进行物体检测数据,特别是对于一些现实世界的应用程序,仍然是一个挑战。GAN在领域适应方面显示出有希望的结果,并可能对未来的物体检测有很大帮助。


[214] B. Zoph and Q. V. Le, “Neural architecture search with reinforcement learning,” arXiv preprint arXiv:1611.01578, 2016.
[215] Y. Chen, T. Yang, X. Zhang, G. Meng, C. Pan, and J. Sun, “Detnas: Neural architecture search on object detection,” arXiv preprint arXiv:1903.10979, 2019.
[216] C. Liu, L.-C. Chen, F. Schroff, H. Adam, W. Hua, A. Yuille, and L. Fei-Fei, “Auto-deeplab: Hierarchical neural architecture search for semantic image segmentation,” arXiv preprint arXiv:1901.02985, 2019.
[217] X. Chu, B. Zhang, R. Xu, and H. Ma, “Multi-objective reinforced evolution in mobile neural architecture search,” arXiv preprint arXiv:1901.01074, 2019.
[218] C.-H. Hsu, S.-H. Chang, D.-C. Juan, J.-Y. Pan, Y.-T. Chen, W. Wei, and S.-C. Chang, “Monas: Multi-objective neural architecture search using reinforcement learning,” arXiv preprint arXiv:1806.10332, 2018.
[219] P. Simard, L. Bottou, P. Haffner, and Y. LeCun, “Boxlets: a fast convolution algorithm for signal processing and neural networks,” in Advances in Neural Information Processing Systems, 1999, pp. 571–577.
[220] X. Wang, T. X. Han, and S. Yan, “An hog-lbp human detector with partial occlusion handling,” in Computer Vision, 2009 IEEE 12th International Conference on. IEEE, 2009, pp. 32–39.
[221] F. Porikli, “Integral histogram: A fast way to extract histograms in cartesian spaces,” in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, vol. 1. IEEE, 2005, pp. 829–836.
[222] M. Mathieu, M. Henaff, and Y. LeCun, “Fast training of convolutional networks through ffts,” arXiv preprint arXiv:1312.5851, 2013.
[223] H. Pratt, B. Williams, F. Coenen, and Y. Zheng, “Fcnn: Fourier convolutional neural networks,” in Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer, 2017, pp. 786–798.
[224] N. Vasilache, J. Johnson, M. Mathieu, S. Chintala, S. Piantino, and Y. LeCun, “Fast convolutional nets with fbfft: A gpu performance evaluation,” arXiv preprint arXiv:1412.7580, 2014.
[225] O. Rippel, J. Snoek, and R. P. Adams, “Spectral representations for convolutional neural networks,” in Advances in neural information processing systems, 2015, pp. 2449–2457.
[226] C. Dubout and F. Fleuret, “Exact acceleration of linear object detectors,” in European Conference on Computer Vision. Springer, 2012, pp. 301–311.
[227] M. A. Sadeghi and D. Forsyth, “Fast template evaluation with vector quantization,” in Advances in neural information processing systems, 2013, pp. 2949–2957.
[228] I. Kokkinos, “Bounding part scores for rapid detection with deformable part models,” in European Conference on Computer Vision. Springer, 2012, pp. 41–50.
[229] J. Gu, Z. Wang, J. Kuen, L. Ma, A. Shahroudy, B. Shuai, T. Liu, X. Wang, L. Wang, G. Wang et al., “Recent advances in convolutional neural networks,” arXiv preprint arXiv:1512.07108, 2015.
[230] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv preprint arXiv:1409.1556, 2014.
[231] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 1–9.
[232] S. Ioffe and C. Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” arXiv preprint arXiv:1502.03167, 2015.
[233] C. Szegedy, S. Ioffe, V. Vanhoucke, and A. A. Alemi, “Inception-v4, inception-resnet and the impact of residual connections on learning.” in AAAI, vol. 4, 2017, p. 12.
[234] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778.
[235] G. Huang, Z. Liu, L. Van Der Maaten, and 35 ject detection,” arXiv preprint arXiv:1612.06851, 2016.
[236] J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitation networks,” arXiv preprint arXiv:1709.01507, vol. 7, 2017.
[237] P. Zhou, B. Ni, C. Geng, J. Hu, and Y. Xu, “Scaletransferrable object detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 528–537.
[238] Z. Shen, Z. Liu, J. Li, Y.-G. Jiang, Y. Chen, and X. Xue, “Dsod: Learning deeply supervised object detectors from scratch,” in The IEEE International Conference on Computer Vision (ICCV), vol. 3, no. 6, 2017, p. 7.
[239] S. Xie, R. Girshick, P. Dollar, Z. Tu, and K. He, ´ “Aggregated residual transformations for deep neural networks,” in Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on. IEEE, 2017, pp. 5987– 5995.
[240] J. Jeong, H. Park, and N. Kwak, “Enhancement of ssd by concatenating feature maps for object detection,” arXiv preprint arXiv:1705.09587, 2017.
[241] K. Lee, J. Choi, J. Jeong, and N. Kwak, “Residual features and unified prediction network for single stage detection,” arXiv preprint arXiv:1707.05031, 2017.
[242] G. Cao, X. Xie, W. Yang, Q. Liao, G. Shi, and J. Wu, “Feature-fused ssd: fast detection for small objects,” in Ninth International Conference on Graphic and Image Processing (ICGIP 2017), vol. 10615. International Society for Optics and Photonics, 2018, p. 106151E.
[243] L. Zheng, C. Fu, and Y. Zhao, “Extend the shallow part of single shot multibox detector via convolutional neural network,” arXiv preprint arXiv:1801.05918, 2018.
[244] A. Shrivastava, R. Sukthankar, J. Malik, and A. Gupta, “Beyond skip connections: Top-down modulation for ob- 35 ject detection,” arXiv preprint arXiv:1612.06851, 2016.
[245] T. Kong, F. Sun, A. Yao, H. Liu, M. Lu, and Y. Chen, “Ron: Reverse connection with objectness prior networks for object detection,” in IEEE Conference on Computer Vision and Pattern Recognition, vol. 1, 2017, p. 2.
[246] S. Woo, S. Hwang, and I. S. Kweon, “Stairnet: Top-down semantic aggregation for accurate one shot detection,” in 2018 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2018, pp. 1093–1102.
[247] Y. Chen, J. Li, B. Zhou, J. Feng, and S. Yan, “Weaving multi-scale context for single shot detector,” arXiv preprint arXiv:1712.03149, 2017.
[248] M. D. Zeiler, G. W. Taylor, and R. Fergus, “Adaptive deconvolutional networks for mid and high level feature learning,” in Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011, pp. 2018–2025.
[249] C.-Y. Fu, W. Liu, A. Ranga, A. Tyagi, and A. C. Berg, “Dssd: Deconvolutional single shot detector,” arXiv preprint arXiv:1701.06659, 2017.
[250] J. Wang, Y. Yuan, and G. Yu, “Face attention network: An effective face detector for the occluded faces,” arXiv preprint arXiv:1711.07246, 2017.
[251] P. He, W. Huang, T. He, Q. Zhu, Y. Qiao, and X. Li, “Single shot text detector with regional attention,” in The IEEE International Conference on Computer Vision (ICCV), vol. 6, no. 7, 2017.
[252] F. Yu and V. Koltun, “Multi-scale context aggregation by dilated convolutions,” arXiv preprint arXiv:1511.07122, 2015.
[253] F. Yu, V. Koltun, and T. A. Funkhouser, “Dilated residual networks.” in CVPR, vol. 2, 2017, p. 3.
[254] Z. Li, C. Peng, G. Yu, X. Zhang, Y. Deng, and J. Sun, “Detnet: A backbone network for object detection,” arXiv preprint arXiv:1804.06215, 2018.
[255] S. Liu, D. Huang, and Y. Wang, “Receptive field block net for accurate and fast object detection,” arXiv preprint arXiv:1711.07767, 2017.
[256] M. Najibi, M. Rastegari, and L. S. Davis, “G-cnn: an iterative grid based object detector,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 2369–2377.
[257] D. Yoo, S. Park, J.-Y. Lee, A. S. Paek, and I. So Kweon, “Attentionnet: Aggregating weak directions for accurate object detection,” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 2659–2667.
[258] Y. Lu, T. Javidi, and S. Lazebnik, “Adaptive object detection using adjacency and zoom prediction,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 2351–2359.
[259] R. Ranjan, V. M. Patel, and R. Chellappa, “Hyperface: A deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 41, no. 1, pp. 121–135, 2019.
[260] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh, “Realtime multi-person 2d pose estimation using part affinity fields,” arXiv preprint arXiv:1611.08050, 2016.
[261] H. Law and J. Deng, “Cornernet: Detecting objects as paired keypoints,” in Proceedings of the European Conference on Computer Vision (ECCV), vol. 6, 2018.
[262] Z. Cai and N. Vasconcelos, “Cascade r-cnn: Delving into high quality object detection,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. 1, no. 2, 2018, p. 10.
[263] R. N. Rajaram, E. Ohn-Bar, and M. M. Trivedi, “Refinenet: Iterative refinement for accurate object localization,” in Intelligent Transportation Systems (ITSC), 2016 IEEE 19th International Conference on. IEEE, 2016, pp. 1528–1533.
[264] M.-C. Roh and J.-y. Lee, “Refining faster-rcnn for accurate object detection,” in Machine Vision Applications (MVA), 2017 Fifteenth IAPR International Conference on. IEEE, 2017, pp. 514–517.
[265] J. Yu, Y. Jiang, Z. Wang, Z. Cao, and T. Huang, “Unitbox: An advanced object detection network,” in Proceedings of the 2016 ACM on Multimedia Conference. ACM, 2016, pp. 516–520.
[266] S. Gidaris and N. Komodakis, “Locnet: Improving localization accuracy for object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 789–798.
[267] B. A. Olshausen and D. J. Field, “Emergence of simplecell receptive field properties by learning a sparse code for natural images,” Nature, vol. 381, no. 6583, p. 607, 1996.
[268] A. J. Bell and T. J. Sejnowski, “The independent components of natural scenes are edge filters,” Vision research, vol. 37, no. 23, pp. 3327–3338, 1997.
[269] S. Brahmbhatt, H. I. Christensen, and J. Hays, “Stuffnet: Using stuffto improve object detection,” in Applications of Computer Vision (WACV), 2017 IEEE Winter Conference on. IEEE, 2017, pp. 934–943.
[270] A. Shrivastava and A. Gupta, “Contextual priming and feedback for faster r-cnn,” in European Conference on Computer Vision. Springer, 2016, pp. 330–348.
[271] Z. Zhang, S. Qiao, C. Xie, W. Shen, B. Wang, and A. L. Yuille, “Single-shot object detection with enriched semantics,” Center for Brains, Minds and Machines (CBMM), Tech. Rep., 2018.
[272] B. Cai, Z. Jiang, H. Zhang, Y. Yao, and S. Nie, “Online exemplar-based fully convolutional network for aircraft detection in remote sensing images,” IEEE Geoscience and Remote Sensing Letters, no. 99, pp. 1–5, 2018.
[273] G. Cheng, J. Han, P. Zhou, and L. Guo, “Multi-class geospatial object detection and geographic image classification based on collection of part detectors,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 98, pp. 119–132, 2014.
[274] P. Y. Simard, Y. A. LeCun, J. S. Denker, and B. Victorri, “Transformation invariance in pattern recognitiontangent distance and tangent propagation,” in Neural networks: tricks of the trade. Springer, 1998, pp. 239–274.
[275] G. Cheng, P. Zhou, and J. Han, “Rifd-cnn: Rotationinvariant and fisher discriminative convolutional neural networks for object detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 2884–2893.
[276] “Learning rotation-invariant convolutional neural networks for object detection in vhr optical remote sensing images,” IEEE Transactions on Geoscience and Remote Sensing, vol. 54, no. 12, pp. 7405–7415, 2016.
[277] X. Shi, S. Shan, M. Kan, S. Wu, and X. Chen, “Real-time rotation-invariant face detection with progressive calibration networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 2295– 2303.
[278] M. Jaderberg, K. Simonyan, A. Zisserman et al., “Spatial transformer networks,” in Advances in neural information processing systems, 2015, pp. 2017–2025.
[279] D. Chen, G. Hua, F. Wen, and J. Sun, “Supervised transformer network for efficient face detection,” in European Conference on Computer Vision. Springer, 2016, pp. 122– 138.
[280] B. Singh and L. S. Davis, “An analysis of scale invariance in object detection–snip,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 3578–3587.
[281] B. Singh, M. Najibi, and L. S. Davis, “Sniper: Efficient multi-scale training,” arXiv preprint arXiv:1805.09300, 2018.
[282] S. Qiao, W. Shen, W. Qiu, C. Liu, and A. L. Yuille, 36 “Scalenet: Guiding object proposal generation in supermarkets and beyond.” in ICCV, 2017, pp. 1809–1818.
[283] Z. Hao, Y. Liu, H. Qin, J. Yan, X. Li, and X. Hu, “Scaleaware face detection,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. 3, 2017.
[284] R. Zhu, S. Zhang, X. Wang, L. Wen, H. Shi, L. Bo, and T. Mei, “Scratchdet: Exploring to train single-shot object detectors from scratch,” arXiv preprint arXiv:1810.08425, 2018.
[285] K. He, R. Girshick, and P. Dollar, “Rethinking imagenet ´ pre-training,” arXiv preprint arXiv:1811.08883, 2018.
[286] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in Advances in neural information processing systems, 2014, pp. 2672–2680.
[287] A. Radford, L. Metz, and S. Chintala, “Unsupervised representation learning with deep convolutional generative adversarial networks,” arXiv preprint arXiv:1511.06434, 2015.
[288] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros, “Unpaired image-to-image translation using cycle-consistent adversarial networks,” arXiv preprint, 2017.
[289] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. Cunning- ´ ham, A. Acosta, A. P. Aitken, A. Tejani, J. Totz, Z. Wang et al., “Photo-realistic single image super-resolution using a generative adversarial network.” in CVPR, vol. 2, no. 3, 2017, p. 4.
[290] J. Li, X. Liang, Y. Wei, T. Xu, J. Feng, and S. Yan, “Perceptual generative adversarial networks for small object detection,” in IEEE CVPR, 2017.
[291] Y. Bai, Y. Zhang, M. Ding, and B. Ghanem, “Sod-mtgan: Small object detection via multi-task generative adversarial network,” Computer Vision-ECCV, pp. 8–14, 2018.
[292] X. Wang, A. Shrivastava, and A. Gupta, “A-fast-rcnn: Hard positive generation via adversary for object detection,” in IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[293] S.-T. Chen, C. Cornelius, J. Martin, and D. H. Chau, “Robust physical adversarial attack on faster r-cnn object detector,” arXiv preprint arXiv:1804.05810, 2018.
[294] R. G. Cinbis, J. Verbeek, and C. Schmid, “Weakly supervised object localization with multi-fold multiple instance learning,” IEEE transactions on pattern analysis and machine intelligence, vol. 39, no. 1, pp. 189–203, 2017.
[295] D. P. Papadopoulos, J. R. Uijlings, F. Keller, and V. Ferrari, “We don’t need no bounding-boxes: Training object class detectors using only human verification,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 854–863.
[296] T. G. Dietterich, R. H. Lathrop, and T. Lozano-Perez, ´ “Solving the multiple instance problem with axis-parallel rectangles,” Artificial intelligence, vol. 89, no. 1-2, pp. 31– 71, 1997.
[297] Y. Zhu, Y. Zhou, Q. Ye, Q. Qiu, and J. Jiao, “Soft proposal networks for weakly supervised object localization,” in Proc. IEEE Int. Conf. Comput. Vis.(ICCV), 2017, pp. 1841– 1850.
[298] A. Diba, V. Sharma, A. M. Pazandeh, H. Pirsiavash, and L. Van Gool, “Weakly supervised cascaded convolutional networks.” in CVPR, vol. 1, no. 2, 2017, p. 8.
[299] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba, “Learning deep features for discriminative localization,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 2921–2929.
[300] H. Bilen and A. Vedaldi, “Weakly supervised deep detection networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 2846– 2854.
[301] L. Bazzani, A. Bergamo, D. Anguelov, and L. Torresani, “Self-taught object localization with deep networks,” in Applications of Computer Vision (WACV), 2016 IEEE Winter Conference on. IEEE, 2016, pp. 1–9.
[302] Y. Shen, R. Ji, S. Zhang, W. Zuo, and Y. Wang, “Generative adversarial learning towards fast weakly supervised detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 5764–5773.
[303] M. Enzweiler and D. M. Gavrila, “Monocular pedestrian detection: Survey and experiments,” IEEE Transactions on Pattern Analysis & Machine Intelligence, no. 12, pp. 2179– 2195, 2008.
[304] D. Geronimo, A. M. Lopez, A. D. Sappa, and T. Graf, “Survey of pedestrian detection for advanced driver assistance systems,” IEEE transactions on pattern analysis and machine intelligence, vol. 32, no. 7, pp. 1239–1258, 2010.
[305] R. Benenson, M. Omran, J. Hosang, and B. Schiele, “Ten years of pedestrian detection, what have we learned?” in European Conference on Computer Vision. Springer, 2014, pp. 613–627.
[306] S. Zhang, R. Benenson, M. Omran, J. Hosang, and B. Schiele, “How far are we from solving pedestrian detection?” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 1259–1267.
[307] “Towards reaching human performance in pedestrian detection,” IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 4, pp. 973–986, 2018.
[308] P. Viola, M. J. Jones, and D. Snow, “Detecting pedestrians using patterns of motion and appearance,” International Journal of Computer Vision, vol. 63, no. 2, pp. 153–161, 2005.
[309] P. Sabzmeydani and G. Mori, “Detecting pedestrians by learning shapelet features,” in Computer Vision and Pattern Recognition, 2007. CVPR’07. IEEE Conference on. IEEE, 2007, pp. 1–8.
[310] J. Cao, Y. Pang, and X. Li, “Pedestrian detection inspired by appearance constancy and shape symmetry,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 1316–1324.
[311] R. Benenson, R. Timofte, and L. Van Gool, “Stixels estimation without depth map computation,” in Computer Vision Workshops (ICCV Workshops), 2011 IEEE International Conference on. IEEE, 2011, pp. 2010–2017.
[312] J. Hosang, M. Omran, R. Benenson, and B. Schiele, “Taking a deeper look at pedestrians,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 4073–4082.
[313] J. Cao, Y. Pang, and X. Li, “Learning multilayer channel features for pedestrian detection,” IEEE transactions on image processing, vol. 26, no. 7, pp. 3210–3220, 2017.
[314] J. Mao, T. Xiao, Y. Jiang, and Z. Cao, “What can help pedestrian detection?” in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017, pp. 6034–6043.
[315] Q. Hu, P. Wang, C. Shen, A. van den Hengel, and F. Porikli, “Pushing the limits of deep cnns for pedestrian detection,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 28, no. 6, pp. 1358–1368, 2018.
[316] Y. Tian, P. Luo, X. Wang, and X. Tang, “Pedestrian detection aided by deep learning semantic tasks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 5079–5087.
[317] D. Xu, W. Ouyang, E. Ricci, X. Wang, and N. Sebe, “Learning cross-modal deep representations for robust pedestrian detection,” in Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2017.
[318] X. Wang, T. Xiao, Y. Jiang, S. Shao, J. Sun, and C. Shen, “Repulsion loss: Detecting pedestrians in a crowd,” arXiv preprint arXiv:1711.07752, 2017.
[319] Y. Tian, P. Luo, X. Wang, and X. Tang, “Deep learning strong parts for pedestrian detection,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1904–1912. 37
[320] W. Ouyang, H. Zhou, H. Li, Q. Li, J. Yan, and X. Wang, “Jointly learning deep features, deformable parts, occlusion and classification for pedestrian detection,” IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 8, pp. 1874–1887, 2018.
[321] S. Zhang, J. Yang, and B. Schiele, “Occluded pedestrian detection through guided attention in cnns,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 6995–7003.
[322] P. Hu and D. Ramanan, “Finding tiny faces,” in Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on. IEEE, 2017, pp. 1522–1530.
[323] M.-H. Yang, D. J. Kriegman, and N. Ahuja, “Detecting faces in images: A survey,” IEEE Transactions on pattern analysis and machine intelligence, vol. 24, no. 1, pp. 34–58, 2002.
[324] S. Zafeiriou, C. Zhang, and Z. Zhang, “A survey on face detection in the wild: past, present and future,” Computer Vision and Image Understanding, vol. 138, pp. 1–24, 2015.
[325] H. A. Rowley, S. Baluja, and T. Kanade, “Neural networkbased face detection,” IEEE Transactions on pattern analysis and machine intelligence, vol. 20, no. 1, pp. 23–38, 1998.
[326] E. Osuna, R. Freund, and F. Girosit, “Training support vector machines: an application to face detection,” in Computer vision and pattern recognition, 1997. Proceedings., 1997 IEEE computer society conference on. IEEE, 1997, pp. 130–136.
[327] M. Osadchy, Y. L. Cun, and M. L. Miller, “Synergistic face detection and pose estimation with energy-based models,” Journal of Machine Learning Research, vol. 8, no. May, pp. 1197–1215, 2007.
[328] S. Yang, P. Luo, C. C. Loy, and X. Tang, “Faceness-net: Face detection through deep facial part responses,” IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 8, pp. 1845–1859, 2018.
[329] S. Yang, Y. Xiong, C. C. Loy, and X. Tang, “Face detection through scale-friendly deep convolutional networks,” arXiv preprint arXiv:1706.02863, 2017.
[330] M. Najibi, P. Samangouei, R. Chellappa, and L. S. Davis, “Ssh: Single stage headless face detector.” in ICCV, 2017, pp. 4885–4894.
[331] S. Zhang, X. Zhu, Z. Lei, H. Shi, X. Wang, and S. Z. Li, “Sˆ 3fd: Single shot scale-invariant face detector,” in Computer Vision (ICCV), 2017 IEEE International Conference on. IEEE, 2017, pp. 192–201.
[332] X. Liu, “A camera phone based currency reader for the visually impaired,” in Proceedings of the 10th international ACM SIGACCESS conference on Computers and accessibility. ACM, 2008, pp. 305–306.
[333] N. Ezaki, K. Kiyota, B. T. Minh, M. Bulacu, and L. Schomaker, “Improved text-detection methods for a camera-based text reading system for blind persons,” in Document Analysis and Recognition, 2005. Proceedings. Eighth International Conference on. IEEE, 2005, pp. 257– 261.
[334] P. Sermanet, S. Chintala, and Y. LeCun, “Convolutional neural networks applied to house numbers digit classification,” in Pattern Recognition (ICPR), 2012 21st International Conference on. IEEE, 2012, pp. 3288–3291.
[335] Z. Wojna, A. Gorban, D.-S. Lee, K. Murphy, Q. Yu, Y. Li, and J. Ibarz, “Attention-based extraction of structured information from street view imagery,” arXiv preprint arXiv:1704.03549, 2017.
[336] Y. Liu and L. Jin, “Deep matching prior network: Toward tighter multi-oriented text detection,” in Proc. CVPR, 2017, pp. 3454–3461.
[337] Y. Wu and P. Natarajan, “Self-organized text detection with minimal post-processing via border learning,” in Proc. ICCV, 2017.
[338] Y. Zhu, C. Yao, and X. Bai, “Scene text detection and recognition: Recent advances and future trends,” Frontiers of Computer Science, vol. 10, no. 1, pp. 19–36, 2016.
[339] Q. Ye and D. Doermann, “Text detection and recognition in imagery: A survey,” IEEE transactions on pattern analysis and machine intelligence, vol. 37, no. 7, pp. 1480–1500, 2015.
[340] L. Neumann and J. Matas, “Scene text localization and recognition with oriented stroke detection,” in Proceedings of the IEEE International Conference on Computer Vision, 2013, pp. 97–104.
[341] X.-C. Yin, X. Yin, K. Huang, and H.-W. Hao, “Robust text detection in natural scene images,” IEEE transactions on pattern analysis and machine intelligence, vol. 36, no. 5, pp. 970–983, 2014.
[342] K. Wang, B. Babenko, and S. Belongie, “End-to-end scene text recognition,” in Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011, pp. 1457–1464.
[343] T. Wang, D. J. Wu, A. Coates, and A. Y. Ng, “End-to-end text recognition with convolutional neural networks,” in Pattern Recognition (ICPR), 2012 21st International Conference on. IEEE, 2012, pp. 3304–3308.
[344] S. Tian, Y. Pan, C. Huang, S. Lu, K. Yu, and C. Lim Tan, “Text flow: A unified text detection system in natural scene images,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 4651–4659.
[345] M. Jaderberg, A. Vedaldi, and A. Zisserman, “Deep features for text spotting,” in European conference on computer vision. Springer, 2014, pp. 512–528.
[346] X.-C. Yin, W.-Y. Pei, J. Zhang, and H.-W. Hao, “Multiorientation scene text detection with adaptive clustering,” IEEE Transactions on Pattern Analysis & Machine Intelligence, no. 9, pp. 1930–1937, 2015.
[347] Z. Zhang, W. Shen, C. Yao, and X. Bai, “Symmetry-based text line detection in natural scenes,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 2558–2567.
[348] M. Jaderberg, K. Simonyan, A. Vedaldi, and A. Zisserman, “Reading text in the wild with convolutional neural networks,” International Journal of Computer Vision, vol. 116, no. 1, pp. 1–20, 2016.
[349] W. Huang, Y. Qiao, and X. Tang, “Robust scene text detection with convolution neural network induced mser trees,” in European Conference on Computer Vision. Springer, 2014, pp. 497–511.
[350] T. He, W. Huang, Y. Qiao, and J. Yao, “Text-attentional convolutional neural network for scene text detection,” IEEE transactions on image processing, vol. 25, no. 6, pp. 2529–2541, 2016.
[351] J. Ma, W. Shao, H. Ye, L. Wang, H. Wang, Y. Zheng, and X. Xue, “Arbitrary-oriented scene text detection via rotation proposals,” IEEE Transactions on Multimedia, 2018.
[352] “Arbitrary-oriented scene text detection via rotation proposals,” IEEE Transactions on Multimedia, 2018.
[353] Y. Jiang, X. Zhu, X. Wang, S. Yang, W. Li, H. Wang, P. Fu, and Z. Luo, “R2cnn: rotational region cnn for orientation robust scene text detection,” arXiv preprint arXiv:1706.09579, 2017.
[354] M. Liao, B. Shi, X. Bai, X. Wang, and W. Liu, “Textboxes: A fast text detector with a single deep neural network.” in AAAI, 2017, pp. 4161–4167.
[355] W. He, X.-Y. Zhang, F. Yin, and C.-L. Liu, “Deep direct regression for multi-oriented scene text detection,” arXiv preprint arXiv:1703.08289, 2017.
[356] Y. Liu and L. Jin, “Deep matching prior network: Toward tighter multi-oriented text detection,” in Proc. CVPR, 2017, pp. 3454–3461.
[357] X. Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He, and J. Liang, “East: an efficient and accurate scene text detector,” in Proc. CVPR, 2017, pp. 2642–2651.
[358] C. Yao, X. Bai, N. Sang, X. Zhou, S. Zhou, and Z. Cao, “Scene text detection via holistic, multi-channel predic- 38 tion,” arXiv preprint arXiv:1606.09002, 2016.
[359] C. Xue, S. Lu, and F. Zhan, “Accurate scene text detection through border semantics awareness and bootstrapping,” in European Conference on Computer Vision. Springer, 2018, pp. 370–387.
[360] P. Lyu, C. Yao, W. Wu, S. Yan, and X. Bai, “Multi-oriented scene text detection via corner localization and region segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 7553– 7563.
[361] Z. Tian, W. Huang, T. He, P. He, and Y. Qiao, “Detecting text in natural image with connectionist text proposal network,” in European conference on computer vision. Springer, 2016, pp. 56–72.
[362] A. d. l. Escalera, L. Moreno, M. A. Salichs, and J. M. Armingol, “Road traffic sign detection and classification,” 1997.
[363] D. M. Gavrila, U. Franke, C. Wohler, and S. Gorzig, “Real time vision for intelligent vehicles,” IEEE Instrumentation & Measurement Magazine, vol. 4, no. 2, pp. 22–27, 2001.
[364] C. F. Paulo and P. L. Correia, “Automatic detection and classification of traffic signs,” in Image Analysis for Multimedia Interactive Services, 2007. WIAMIS’07. Eighth International Workshop on. IEEE, 2007, pp. 11–11.
[365] A. De la Escalera, J. M. Armingol, and M. Mata, “Traffic sign recognition and analysis for intelligent vehicles,” Image and vision computing, vol. 21, no. 3, pp. 247–258, 2003.
[366] W. Shadeed, D. I. Abu-Al-Nadi, and M. J. Mismar, “Road traffic sign detection in color images,” in Electronics, Circuits and Systems, 2003. ICECS 2003. Proceedings of the 2003 10th IEEE International Conference on, vol. 2. IEEE, 2003, pp. 890–893.
[367] S. Maldonado-Bascon, S. Lafuente-Arroyo, P. Gil- ´ Jimenez, H. Gomez-Moreno, and F. L ´ opez-Ferreras, ´ “Road-sign detection and recognition based on support vector machines,” IEEE transactions on intelligent transportation systems, vol. 8, no. 2, pp. 264–278, 2007.
[368] M. Omachi and S. Omachi, “Traffic light detection with color and edge information,” 2009.
[369] Y. Xie, L.-f. Liu, C.-h. Li, and Y.-y. Qu, “Unifying visual saliency with hog feature learning for traffic sign detection,” in Intelligent Vehicles Symposium, 2009 IEEE. IEEE, 2009, pp. 24–29.
[370] S. Houben, “A single target voting scheme for traffic sign detection,” in Intelligent Vehicles Symposium (IV), 2011 IEEE. IEEE, 2011, pp. 124–129.
[371] A. Soetedjo and K. Yamada, “Fast and robust traffic sign detection,” in Systems, Man and Cybernetics, 2005 IEEE International Conference on, vol. 2. IEEE, 2005, pp. 1341– 1346.
[372] N. Fairfield and C. Urmson, “Traffic light mapping and detection,” in Robotics and Automation (ICRA), 2011 IEEE International Conference on. IEEE, 2011, pp. 5421–5426.
[373] J. Levinson, J. Askeland, J. Dolson, and S. Thrun, “Traffic light mapping, localization, and state detection for autonomous vehicles,” in Robotics and Automation (ICRA), 2011 IEEE International Conference on. IEEE, 2011, pp. 5784–5791.
[374] C. Bahlmann, Y. Zhu, V. Ramesh, M. Pellkofer, and T. Koehler, “A system for traffic sign detection, tracking, and recognition using color, shape, and motion information,” in Intelligent Vehicles Symposium, 2005. Proceedings. IEEE. IEEE, 2005, pp. 255–260.
[375] I. M. Creusen, R. G. Wijnhoven, E. Herbschleb, and P. de With, “Color exploitation in hog-based traffic sign detection,” in 2010 IEEE International Conference on Image Processing. IEEE, 2010, pp. 2669–2672.
[376] G. Wang, G. Ren, Z. Wu, Y. Zhao, and L. Jiang, “A robust, coarse-to-fine traffic sign detection method,” in Neural Networks (IJCNN), The 2013 International Joint Conference on. IEEE, 2013, pp. 1–5.
[377] Z. Shi, Z. Zou, and C. Zhang, “Real-time traffic light detection with adaptive background suppression filter,” IEEE Transactions on Intelligent Transportation Systems, vol. 17, no. 3, pp. 690–700, 2016.
[378] Y. Lu, J. Lu, S. Zhang, and P. Hall, “Traffic signal detection and classification in street views using an attention model,” Computational Visual Media, vol. 4, no. 3, pp. 253– 266, 2018.
[379] M. Bach, D. Stumper, and K. Dietmayer, “Deep convolutional traffic light recognition for automated driving,” in 2018 21st International Conference on Intelligent Transportation Systems (ITSC). IEEE, 2018, pp. 851–858.
[380] S. Qiu, G. Wen, and Y. Fan, “Occluded object detection in high-resolution remote sensing images using partial configuration object model,” IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 10, no. 5, pp. 1909–1925, 2017.
[381] Z. Zou and Z. Shi, “Ship detection in spaceborne optical image with svd networks,” IEEE Transactions on Geoscience and Remote Sensing, vol. 54, no. 10, pp. 5832–5845, 2016.
[382] L. Zhang, L. Zhang, and B. Du, “Deep learning for remote sensing data: A technical tutorial on the state of the art,” IEEE Geoscience and Remote Sensing Magazine, vol. 4, no. 2, pp. 22–40, 2016.
[383] N. Proia and V. Page, “Characterization of a bayesian ´ ship detection method in optical satellite images,” IEEE Geoscience and Remote Sensing Letters, vol. 7, no. 2, pp. 226–230, 2010.
[384] C. Zhu, H. Zhou, R. Wang, and J. Guo, “A novel hierarchical method of ship detection from spaceborne optical image based on shape and texture features,” IEEE Transactions on geoscience and remote sensing, vol. 48, no. 9, pp. 3446–3456, 2010.
[385] S. Qi, J. Ma, J. Lin, Y. Li, and J. Tian, “Unsupervised ship detection based on saliency and s-hog descriptor from optical satellite images,” IEEE Geoscience and Remote Sensing Letters, vol. 12, no. 7, pp. 1451–1455, 2015.
[386] F. Bi, B. Zhu, L. Gao, and M. Bian, “A visual search inspired computational model for ship detection in optical satellite images,” IEEE Geoscience and Remote Sensing Letters, vol. 9, no. 4, pp. 749–753, 2012.
[387] J. Han, P. Zhou, D. Zhang, G. Cheng, L. Guo, Z. Liu, S. Bu, and J. Wu, “Efficient, simultaneous detection of multiclass geospatial targets based on visual saliency modeling and discriminative learning of sparse coding,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 89, pp. 37–48, 2014.
[388] J. Han, D. Zhang, G. Cheng, L. Guo, and J. Ren, “Object detection in optical remote sensing images based on weakly supervised learning and high-level feature learning,” IEEE Transactions on Geoscience and Remote Sensing, vol. 53, no. 6, pp. 3325–3337, 2015.
[389] J. Tang, C. Deng, G.-B. Huang, and B. Zhao, “Compressed-domain ship detection on spaceborne optical image using deep neural network and extreme learning machine,” IEEE Transactions on Geoscience and Remote Sensing, vol. 53, no. 3, pp. 1174–1185, 2015.
[390] Z. Shi, X. Yu, Z. Jiang, and B. Li, “Ship detection in highresolution optical imagery based on anomaly detector and local shape feature,” IEEE Transactions on Geoscience and Remote Sensing, vol. 52, no. 8, pp. 4511–4523, 2014.
[391] A. Kembhavi, D. Harwood, and L. S. Davis, “Vehicle detection using partial least squares,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 33, no. 6, pp. 1250–1265, 2011.
[392] L. Wan, L. Zheng, H. Huo, and T. Fang, “Affine invariant description and large-margin dimensionality reduction 39 for target detection in optical remote sensing images,” IEEE Geoscience and Remote Sensing Letters, vol. 14, no. 7, pp. 1116–1120, 2017.
[393] H. Zhou, L. Wei, C. P. Lim, D. Creighton, and S. Nahavandi, “Robust vehicle detection in aerial images using bag-of-words and orientation aware scanning,” IEEE Transactions on Geoscience and Remote Sensing, no. 99, pp. 1–12, 2018.
[394] M. ElMikaty and T. Stathaki, “Detection of cars in high-resolution aerial images of complex urban environments,” IEEE Transactions on Geoscience and Remote Sensing, vol. 55, no. 10, pp. 5913–5924, 2017.
[395] L. Zhang, Z. Shi, and J. Wu, “A hierarchical oil tank detector with deep surrounding features for high-resolution optical satellite imagery,” IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 8, no. 10, pp. 4895–4909, 2015.
[396] C. Zhu, B. Liu, Y. Zhou, Q. Yu, X. Liu, and W. Yu, “Framework design and implementation for oil tank detection in optical satellite imagery,” in Geoscience and Remote Sensing Symposium (IGARSS), 2012 IEEE International. IEEE, 2012, pp. 6016–6019.
[397] G. Liu, Y. Zhang, X. Zheng, X. Sun, K. Fu, and H. Wang, “A new method on inshore ship detection in highresolution satellite images using shape and context information,” IEEE Geoscience and Remote Sensing Letters, vol. 11, no. 3, pp. 617–621, 2014.
[398] J. Xu, X. Sun, D. Zhang, and K. Fu, “Automatic detection of inshore ships in high-resolution remote sensing images using robust invariant generalized hough transform,” IEEE Geoscience and Remote Sensing Letters, vol. 11, no. 12, pp. 2070–2074, 2014.
[399] J. Zhang, C. Tao, and Z. Zou, “An on-road vehicle detection method for high-resolution aerial images based on local and global structure learning,” IEEE Geoscience and Remote Sensing Letters, vol. 14, no. 8, pp. 1198–1202, 2017.
[400] W. Diao, X. Sun, X. Zheng, F. Dou, H. Wang, and K. Fu, “Efficient saliency-based object detection in remote sensing images using deep belief networks,” IEEE Geoscience and Remote Sensing Letters, vol. 13, no. 2, pp. 137–141, 2016.
[401] P. Zhang, X. Niu, Y. Dou, and F. Xia, “Airport detection on optical satellite images using deep convolutional neural networks,” IEEE Geoscience and Remote Sensing Letters, vol. 14, no. 8, pp. 1183–1187, 2017.
[402] Z. Shi and Z. Zou, “Can a machine generate humanlike language descriptions for a remote sensing image?” IEEE Transactions on Geoscience and Remote Sensing, vol. 55, no. 6, pp. 3623–3634, 2017.
[403] X. Han, Y. Zhong, and L. Zhang, “An efficient and robust integrated geospatial object detection framework for high spatial resolution remote sensing imagery,” Remote Sensing, vol. 9, no. 7, p. 666, 2017.
[404] Z. Xu, X. Xu, L. Wang, R. Yang, and F. Pu, “Deformable convnet with aspect ratio constrained nms for object detection in remote sensing imagery,” Remote Sensing, vol. 9, no. 12, p. 1312, 2017.
[405] W. Li, K. Fu, H. Sun, X. Sun, Z. Guo, M. Yan, and X. Zheng, “Integrated localization and recognition for inshore ships in large scene remote sensing images,” IEEE Geoscience and Remote Sensing Letters, vol. 14, no. 6, pp. 936–940, 2017.
[406] O. A. Penatti, K. Nogueira, and J. A. dos Santos, “Do deep features generalize from everyday objects to remote sensing and aerial scenes domains?” in Proceedings of the IEEE conference on computer vision and pattern recognition workshops, 2015, pp. 44–51.
[407] L. W. Sommer, T. Schuchert, and J. Beyerer, “Fast deep vehicle detection in aerial images,” in Applications of Computer Vision (WACV), 2017 IEEE Winter Conference on. IEEE, 2017, pp. 311–319.
[408] L. Sommer, T. Schuchert, and J. Beyerer, “Comprehensive analysis of deep learning based vehicle detection in aerial images,” IEEE Transactions on Circuits and Systems for Video Technology, 2018.
[409] Z. Liu, J. Hu, L. Weng, and Y. Yang, “Rotated region based cnn for ship detection,” in Image Processing (ICIP), 2017 IEEE International Conference on. IEEE, 2017, pp. 900–904.
[410] H. Lin, Z. Shi, and Z. Zou, “Fully convolutional network with task partitioning for inshore ship detection in optical remote sensing images,” IEEE Geoscience and Remote Sensing Letters, vol. 14, no. 10, pp. 1665–1669, 2017.
[411] ——, “Maritime semantic labeling of optical remote sensing images with multi-scale fully convolutional network,” Remote Sensing, vol. 9, no. 5, p. 480, 2017.

