admin管理员组

文章数量:1531350

2024年7月17日发(作者:)

ImageNet Classification with Deep Convolutional Neural Networks

Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton

摘要

咱们训练了一个大型的深度卷积神经网络,来将在ImageNet LSVRC-2020大赛中的

120万张高清图像分为1000个不同的类别。对测试数据,咱们取得了top-1误差率%,

和top-5误差率%,那个成效比之前最顶尖的都要好得多。该神经网络有6000万个参数

和650,000个神经元,由五个卷积层,和某些卷积层后随着的max-pooling层,和三个

全连接层,还有排在最后的1000-way的softmax层组成。为了使训练速度更快,咱们利

用了非饱和的神经元和一个超级高效的GPU关于卷积运算的工具。为了减少全连接层的过

拟合,咱们采纳了最新开发的正那么化方式,称为“dropout”,它已被证明是超级有效的。

在ILSVRC-2021大赛中,咱们又输入了该模型的一个变体,并依托top-5测试误差率%

取得了成功,相较较下,次优项的错误率是%。

1 引言

当前物体识别的方式大体上都利用了机械学习方式。为了改善这些方式的性能,咱们

能够搜集更大的数据集,学习更强有力的模型,并利用更好的技术,以避免过拟合。直到

最近,标记图像的数据集都相当小——大约数万张图像(例如,NORB [16],

Caltech-101/256 [8, 9],和CIFAR-10/100 [12])。简单的识别任务能够用这种规模的数

据集解决得相当好,专门是当它们用标签-保留转换增强了的时候。例如,在MNIST数字

识别任务中当前最好的误差率(<%)接近于人类的表现[4]。可是现实环境中的物体表现

出相当大的转变,因此要学习它们以对它们进行识别就必需利用更大的训练集。事实上,

小规模图像数据集的缺点已被普遍认同(例如,Pinto等人[21]),可是直到最近,搜集有

着上百万张图像的带标签数据集才成为可能。更大型的新数据集包括LabelMe [23],它由

几十万张完全分割图组成,还有ImageNet [6],它由多于22,000个种类中超过1500万

张带标签的高分辨率图像组成。

为了从几百万张图像中学习数以千计的物体,咱们需要一个学习能力更强的模型。但

是,物体识别任务的极大复杂性意味着那个问题不能被指定,即便是通过与ImageNet一

样大的数据集,因此咱们的模型中也应该有大量的先验知识,以补偿咱们所没有的全数数

据。卷积神经网络(CNN)组成了一个这种类型的模型[16, 11, 13, 18, 15, 22, 26]。它们

的能力能够通过改变其深度与广度取得操纵,它们也可作出有关图像性质的强壮且多半正

确的假设(即,统计数据的稳固性和像素依托关系的局部性)。因此,与层次规模相同的标

准前馈神经网络相较,CNN的连接关系和参数更少,因此更易于训练,而其理论上的最正

确性能可能只略差一点。

不论CNN的性质多有吸引力,也不论它们局部结构的相对效率有多高,将它们大规

模地应用到高分辨率图像中仍然是极为昂贵的。幸运的是,目前的GPU搭配了一个高度优

化的2D卷积工具,壮大到足以增进大规模CNN的训练,而且最近的数据集像ImageNet

包括足够的带标签的样例来训练如此的模型,还可不能有严峻的过拟合。

本文的具体奉献如下:咱们在ILSVRC-2020和ILSVRC-2021大赛中利用过的

ImageNet的子集上[2],训练了迄今为止最大型的卷积神经网络之一,并取得了迄今为止

在这些数据集上报告过的最好结果。咱们写了一个高度优化的GPU二维卷积工具和训练卷

积神经网络进程中的所有其他操作,这些咱们都提供了公布地址。咱们的网络中包括一些

既新鲜而又不同寻常的特点,它们提高了网络的性能,并减少了网络的训练时刻,这些详

见第3节。咱们的网络中乃至有120万个带标签的训练样本,这么大的规模使得过拟合成

为一个显著的问题,因此咱们利用了几种有效的方式来避免过拟合,这些在第4节中给以

描述。咱们最终的网络包括五个卷积层和三个全连接层,且这种层次深度似乎是重要的:

咱们发觉,移去任何卷积层(其中每一个包括的模型参数都不超过1%)都会致使性能变

差。

最后,网络的规模要紧受限于当前GPU的可用内存和咱们情愿容忍的训练时刻。咱们

的网络在两块GTX 580 3GB GPU上训练需要五到六天。咱们所有的实验说明,等更快的

GPU和更大的数据集可用以后,咱们的结果就能够够轻而易举地取得改良。

2 数据集

ImageNet是一个拥有超过1500万张带标签的高分辨率图像的数据集,这些图像分

属于可能22,000个类别。这些图像是从网上搜集,并利用Amazon Mechanical Turk群

众外包工具来人工贴标签的。作为PASCAL视觉目标挑战赛的一部份,一年一度的

ImageNet大型视觉识别挑战赛(ILSVRC)从2020年开始就已经在举行了。ILSVRC利

用ImageNet的一个子集,分为1000种类别,每种类别中都有大约1000张图像。总之,

大约有120万张训练图像,50,000张验证图像和150,000张测试图像。

ILSVRC-2020是ILSVRC中能取得测试集标签的唯一版本,因此这也确实是咱们完成

大部份实验的版本。由于咱们也在ILSVRC-2021上输入了模型,在第6节中咱们也会报

告那个数据集版本上的结果,该版本上的测试集标签难以获取。在ImageNet上,适应性

地报告两个误差率:top-1和top-5,其中top-5误差率是指测试图像上正确标签不属于

被模型以为是最有可能的五个标签的百分比。

ImageNet由各类分辨率的图像组成,而咱们的系统需要一个恒定的输入维数。因此,

咱们下采样这些图像到固定的分辨率256×256。给定一张矩形图像,咱们第一从头缩放图

像,使得短边长度为256,然后从取得的图像中裁剪出中央256×256的一片。除遍历训

练集从每一个像素中减去平均活跃度外,咱们没有以任何其他方式预处置图像。因此咱们

用这些像素(中央那一片的)原始RGB值训练网络。

3 体系结构

图2总结了咱们网络的体系结构。它包括八个学习层——五个卷积层和三个全连接层。

下面,咱们将介绍该网络体系结构的一些新颖独特的功能。是依照咱们关于其重要性的估

量来排序的,最重要的排在最前面。

ReLU非线性

将神经元的输出f,作为其输入x的函数,对其建模的标准方式是用那个地址写图片描

述或那个地址写图片描述。就梯度下降的训练时刻而言,这些饱和非线性函数比不饱和非

线性函数那个地址写图片描述要慢得多。咱们跟从Nair和Hinton[20]称这种不饱和非线

性的神经元为修正线性单元(ReLU)。训练带ReLUs的深度卷积神经网络比带tanh单元

的一样网络要快好几倍。如图1所示,它显示出关于特定的四层卷积网络,在CIFAR-10

数据集上达到25%的训练误差所需的迭代次数。此图显示,若是咱们利用了传统的饱和神

经元模型,就不能用如此大的神经网络来对该工作完成实验。

图1:带ReLU的四层卷积神经网络(实线)在CIFAR-10数据集上达到25%训练误

差率要比带tanh神经元的一样网络(虚线)快六倍。每一个网络的学习速度是独立选取的,

以使得训练尽可能快。没有利用任何形式的正那么化。那个地址演示的成效因网络结构的

不同而不同,但带ReLU的网络学习始终比带饱和神经元的一样网络快好几倍。

咱们不是第一个在CNN中考虑传统神经元模型的替代品的。例如,Jarrett等人[11]

宣称,非线性函数那个地址写图片描述由于其后随局部average pooling的对照度归一化

的类型,它在Caltech-101数据集上工作得专门好。但是,在该数据集上的要紧关注点是

避免过拟合,因此他们正在观看的成效不同于咱们报告的为拟合训练集利用ReLU时的加

速能力。更快的学习对大型数据集上训练的大型模型的性能有专门大阻碍。

在多个GPU上训练

单个GTX 580 GPU只有3GB内存,这限制了能够在其上训练的网络的最大规模。事

实证明,120万个训练样本才足以训练网络,这网络太大了,不适合在一个GPU上训练。

因此咱们将网络散布在两个GPU上。目前的GPU专门适合跨GPU并行化,因为它们能

够直接从另一个GPU的内存中读出和写入,不需要通过主机内存。咱们采纳的并行方案大

体上是在每一个GPU中放置一半核(或神经元),还有一个额外的技术:GPU间的通信只

在某些层进行。这确实是说,例如,第3层的核需要从第2层中所有核映射输入。但是,

第4层的核只需要从第3层中位于同一GPU的那些核映射输入。选择连接模式是一个交

叉验证的问题,可是这让咱们能够精准地调整通信量,直到它的计算量在可同意的部份。

由此产生的体系结构有点类似于Ciresan等人提出的“柱状”CNN的体系结构[5],

不同的地方在于咱们的纵列不是独立的(见图2)。与在一个GPU上训练的每一个卷积层

有一半核的网络比较,该方案将咱们的top-1与top-5误差率别离减少了%与%。训练双

GPU网络比训练单GPU网络花费的时刻略少一些 (事实上单GPU网络与双GPU网络在

最后的卷积层有着相同数量的核。这是因为大多数网络的参数在第一个全连接层,这需要

上一个卷积层作为输入。因此,为了使两个网络有数量大致相同的参数,咱们不把最后一

个卷积层大小减半(也不把它后面跟从的全连接层减半)。因此,这种比较关系更偏向有利

于单GPU网络,因为它比双GPU网络的“一半大小”要大)。

局部响应归一化

ReLU具有所希望的特性,它们不需要输入归一化来避免它们达到饱和。若是至少有

一些训练样例对ReLU产生了正输入,学习就将发生在那个神经元。可是,咱们仍然发觉

以下局部归一化方案有助于一样化。用那个地址写图片描述表示点那个地址写图片描述处

通过应用核 计算出的神经元激活度,然后应用ReLU非线性,响应归一化活性那个地址写

图片描述由下式给出 :

其中求和覆盖了n个“相邻的”位于相同空间位置的核映射,N是该层中的核总数。

核映射的顺序固然是任意的,且在训练开始前就确信。受到在真实神经元中发觉的类型启

发,这种响应归一化实现了一种侧向抑制,在利用不同核计算神经元输出的进程中制造对

大激活度的竞争。常数k,n,α和β是超参数,它们的值要用验证集来确信;咱们利用那

个地址写图片描述。咱们在某些层应用ReLU归一化后再应用这种归一化(见节)

该方案与Jarrett等人的局部对照度归一化方案具有一些相似的地方[11],但咱们的方

案更正确的命名为“亮度归一化”,因为咱们不减去平均活跃度。响应归一化将咱们的top-1

与top-5误差率别离减少了%与%。咱们也验证了该方案在CIFAR-10数据集上的有效性:

四层CNN不带归一化时的测试误差率是13%,带归一化时是11%(由于版面有限咱们不

能详细描述该网络,但那个地址提供的代码和参数文件对其有精准详细的说明:)。

重叠Pooling

CNN中的Pooling层总结了同一核映射中临近神经元组的输出。传统上,通过邻接

pooling单元总结的临近关系不重叠(例如,[17,11,4])。更准确地说,一个pooling层

能够被以为是由距离s像素的pooling单元网格组成,每一个网格总结出一个z×z大小的

临近关系,都位于pooling单元的中心位置。假设设s=z,咱们取得传统的局部pooling,

正如经常使用于CNN中的那样。假设设s

整体结构

此刻,咱们已经预备好描述CNN的整体结构。如图2所示,该网络包括八个带权层;

前五层是卷积层,剩下三层是全连接层。最后一个全连接层的输出被送到一个1000-way

的softmax层,其产生一个覆盖1000类标签的散布。咱们的网络使得多分类的Logistic

回归目标最大化,这相当于最大化了预测散布下训练样本中正确标签的对数概率平均值。

那个地址写图片描述

图2:CNN体系结构示用意,明确显示了两个GPU之间的职责划分。一个GPU运行

图中顶部的层次部份,而另一个GPU运行图中底部的层次部份。GPU之间仅在某些层相

互通信。该网络的输入是150,528维的,且该网络剩下各层的神经元数别离为253,440–

186,624–64,896–64,896–43,264–4096–4096–1000。

第二、第四和第五个卷积层的核只连接到前一个卷积层也位于同一GPU中的那些核映

射上(见图2)。第三个卷积层的核被连接到第二个卷积层中的所有核映射上。全连接层中

的神经元被连接到前一层中所有的神经元上。响应归一化层跟在第一、第二个卷积层后面。

节中描述的那种最大Pooling层,跟在响应归一化层和第五个卷积层以后。ReLU非线性

应用于每一个卷积层及全连接层的输出。

第一个卷积层利用96个大小为11×11×3、步长为4个像素(这是同一核映射中临近

神经元的感受野中心之间的距离)的核,来对大小为224×224×3的输入图像进行滤波。

第二个卷积层需要将第一个卷积层的(响应归一化及池化的)输出作为自己的输入,且利

用256个大小为5×5×48的查对其进行滤波。第三、第四和第五个卷积层彼此相连,没有

任何介于中间的pooling层与归一化层。第三个卷积层有384个大小为3×3×256的核被

连接到第二个卷积层的(归一化的、池化的)输出。第四个卷积层拥有384个大小为3×3

×192的核,第五个卷积层拥有256个大小为3×3×192的核。全连接层都各有4096个

神经元。

4 减少过拟合

咱们的神经网络结构有6000万个参数。尽管ILSVRC的1000个类别使得每一个训练

样本强加10比特约束到从图像到标签的映射上,这显示出要学习如此多的参数而不带相

当大的过拟合,这些类别是不够的。下面,咱们描述减少过拟合的两种要紧方式。

数据增强

减少图像数据过拟合最简单最经常使用的方式,是利用标签-保留转换,人为地扩大数

据集(例如,[25,4,5])。咱们利用数据增强的两种不同形式,这两种形式都许诺转换图像

用很少的计算量从原始图像中产生,因此转换图像不需要存储在磁盘上。在咱们的实现中,

转换图像是由CPU上的Python代码生成的,而GPU是在之前那一批图像上训练的。因

此这些数据增强方案事实上是计算自由。

数据增强的第一种形式由生成图像转化和水平反射组成。为此,咱们从256×256的

图像中提取随机的224×224的碎片(还有它们的水平反射),并在这些提取的碎片上训练

咱们的网络(这确实是图2中输入图像是224×224×3维的缘故)。这使得咱们的训练集

规模扩大了2048倍,可是由此产生的训练样例必然高度地彼此依托。若是没有那个方案,

咱们的网络会有大量的过拟合,这将迫使咱们利用小得多的网络。在测试时,该网络通过

提取五个224×224的碎片(四个边角碎片和中心碎片)连同它们的水平反射(因此总共

是十个碎片)做出了预测,并在这十个碎片上来平均该网络的softmax层做出的预测。

数据增强的第二种形式包括改变训练图像中RGB通道的强度。具体来讲,咱们在遍及

整个ImageNet训练集的RGB像素值集合中执行PCA。关于每一个训练图像,咱们成倍

增加已有主成份,比例大小为对应特点值乘以一个从均值为0,标准差为的高斯散布中提

取的随机变量。如此一来,关于每一个RGB图像像素那个地址写图片描述,咱们增加下面

这项:

那个地址写图片描述

其中那个地址写图片描述与那个地址写图片描述别离是RGB像素值的3×3协方差矩

阵的第i个特点向量与特点值,那个地址写图片描述是前面提到的随机变量。每一个那个

地址写图片描述关于特定训练图像的全数像素只提取一次,直到那个图像再次被用于训练,

在那时它被从头提取。那个方案大致抓住了自然图像的一个重要属性,即,光照强度与颜

色是转变的,而对象识别是不变的。该方案将top-1误差率减少了1%以上。

Dropout

结合许多不同模型的预测是一种超级成功的减少测试误差的方式[1,3],但它先前训练

花了好几天时刻,似乎关于大型神经网络来讲太过昂贵。但是,有一个超级有效的模型组

合版本,它在训练中只花费两倍于单模型的时刻。最近推出的叫做“dropout”的技术[10],

它做的确实是以的概率将每一个隐层神经元的输出设置为零。以这种方式“dropped out”

的神经元既无益于前向传播,也不参与反向传播。因此每次提出一个输入,该神经网络就

尝试一个不同的结构,可是所有这些结构之间共享权重。因为神经元不能依托于其他特定

神经元而存在,因此这种技术降低了神经元复杂的互适应关系。正因如此,要被迫学习更

为鲁棒的特点,这些特点在结合其他神经元的一些不同随机子集时有效。在测试时,咱们

将所有神经元的输出都仅仅只乘以,关于获取指数级dropout网络产生的预测散布的几何

平均值,这是一个合理的近似方式。

咱们在图2中前两个全连接层利用dropout。若是没有dropout,咱们的网络会表现

出大量的过拟合。dropout使收敛所需的迭代次数大致增加了一倍。

5 学习的详细进程

咱们利用随机梯度下降法和一批大小为12八、动力为、权重衰减为的样例来训练咱

们的网络。咱们发觉,这少量的权重衰减关于模型学习是重要的。换句话说,那个地址的

权重衰减不单单是一个正那么化矩阵:它减少了模型的训练误差。关于权重w的更新规那

么为

那个地址写图片描述

其中i是迭代指数,v是动力变量,ε是学习率,那个地址写图片描述是目标关于w、

对 那个地址写图片描述求值的导数在第i批样例 那个地址写图片描述上的平均值。

咱们用一个均值为0、标准差为的高斯散布初始化了每一层的权重。咱们用常数1初

始化了第二、第四和第五个卷积层和全连接隐层的神经元误差。该初始化通过提供带正输

入的ReLU来加速学习的低级时期。咱们在其余层用常数0初始化神经元误差。

咱们关于所有层都利用了相等的学习率,这是在整个训练进程中手动调整的。咱们遵

循的启发式是,当验证误差率在当前学习率下再也不提高时,就将学习率除以10。学习率

初始化为,在终止前降低三次。咱们训练该网络时大致将这120万张图像的训练集循环了

90次,在两个NVIDIA GTX 580 3GB GPU上花了五到六天。

6 结果

咱们在ILSVRC-2020测试集上的结果总结于表1中。咱们的网络实现了top-1测试

集误差率%,top-5测试集误差率% (假设没有如节所述的在十个碎片上平均预测,误差

率是%与%)。ILSVRC-2020大赛中取得的最好表现是%与%,它的方式是用不同特点训练

六个sparse-coding模型,对这些模型产生的预测求平均值[2],自那以后发布的最好结果

是%与%,它的方式是从两类密集采样的特点中计算出费舍尔向量(FV),用费舍尔向量训

练两个分类器,再对这两个分类器的预测求平均值[24]。

那个地址写图片描述

表1:ILSVRC-2020测试集上的结果比较。斜体字是他人取得的最好结果。

咱们也在ILSVRC-2021大赛中输入了咱们的模型,并在表2中报告结果。由于

ILSVRC-2021测试集标签是不公布的,咱们不能对试过的所有模型都报告测试误差率。在

本段的其余部份,咱们将验证误差率与测试误差率互换,因为依照咱们的体会,它们之间

相差不超过%(见表2)。本文所描述的CNN实现了%的top-5误差率。对五个相似CNN

的预测求平均值得出了%的误差率。训练一个在最末pooling层以后还有一个额外的第六

个卷积层的CNN,用以对整个ImageNet 2020年秋季发布的图像(15M张图像,22K

种类别)进行分类,然后在ILSVRC-2021上“微调”它,这种方式得出了%的误差率。用

在整个2020年秋季发布的图像上预训练的两个CNN,结合先前提到的五个CNN,再对

这七个CNN作出的预测求平均值,这种方式得出了%的误差率。竞赛中的第二名实现了%

的误差率,用的方式是从不同类密集采样的特点中计算FV,用FV训练几个分类器,再对

这几个分类器的预测求平均值[7]。

那个地址写图片描述

表2:在ILSVRC-2021验证集与测试集上的误差率比较。斜体字是由他人取得的最好

结果。带星号的模型是通过“预训练”以对整个ImageNet 2020年秋季发布的图像集进

行分类的。详见第6节。

最后,咱们还报告在ImageNet 2020年秋季版本上的误差率,该版本有10,184种类

别与890万张图像。在那个数据集上,咱们依照文献老例,用一半图像来训练,用另一半

图像来测试。由于没有确信的测试集,咱们的划分必然不同于以前的作者利用的划分,但

这并非会明显地阻碍到结果。咱们在该数据集上的top-1误差率和top-5误差率别离为%

和%,这是通过上述的网络取得的,但还有个附加条件,第六个卷积层接在最后一个

pooling层以后。该数据集上发布的最正确结果是%和%[19]。

定性评判

图3显示了通过该网络的两个数据连接层学习到的卷积核。该网络已经学习到各类各

样的频率与方向选择核,和各类颜色的斑点。注意两个GPU显现出的特性,节中描述了一

个结果是限制连接。GPU1上的核大多数颜色不明确,而GPU2上的核大多数颜色明确。

这种特性在每一次运行中都会显现,且独立于所有特定的随机权重初始化(以GPU的从头

编数为模)。

那个地址写图片描述

图3:通过 的输入图像上第一个卷积层学习到的96个大小为 的卷积核。顶部的48

个核是从GPU1上学到的,底部的48个核是从GPU2上学到的。详见节。

在图4左侧面板上,通过计算该网络在八个测试图像上的top-5预测,咱们定性地判

定它学到了什么。注意到即便是偏离中心的物体,比如左上角的一小块,也能够被网络识

别。大多数的top-5标签似乎合情合理。例如,只有其他类型的猫科动物被以为是对豹貌

似合理的标签。在某些情形下(铁栅、樱桃),关于图片用意的核心存在歧义。

那个地址写图片描述

图4:(左图)八个ILSVRC-2020测试图像,和被咱们的模型以为最有可能的五个标

签。正确的标签写在每一个图像下面,正确标签的概率也以红色条予以显示(假设它在前

5之内)。(右图)第一列是五个ILSVRC-2020测试图像。其余列显示了六个训练图像,它

们在最后的隐层产生的特点向量与测试图像的特点向量有最小的欧氏距离。

探测网络的视觉知识有另一种方式,确实是考虑由位于最后的4096维隐层上的图像

引发的特点激活。若是两个图像用小欧氏分离产生了特点激活向量,咱们能够说,在神经

网络的更高级别上以为它们是相似的。图4显示了测试集中的五个图像,和训练集中依照

这一标准与其中每一个最相似的六个图像。注意,在像素级别,检索到的训练图像一样可

不能接近第一列中的查询图像。例如,检索到的狗和大象表现出各类各样的姿势。咱们会

在补充材料里给出更多测试图像的结果。

通过利用两个4096维实值向量之间的欧氏距离来计算相似性是低效的,但它能够通

过训练一个自动编码器将这些向量紧缩为短的二进制代码来变得高效。这应该会产生一个

比应用自动编码器到原始像素要好得多的图像检索方式[14],它不利用图像标签,尔后还

有一种用相似边缘图案来检索图像的偏向,而不论它们在语义上是不是相似。

7 讨论

咱们的研究结果说明,大型深度卷积神经网络在一个超级具有挑战性的数据集上利用

纯粹的监督学习,能够达到破纪录的结果。值得注意的是,若是有一个卷积层被移除,咱

们的网络性能就会降低。例如,除去任何中间层都将致使该网络的top-1性能有2%的损

失。因此该层次深度关于达到咱们的结果确实是重要的。

为了简化实验,咱们没有利用任何无监督的预训练,即便咱们估量它将带来帮忙,专

门是咱们能够取得足够的计算能力来显著地扩大网络规模,而不带来标记数据量的相应增

加。到目前为止,咱们的结果有所改善,因为咱们已经让网络更大,训练时刻更久,可是

为了匹配人类视觉系统的infero-temporal途径,咱们仍然有更高的数量级要去达到。最

终咱们想要在视频序列上利用超级大型的深度卷积网络,其中的瞬时结构会提供超级有效

的信息,这些信息在静态图像中丢失了或极不明显。

参考文献

[1] . Bell and Y. Koren. Lessons from the netflix prize challenge. ACM SIGKDD

Explorations Newsletter, 9(2):75–79, 2007.

[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge

2020. 2020.

[3] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.

[4] D. Cires¸an, U. Meier, and J. Schmidhuber. Multi-column deep neural

networks for image classification. Arxiv preprint arXiv:, 2021.

[5] . Cires¸an, U. Meier, J. Masci, . Gambardella, and J. Schmidhuber.

High-performance neural networks for visual object classification. Arxiv preprint

arXiv:, 2020.

[6] J. Deng, W. Dong, R. Socher, . Li, K. Li, and L. Fei-Fei. ImageNet: A

Large-Scale Hierarchical Image Database. In CVPR09, 2020.

[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ILSVRC-2021,

2021. URL

[8] L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from

few training examples: An incremental bayesian approach tested on 101 object

categories. Computer Vision and Image Understanding, 106(1):59–70, 2007.

[9] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset.

Technical Report 7694, California Institute of Technology, 2007. URL

[10] . Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and . Salakhutdinov.

Improving neural networks by preventing co-adaptation of feature detectors. arXiv

preprint arXiv:, 2021.

[11] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y. LeCun. What is the best

multi-stage architecture for object recognition? In International Conference on

Computer Vision, pages 2146–2153. IEEE, 2020.

[12] A. Krizhevsky. Learning multiple layers of features from tiny images.

Master’s thesis, Department of Computer Science, University of Toronto, 2020.

[13] A. Krizhevsky. Convolutional deep belief networks on cifar-10.

Unpublished manuscript, 2020.

[14] A. Krizhevsky and . Hinton. Using very deep autoencoders for

content-based image retrieval. In ESANN, 2020.

[15] Y. Le Cun, B. Boser, . Denker, D. Henderson, . Howard, W. Hubbard, . Jackel,

et al. Handwritten digit recognition with a back-propagation network. In Advances

in neural information processing systems, 1990.

[16] Y. LeCun, . Huang, and L. Bottou. Learning methods for generic object

recognition with invariance to pose and lighting. In Computer Vision and Pattern

Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society

Conference on, volume 2, pages II–97. IEEE, 2004.

[17] Y. LeCun, K. Kavukcuoglu, and C. Farabet. Convolutional networks and

applications in vision. In Circuits and Systems (ISCAS), Proceedings of 2020 IEEE

International Symposium on, pages 253–256. IEEE, 2020.

[18] H. Lee, R. Grosse, R. Ranganath, and . Ng. Convolutional deep belief

networks for scalable unsupervised learning of hierarchical representations. In

Proceedings of the 26th Annual International Conference on Machine Learning,

pages 609–616. ACM, 2020.

[19] T. Mensink, J. Verbeek, F. Perronnin, and G. Csurka. Metric Learning for

Large Scale Image Classification: Generalizing to New Classes at Near-Zero Cost. In

ECCV - European Conference on Computer Vision, Florence, Italy, October 2021.

[20] V. Nair and G. E. Hinton. Rectified linear units improve restricted

boltzmann machines. In Proc. 27th International Conference on Machine Learning,

2020.

[21] N. Pinto, . Cox, and . DiCarlo. Why is real-world visual object recognition

hard? PLoS computational biology, 4(1):e27, 2020.

[22] N. Pinto, D. Doukhan, . DiCarlo, and . Cox. A high-throughput screening

approach to discovering good forms of biologically inspired visual representation.

PLoS computational biology, 5(11):e1000579, 2020.

[23] . Russell, A. Torralba, . Murphy, and . Freeman. Labelme: a database and

web-based tool for image annotation. International journal of computer vision,

77(1):157–173, 2020.

[24] J. Sánchez and F. Perronnin. High-dimensional signature compression for

large-scale image classification. In Computer Vision and Pattern Recognition

(CVPR), 2020 IEEE Conference on, pages 1665–1672. IEEE, 2020.

[25] . Simard, D. Steinkraus, and . Platt. Best practices for convolutional neural

networks applied to visual document analysis. In Proceedings of the Seventh

International Conference on Document Analysis and Recognition, volume 2, pages

958–962, 2003.

[26] . Turaga, . Murray, V. Jain, F. Roth, M. Helmstaedter, K. Briggman, W. Denk,

and . Seung. Convolutional networks can learn to generate affinity graphs for

image segmentation. Neural Computation, 22(2):511–538, 2020.

本文标签: 图像训练网络卷积