admin管理员组

文章数量:1589831

IANet:Interaction-and-Aggregation Network for Person Re-identification

1. 摘要

由于CNN具有固定的几何结构(卷积固定的滑动窗口),因此在模拟人体姿态和大尺度变化时存在固有的局限性。本文提出Interaction-and-Aggregation (IA)来增强CNN的表示能力。首先,用 Spatial IA (SIA)模块对空间特征之间的相互依赖关系建模,然后聚合对应于同一身体部分的相关特征。与从固定矩形区域(卷积滑动窗口过程)提取特征的CNN不同,SIA可以根据输入图像中行人姿态和尺度自适应地确定感受引区域。然后,引入Channel IA(CIA)模块有选择地聚合通道特征以增强特征表示,特别是对于小规模(一些小的物体在网络下采样时很容易在空间维度消失,而不是冗余的话一般会被压缩到channel中去,于是用CIA去找)的视觉线索(CNN在空间size下降,channel上升过程其实做了三个工作,一方面去除冗余信息,另一方面将低级像素特征整合成较高级特征,最后就是将空间维度的信息压缩到channel维度了,而自编码器最终能根据空间压缩后的特征图比较好的重建原始图的原因,因为即使空间维度保留了有用的信息,但如果舍弃channel维度也是不能重建原图的)。最后,IA网络可以通过在任何深度向CNN中插入IA block来构建。

2. 方法

2.1 SIA模块


其中,MC如下操作:

而外貌关系图如下获取:


其中HWC是F的size,而 P i P_i Pi P j P_j Pj是F中像素 i 和像素 j 对应的K*K的patch,它们的第 k 个空间位置(像素k处)的特征为 p i , k p_{i,k} pi,k p j , k p_{j,k} pj,k。位置关系图的获取如下:


其中 f i ∈ R C , f j ∈ R C f_i \in R^C, f_j \in R^C fiRC,fjRC是F在位置(相素)i,j处的特征,对应像素位置为 ( x i , y i ) , ( x j , y j ) (x_i,y_i),(x_j,y_j) (xi,yi),(xj,yj),而

是高斯分布的标注差(超参)。最后对所有i,j就可以得出最终 S L S^L SL

然后,整个语义关系S表示为:

再经过聚类操作,即:

2.2 CIA模块

高层特征图的分辨率很小,有很多空间信息被压缩到channel中去了,因此就要从channel中去寻找这些信息,于是CIA产生

在两个不同的channe对语义相互依赖关系显式建模。有:

其中 f m , f n ∈ R H W f_m,f_n \in R^{HW} fmfnRHW表示F中第 m 个channel和第 n 个channel的特征。最终 C m n C_{mn} Cmn组成 C ∈ R C ∗ C C \in R^{C*C} CRCC。然后:

2.3 IA Block

SIA和CIA做成IA Block,这样就能插入到CNN的任意深度了。无论SIA还是CIA,IA Block定义为:

其中E是 E S E^S ES E C E^C EC,并且还 + F引入了残差结构。如下:

位于不同级别瓶颈处的多个IA Block可以以可忽略的参数逐步增强特征表示。

3. 实验

3.1 实验细节


3.2 和SOTA比较


性能不算很高

3.3 消融

3.4 参数分析

3.5. 不同backbone的影响

图6b中的stage1234可以是任意网络,称这个为backbone

3.6 可视化示例

本文标签: 笔记aggregationInteractionIANetIdentification