admin管理员组

文章数量:1589756

Bi-directional Interaction Network for Person Search 阅读笔记

CVPR 2020
Wenkai Dong1, 3, Zhaoxiang Zhang1, 2, 3∗, Chunfeng Song1, 3, Tieniu Tan1, 2, 3∗

problem

Due to the large receptive fields in deep networks,文章提到由于网络有着广阔的感受野,导致propsal在crop的时候包含了许多除边界框以外的上下文信息,这些信息会使search网络无法聚焦于人,导致缺乏辨别不同身份的能力。(search需要精确的人的外观信息,在训练时会很容易受到其他信息干扰,导致在推理中模型无法聚焦于人)

motivation

1.要减轻冗余的上下文信息带来的影响,
2.模型需要额外的行人图片来训练,从冗余的上下文信息中区分出人的外观特征
3.在推理阶段要做到高效(这里是和19年Query-guided end-to-end person search做了一个对比,Q这篇文章是将query信息引入网络,同样利用了上下文信息,但是要为每个query和proposal计算,计算量过大,同时不符合实际)

Contribution

文章提出了一个带有instance-aware branch分支的Siamese network。如上图所示,引出一个分支,输入的是从原始图像中的行人图片,这样可以帮助模型专注于识别行人。另外提出两个loss来实现两分支的交互(反向过程中)。在推理阶段,就去掉分支,减少计算量。

method

网络框架图:

文章从feature-level 和prediction-level 层面保持一致性,对于ROI,前者意味着特征空间中的紧密结合,后者意味着两个分支输出相同的身份预测。

Feature-level interaction

Prediction-level interaction

本文标签: 笔记InteractiondirectionalbiSearch