admin管理员组

文章数量:1589780

人物交互检测是视觉关系检测任务中非常重要的一类任务,对于场景的深入理解至关重要,现在很多方法将其分解为目标定位与交互识别,尽管取得了一定的进展,但是这些方法仅仅依赖于人和物体的外观而忽略掉有效的上下文信息,但是这些信息对于捕获他们之间的细微交互是非常重要的。本文提出了一个用于人物交互检测的上下文注意力框架,该方法通过学习实例的上下文感知外观特征来利用上下文信息,然后使用注意力模块自适应的选择与实例相关的上下文信息,以突出可能包含人物交互的图像区域。该方法在V-COCO上获得了4.4%的mAProle的提高,达到47.3%.

论文地址:https://arxiv/pdf/1910.07721v1.pdf

文章目录

  • 研究背景
  • 研究内容
  • 研究方法
  • 实验
  • 结论

研究背景

近年来,以实例为中心的识别任务取得巨大的进展,如目标检测和分割,其在机器人,自动驾驶,监控等领域有着很多的应用,然而这些应用需要对超过实例级任务的场景语义具有更加深入的理解,例如对目标对之间的视觉关系的推理,HOI(human-object interactions detection,人物交互检测)是视觉关系检测的一种,当给出一张图片,其目标不仅仅是定位出人和物体,并且需要识别出他们之间的交互关系,可以归结为检测<人,动作,物体>三元组。由于该问题需要关注带有细粒度动作的以人为中心的交互(如骑马与喂马)还需要关注多个动作同时发生的情况(坐在椅子上一边吃东西一边玩电脑),因此具有很大的挑战性。
以前的方法主要是将其分为为两个部分:目标定位与交互识别。在第一阶段使用两阶段的目标检测器对图像中的人体和物体实例进行定位,第二阶段,在一个多流网络结构中分别检测人体实例和物体实例以及他们之间的两两交互。一些方法通过将结构信息,目光,姿势等线索整合在一起获得了一定的性能提升,但是比起像目标检测实例分割这些视觉任务,HOI检测的效果还远不如人意。
目前的HOI 检测方法趋向于关注人物实例的外观特征,这些特征对于人物交互的评分至关重要,以此来识别三元组。然而一些在不同的图像粒度上容易获得的有效的辅助信息(如上下文信息)却被忽略了。上下文信息对于一些计算机视觉任务的性能提高具有很重要的作用,然而对于HOI检测人物,其探索仍然相对不足。被检测区域周围的上下文消息可能会对标准边界框的外观特征提供补充信息,全局的上下文信息能够对确定某个特定目标种类的存在或缺失提供有价值的图像级的信息。如当检测驾船时,人,船,水可能都出现在图片中,当检测驾车时,仍然存在驾驶的动作,但是上下文信息(水)发生了改变。除了全局的上下文信息,每个人/物实例附近的信息对于区分不同的交互也提供了一些线索。比如包含同一物体的各种交互,吃苹果的动作周围应该是一个脸,切苹果的动作可能是手的一部分。在本文中,将上下文信息利用到HOI 检测中。

相关工作
目标检测:目标检测的发展主要依赖于CNN网络,基于CNN的目标检测器可以分为两阶段和

本文标签: 笔记论文DeepContextualICCV