admin管理员组

文章数量:1622625

©PaperWeekly 原创 · 作者 | 上杉翔二

单位 | 悠闲会

研究方向 | 信息检索

目前跨模态图像或视频摘要/字幕生成(Image/Video Caption)任务已经得到了很长足的发展,并逐渐内卷化,比如今天出了一篇 Vision Transformer 变体,明天升级到需要百卡训练的大框架。因此,最近的一些文章尝试向外扩展,即不再满足于只在常规的 caption 任务上刷分,而是转于探索各种稀奇古怪,但又有一定实践价值的新任务,比如程序化 caption、多样化 caption、独特化 caption、多视角 caption、常识性 caption、问题控制型 caption。于是本篇文章将整理一下围绕图像/视频字幕化任务的新任务们。

Hybrid Reasoning Network for Video-based Commonsense Captioning 常识性字幕化任务。 从普通的语义理解到高级语义推理上的升级,常识字幕任务旨在在给定一个输入的视频,同时生成字幕和完成常识推理(如上图 a 中的三种颜色,去推理出意图 intention、效果 effect、属性 attribute)。同时很显然这三种常识推理都是有作用的,如图 b 是指人类不仅可以受益于视频和事件的标题,而且还可以准确地预测属性和效果,这证明这种语义层面的推理与不同的常识线索是相互作用的。

因此作者提出一种 Hybrid Reasoning Network,即混合语义层面的推理和词级别的推理(预测下一个词)来提升表现。这样的好处是:

  • 提高各种常识性语义的高级推理能力。

  • 从不同的单词中挖掘低级别的推理。

然后具体的模型结构如下图:

图 a 是整体结果,具体的做法是以视频为输入,然后采用多模态融合将运动特征(红色的时空 CNN 来提取)、音频特征(灰色的 sound CNN 来提取)和外观特征(Image CNN 来提取)合并为多模态特征(MF)。然后将 MF 输入到解码器阶段进行字幕处理,其中包括字幕解码器和三个常识解码器:Intention Decoder,Attribute Decoder,Effect Decoder,做法都类似,

loss 也是直接用交叉熵来算。然后右边的图 b 是记忆路由多头注意力与记忆模块协同进行词级推理,即这个模块将从以前的单词信息中学习,并计算以前的信息和生成过程之间的交互。

本文标签: 合集字幕新任务视觉内卷