A Comprehensive Study of Deep Video Action Recognition 论文笔记|电子爱好者

admin管理员组
文章数量:1530050

A Comprehensive Study of Deep Video Action Recognition

论文链接: https://arxiv/abs/2012.06567

一、 Problem Statement

来自于李沐团队关于Action Recognition的综述。

二、 Direction

介绍了video action recognition的挑战:

modeling long range temporal information in videos
high computation costs
incomparable results due to datasets and evaluation protocol variances

介绍了video action recognition的模型:

two-stream networks
3D convolutional kernels
compute-efficient models

最后阐述了以下video action revognition的方向

三、 Method

human action understanding 涉及了识别，定位，和预测人类行为。

先来看一下代表性的工作表:

主要分为三个趋势:

Two-stream networks: 也就是多添加一个路径，通过optical flow stream学习视频中的temporal information。代表作有 TDD，LRCN，Fusion，TSN。
使用3D卷积核获取video temporal information。代表作有 I3D，R3D， S3D，Non-local，SlowFast。
关注于compute-efficiency的方法，代表工作包括Hidden TSN，TSM，X3D，TVN。

1. 数据集

数据集的建立通常有下面四个步骤:

定义好动作列表，通过结合之前的数据集的标签和添加新的类别。
获取视频。
进行时间序列的标注，表明动作开始的位置和结束的位置。
清洗数据

主流数据集如下:

作者举例说明了数据集的差异。

第一种UCF101和Kinetics400，这些动作有些时候可以单独通过一个背景或者场景就能判定。因此在这种情况下，视频动作识别可能成为一个对象/场景分类问题，而不需要推理运动/时间信息。
第二种是Something-Something的数据集。这个数据集关注人机交互，因此它更精细化，并且需要强大的时间建模。 举个例子，图中如果只看到第一帧，那我们不可能知道它是丢下东西还是拿起东西。
第三种是Moments in time数据集。这个数据集和大多是的视频行为识别数据集不一样。它有大量的类间和类内的区别，就是不同抽象级别的动态事件。 例如，动作攀岩可以在不同的环境（楼梯或树）中有不同的参与者（人或动物）。

2. 动作识别的挑战

作者两个方面阐述了动作识别的挑战:

数据集方向
- 首先，定义用于训练动作识别模型的标签空间非常重要。这是因为人类行为通常是复合概念，而这些概念的层次结构没有很好的定义。
- 其次，对视频进行动作识别的标注是耗费人力和模糊定义的。需要看大量的视频帧，并且很难确定精确的开始位置和结束位置。
- 第三个就是，一些主流的benchmark datasets只发布供用户下载的视频链接，而不是实际的视频，这会导致根据不同数据评估方法的情况。因此不可能在方法之间进行公平的比较并获得insights。
模型方向
- 首先，视频捕捉人类的动作有类间和类内的区别。人们会以不同的速度在多个视角下，做同样的动作。除此之外，有些动作具有相似的动作模式，很难区分。
- 其次，识别人类动作需要同时理解短期动作特定运动信息和长期时间信息。
- 最后，训练和推理的计算成本都很高，阻碍了动作识别模型的开发和部署。

3. 动作识别的研究

(1) 从hand-crafted特征到CNNs。

2015年之前，IDT是主流的方法。但是hand-crafted特征需要很高的计算能力和很难取应用。因此随着CNN的发展，逐渐成为了动作识别领域的主流方法。从DeepVideo出发，它在每个视频帧上单独使用一个2D CNN模型，并研究几种时间连接模式，以学习用于视频动作识别的时空特征，如后期融合、早期融合和慢速融合。而且DeepVideo提出了一个观点:输入单个视频帧进入网络，和输入一组视频帧数据进入网络，表现一样。 这一观察结果可能表明，学习时空特征并不能很好地捕捉运动。

(2) Two-stream networks

这个方法主要是找到一个方法去描述帧与帧之间的时间关系。 Optical flow。 这是一个有效描述目标移动的方法。精确地说，它是由观察者和场景之间的相对运动引起的视觉场景中对象、曲面和边的明显运动模式。因此这个方向，延伸出了一个框架: Two-stream networks，包括空间流和时间流，执行物体识别和运动识别。 基于此，衍生出了下列方法提升性能:

使用更深的网络结构
- 更深的网络可以获得更好的精度。
Two-stream 融合
- 分为late fusion 和 early fusion。研究表明，在模型学习期间，两个网络之间的早期交互可以使两个流都受益，这被称为早期融合。早期融合对两种流都有利于了解更丰富的功能并提高性能。
- 早期融合可以考虑how to perform spatial fusion (operators such as sum, max, bilinear, convolution和concatenation)，where to fuse the network，和how to perform temporal fusion (使用2Dh或者3D卷积融合)
使用RNN
- 因为视频是一个时间序列，因此可以使用RNN来进行动作识别，特别是使用LSTM。但这个网络使用了不同的two-stream 网络或者backbones。因此，使用RNN的方法之间的差异尚不清楚。
Segment-based 方法
- Optical flow能够捕捉帧与帧之间的short-term motion information。但是不能够捕捉long-range temporal information。
- 主要工作是TSN。TSN 首先把整个视频分割成多个分段，其中分段是沿时间维度均匀分布的。然后TSN在每个分段中，随机选择一个视频帧，然后把他们输入到网络。这里的网络是对来自所有分段中的输入帧共享权重的。紧接着会使用一个segmental consensus操作，如 (average pooling, max pooling和bilinear encoding) 进行融合。以这样的方式，TSN可以捕获long-range temporal information，因为模型可以看到整个视频的内容。除此之外，sparse sampling 策略降低了训练成本同时保留了相关的信息。
- 由于TSN的有效性，后面的two-stream 方法都是基于segment-based two-stream networks。
Multi-stream 网络
- 其他的因素可以提升视频动作识别的性能，比如pose, object, audio和深度等等。

(3) 使用3D CNNs

预计算optical flow计算量大，存储要求高，不利于大规模训练或实时部署。 然后有研究提出使用3D tensor，包括两个空间维度和一个时间维度。

但是3D网络很难以优化。为了训练3D卷积核，通常需要大规模的数据集。但从2017年后，出现了I3D，將video clip作为输入，然后放进stacked 3D convolutional layers。video clip是视频帧的一个序列，通常是16或者32帧。主要的贡献有两个:

调整image classification 结构，适用于使用3D CNN。
对于模型权重，它采用了一种初始化光流网络的方法，将ImageNet预先训练的2D模型权重膨胀到3D模型中的对应权重。

值得注意的是，并不是说3D CNNs替代了two-stream networks。它们只是用不同的方式去对时间信息进行建模。进一步来说，two-stream 方法是一个经典的框架。有研究用I3D结构和temporal stream进行结合，可以获得更好的性能。但是I3D的贡献并不是使用了optical flow。

在3D cnn中，可以通过叠加多个短时间卷积（例如，3×3×3滤波器）来实现长距离时间连接。然而，有用的时间信息可能会在深度网络的后期丢失，特别是对于相距很远的帧。为了进行远程时间建模，经典的引入了新的building block，Non-local。Non-local类似于self-attention。如下图所示，在residual blocks之后，使用non-local模块来捕捉在空间和时间维度上的long-range dependence。

在3D CNNs中，使用channel-wise separable convolution可以提高模型的速度，同时能达到很好的精度。除此之外，SlowFast通过设计网络框架为两个路径，一个slow path 和 fast path，提升速度。因为fast pathway可以使用非常轻量化的模型，通过降低其channel capacity，所以整体效率提升很大。

(4) compute-efficient 模型

如果使用two-stream 网络，就需要预计算出optical flow，然后保存在本地。但是这里有个缺点就是，数据量很大。如此大量的数据，使得在训练的时候，I/O口就是瓶颈，导致了GPU资源的浪费和更长的实验周期。除此之外，预计算optical flow并不容易，也就是说。所有的two-stream 网络方法都不是实时的。

如果使用3D CNNs的方法，就会发现模型很难训练以及很难去部署。而且3D CNNs需要更多的视频帧作为输入，增加了I/O的花销。

所以从2018年开始，研究人员就开始寻找提升精度和效率的方法。

Flow-mimic 方法
two-stream网络的一个缺点是需要optical flow。而预计算optical flow是计算成本昂贵的，存储要求大的，并且不是end-to-end训练。这个方向的工作有MotionNet， PAN， MotionSqueeze。
Temporal modeling without 3D convolution
一个简单而自然的选择是使用三维卷积来模拟帧之间的时间关系。然而，要实现这一目标，还有很多选择。 STM, TEA等工作。

(5) 对帧之间时间关系的建模的一些其他的方法

Trajectory-based methods
Rank pooling
Compressed video action recognition
Frame/Clip sampling
Visual tempo

4. Evaluation and Benchmarking

(1) 数据集比较

分为三种数据集

Scene-focused 数据集: UCF101, HMDB51。模型表现如下:

第一个是optical flow two-stream的方式。第二个是3D CNNs的方法。第三种是Compute-efficiency的模型。Compute-efficiency
Motion-Focused 数据集: Something-Something

使用较长的输入，比如16帧通常效果会比较好。TSM，TEA，MSNet插入了一个temporal reasoning module在2D ResNet backbone上，性能达到SOTA。
Multi-label datasets: Charades

上图可以看出，3D 通常比2D 模型较好。其次，更长的输入会有助于识别。第三，有一个强的backbones通常会有一个较好的性能。

(2) 速度比较

考虑四个部分:

参数量
FLOPS
latency
frame per second

FLOPS和实际的推理速度(latency)关联不大。2D的模型通常比3D模型速度快。

5. Future work

有下面几个方向可以做:

Analysis and insights
Data augmentation:
数据增强在图像识别上已经有很多技术了，mixup，cutout，cutmix，autoaugment，fastaug等等。但是在video action recognition上，还是用着比较基础的数据增强，比如random resizing，random cropping和random horizontal flipping。近期SimCLR使用了color jettering 和random rotation提升了模型性能。所以这也是一个方向。
Video domain adaptation
Neural architecture search
Efficient model development:
目前大多数方法都是offline settings，意味着输入是short video clip，并不是video stream in online setting。其次，大多数方法没有达到实时性。第三，3D卷积的不适应性或者说非标准算子在没有GPU的平台上部署。
New datasets
Video adversarial attack
Zero-shot action recognition
Weakly-supervised video action recognition
Fine-grained video action recognition
Egocentric action recognition
Multi-modality
Self-supervised video representation learning

四、 Conclusion

视频动作识别的综述。

Reference

本文标签：笔记论文 Deep Study Comprehensive

版权声明：本文标题：A Comprehensive Study of Deep Video Action Recognition 论文笔记内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1725896949a1047760.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

A Comprehensive Study of Deep Video Action Recognition 论文笔记

A Comprehensive Study of Deep Video Action Recognition

一、 Problem Statement

二、 Direction

三、 Method

1. 数据集

2. 动作识别的挑战

3. 动作识别的研究

(1) 从hand-crafted特征到CNNs。

(2) Two-stream networks

(3) 使用3D CNNs

(4) compute-efficient 模型

(5) 对帧之间时间关系的建模的一些其他的方法

4. Evaluation and Benchmarking

(1) 数据集比较

(2) 速度比较

5. Future work

四、 Conclusion

Reference

更多相关文章

[网络安全提高篇] 一一三.Powershell恶意代码检测 (1)论文总结及抽象语法树（AST）提取

狂神说docker(最全笔记）

华为_网络工程师_初级笔记（完整版）

【哈佛积极心理学笔记】第6讲 乐观主义

APMCM（亚太地区数模竞赛）2014年-A题：Routine Scheme for UAVs Surveillance（附获奖论文）

Python数据分析笔记groupbycontact reset_index

不用再找了，吐血整理ChatGPT 论文指令手册~

不用再找了，吐血整理 ChatGPT 论文润色、降重、写作指令手册~ 【2024年 更新】

亲测好用，ChatGPT 3.54.0新手使用手册~ 【论文润色、降重、扩写指令】

论文阅读——Reduce Information Loss in Transformers for Pluralistic Image Inpainting-CVPR 2022

【Matlab笔记1】安装matlab 2016a win64系统

QQ邮箱登录PC布局实战笔记四

个人笔记-本地WIN10搭建Minecraft服务器

（笔记）Chrome浏览器&amp;基于Chromium内核的浏览器 解决卡顿的方法

13天Java进阶笔记-day11-网络编程和NIO

Linux 学习包括但不限于linux使用问题笔记

超详细的免费下载论文方法

【论文笔记】—低照度图像增强—ZeroShot—RUAS网络—2021-CVPR

脑肿瘤分割论文打卡2：E1D3 U-Net for Brain Tumor Segmentation

一口气了解大模型相关通识，基础笔记！

发表评论

推荐文章

linux可以救windows电脑吗,连win7都无法拯救？轻量级Linux LXLE，安装10分钟，旧电脑克星！...

Netflix competition 总结学习

ubuntu系统制作ext4格式U盘

chrome浏览器手动添加cookie

电脑每次重启都提示AMD显卡错误“No AMD graphics driver is......”解决方法

热门文章

SEVERE: Could not contact localhost:8005. Tomcat may not be running. Connection refused (Connection

计算机ctrl加什么作用,计算机中快捷键ctrl加什么是返回上一步

Big data: The next frontier for innovation, competition, and productivity

Window查看系统激活状态

proxmox ve win7windows7安装过程分享

飞信登陆不了显示服务器,飞信无法登陆怎么办？飞信登陆不上解决方法

计算机电源高效率模式,Windows7的三种电源模式对硬件工作频率的影响

“AMD Software提示和驱动程序版本不匹配？” ——Win10自动更新降级覆盖AMD驱动的解决方法

amd显卡测试帧数显示软件,NVIDIA发布帧数显示及显卡基准测试应用FrameView

Diffblue Cover AI Java：Difflane如何利用Diffblue Cover AI实现Java自动化的单元测试（Diffblue Cover快速入门）

最新文章

win10下JDK环境变量配置与IDEA开发工具清晰简洁步骤，迈出Java学习第一步

网络协议一 ： 搭建tomacat，intellij IDEA Ultimate 的下载，安装，配置，启动, 访问

关于CH340驱动安装的种种问题的最终稳妥解决办法

Windows server 2008学习资料

idea永久使用

设备通话解决方案-voip小程序音视频通话

Java集成开发环境（IDE）之 =＞ “IntelliJ IDEA“ 安装

我为博客园打造的全新版windows phone Pre-Beta[有图]

什么是3A游戏 Mac能玩的3A游戏大作推荐 苹果笔记本电脑玩3A游戏 黑神话悟空是3a游戏吗

2021年山东省职业院校技能大赛高职组“信息安全管理与评估”样题

IntelliJ IDEA安装

基于Springboot微信小程序的商城设计与实现-附源码191145

全网最详细安装 IntelliJ IDEA （原理+方法）看了不后悔

前后端分离项目

Diffblue Cover AI Java：Difflane如何利用Diffblue Cover AI实现Java自动化的单元测试（Diffblue Cover快速入门）

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

【哈佛积极心理学笔记】第6讲乐观主义

不用再找了，吐血整理 ChatGPT 论文润色、降重、写作指令手册~ 【2024年更新】

（笔记）Chrome浏览器&基于Chromium内核的浏览器解决卡顿的方法

网络协议一：搭建tomacat，intellij IDEA Ultimate 的下载，安装，配置，启动, 访问

什么是3A游戏 Mac能玩的3A游戏大作推荐苹果笔记本电脑玩3A游戏黑神话悟空是3a游戏吗

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载