视频动作识别、行为识别、时空动作检测数据集整理（持续更新）

动作、行为、事件在计算机视觉的相关研究中，人体的动作、行为识别是一个基础研究问题。但目前识别、检测人类的动作/行为仍然是一个巨大的挑战。这里整理下当前相关的细分任务、数据集和开源代码（持续更新中）。

文章共4,393字 · 阅读需要大约15分钟

一键AI生成摘要，助你高效阅读

问答

虾米小馄饨

22400人浏览 · 2021-02-22 23:04:00

虾米小馄饨 · 2021-02-22 23:04:00 发布

引言

在计算机视觉的相关研究中，人体的动作、行为识别是一个基础研究问题。但目前识别、检测人类的动作/行为仍然是一个巨大的挑战。这里整理下当前相关的细分任务、数据集和开源代码（更新至2021年2月份）。

动作识别、动作检测相关任务

Action Recognition/Classification 动作识别
https://paperswithcode.com/task/action-classification
Skeleton Based Action Recognition 基于骨架的动作识别
https://paperswithcode.com/task/skeleton-based-action-recognition
Activity Recognition 行为识别
Temporal Action Detection 时域动作检测
Spatial Temporal Action Detection 时空动作检测，同一时刻多人不同动作的场景
Video Classification
https://paperswithcode.com/task/video-classification

动作识别 vs. 行为识别

动作识别一般比行为识别的表达粒度更细，侧重一个单一的动作模式，而行为的范畴更广，可能是多个人、多个动作的组合，构成一个行为。
当前大多数据集没有对动作、行为进行严格的区分，通过对数据集中的视频片段或视频片段中的目标分配一个标签，类似图像分类器。
而且现在的算法大多是用深度学习来提取时序特征，所以并未关注具体的动作/行为在空间、时间维度上模式的区别。

相关数据集¹

视频理解数据集对比

从规模和数量上对比，当前主流数据集比较如下图²：
在这里插入图片描述

可以看出，从数据集的样本规模、每个类别的数量、覆盖的目标和场景数量来说，当前数据最丰富的是Moments，其次是Kinetics、AVA、Something、Charades，现在这几个数据集用的比较多。

从标注信息的角度来说，当前主流数据集比较如下图³：
在这里插入图片描述

当前HVU在语义标注方面，包含场景、对象、动作、事件、属性和概念类别，比其他数据集的标注角度更多。

动作/行为识别数据集 Action Recognition /Classification

Kinetics-[400/600/700] 数据集

[link] [CVPR’2017]

视频来源于YouTube，一共有400/600/700个类别，每个类别至少600个视频以上，每段视频持续10秒左右，数据集很大。
类别主要分为三大类：人与物互动，比如演奏乐器；人人互动，比如握手、拥抱；运动等。即person、person-person、person-object。

Something-Something V1/V2 数据集

[V1 link] (ICCV’2017)
[V2 link]

该数据集收集了人类对日常物体执行预定义的基本动作。

视频总数 220,847
训练集 168,913
验证集 24,777
测试集（不带标签） 27,157
标签 174

在这里插入图片描述

Charades 数据集

[link] [ECCV2016]
通过Amazon Mechanical Turk收集的日常室内活动视频组成的数据集。Charades比Kinetics数据集中的人类行为持续时间更长。

数据集包含：
157个动作类别的66,500个时间注释
46个物体类别的41,104个标签
27,847个视频的文本描述。

在这里插入图片描述

Moments in Time 数据集

[link] [TPAMI’2019]
当前最大的动作识别数据集。
数据集包括一百万个带有标签的3秒视频集，涉及人，动物，物体或自然现象。

在这里插入图片描述

HVU 大规模视频理解数据集

[link] [ECCV’2020]

多标签、多任务。HVU数据集可以用来进行三类任务：
1.) Video classification
2.) Video captioning
3.) Video clustering tasks.
数据集包含57万多个视频，9百万个标注，3142个类别。
任务类别分为：场景、目标、动作、事件、属性、概念等多个维度。

Jester 手势数据集

[link] (ICCV’2019)
该数据集收集了人类在笔记本电脑摄像头或网络摄像头前执行预定义的手势。
在这里插入图片描述

视频总数 148,092
训练套 118,562
验证集 14,787
测试仪（不带标签） 14,743
标签 27

FineGym 数据集

[link] (CVPR’2020)

FineGym数据集：这是一个基于体育馆视频的新数据集。与现有的动作识别数据集相比，FineGym在丰富性，质量和多样性方面均卓著。特别是，它使用三级语义层次结构在动作和子动作级别提供时间注释。
例如，“平衡木”该事件将被注释为一系列基本子动作的序列，这些子动作来自五组： “飞跃”，“光束转向”，“飞行萨尔托”，“飞行手形”和“下马”，其中子每个集合中的动作将进一步使用定义良好的类标签进行注释。
这种新的粒度级别为动作识别提出了重大挑战，例如，如何从连贯动作中解析时间结构，以及如何区分细微不同的动作类别。

在这里插入图片描述

FineGym分层组织了语义和时间注释。
上部显示了三个类别的分类标签，即事件（例如平衡木），集合（例如下马）和元素（例如向前塞入的萨尔托）。
下部描述了两级时间注释，即动作（在顶部栏中）和子动作实例（在底部栏中）的时间边界。

在这里插入图片描述

ActivityNet

[link] (CVPR’2015)
涵盖人们日常生活中感兴趣的各种复杂的人类行为。ActivityNet可用于比较人类行为理解算法的三种情况：全局视频分类，修剪后的行为分类和行为检测。

ActivityNet 200 (Release 03-2016)

200 activity classes
10,024 training videos (15,410 instances)
4,926 validation videos (7,654 instances)
5,044 testing videos (labels withheld)

ActivityNet 100 (Release 10-2015)

100 activity classes
4,819 training videos (7,151 instances)
2,383 validation videos (3,582 instances)
2,480 testing videos (labels withheld)

UCF101 数据集

[link] [paper](CRCV-IR-12-01)

这个数据集比较经典，在最新的论文中已经用的比较少了。

来自101个动作类别的13320个视频，在动作方面具有较大多样性。
分为以下五种类型。

Human-Object Interaction
Body-Motion Only
Human-Human Interaction
Playing Musical Instruments
Sports

在这里插入图片描述
大部分视频片段在2-10秒以内

UCF101数据集下载地址：
http://crcv.ucf.edu/data/UCF101/UCF101.rar

UCF101动作识别（ Action Recognition）的训练/测试集下载地址：
http://crcv.ucf.edu/data/UCF101/UCF101TrainTestSplits-RecognitionTask.zip

UCF101动作检测（ Action Detection）的训练/测试集下载地址：http://crcv.ucf.edu/data/UCF101/UCF101TrainTestSplits-DetectionTask.zip

HMDB51 数据集

[link] [ICCV’2011]

数据集包含6849个剪辑，分为51个动作类别，每个类别至少包含101个剪辑。动作类别可以分为五种类型：

一般的面部动作微笑，大笑，咀嚼，交谈。
通过物体操纵进行面部动作：吸烟，进食，饮水。
全身动作：车轮，拍手，攀爬，爬楼梯，潜水，掉在地板上，反手翻转，倒立，跳跃，向上拉，向上推，奔跑，坐下，坐下，翻筋斗，站起来，转身，步行，海浪。
与物体互动的身体动作：刷头发，抓，拔剑，运球，打高尔夫球，击球，踢球，捡，倒，推东西，骑自行车，骑马，射击球，射击弓箭，射击枪，挥杆棒球棒，剑术，扔。
与人体互动的身体动作：击剑，拥抱，踢人，亲吻，拳打，握手，打剑。

在这里插入图片描述

时域动作检测数据集 Temporal Action Detection

ActivityNet

[link] (CVPR’2015) 同上

THUMOS14

[link] (THUMOS Challenge 2014)
在这里插入图片描述

时空动作检测数据集 Spatial Temporal Action Detection

AVA (Atomic Visual Actions)数据库

[link] [CVPR’2018]

谷歌发布的AVA (Atomic Visual Actions)数据库，意思是“原子视觉动作”，这一新数据集为扩展视频序列中的每个人打上了多个动作标签。
AVA数据集由YouTube公开视频的URL组成，这些视频被80个原子动作标注，例如走路，踢东西，握手等，所有动作都具有时空定位，产生5.76万个的视频片段，9.6万个人类动作，以及21万个的动作标签。 ⁴

JHMDB(Joint-annotated Human Motion Data Base)

[link] [ICCV’2013]
在这里插入图片描述

数据集包括：

• 21 classes
• one main actor
• 928 clips
• 15+ frames / clip
• 31,838 frames
• 240 x 320 pixels

标注内容还包括：

每个剪辑的动作标签
每个剪辑的meta标签（摄像机运动，可见的身体部位，摄像机视点，人数，视频质量）

开源代码

mmaction2

[github]
open-mmlab出品，包含以下方法的pytorch实现：

Action Recognition:

TSN (ECCV’2016)
TSM (ICCV’2019)
TSM Non-Local (ICCV’2019)
R(2+1)D (CVPR’2018)
I3D (CVPR’2017)
I3D Non-Local (CVPR’2018)
SlowOnly (ICCV’2019)
SlowFast (ICCV’2019)
CSN (ICCV’2019)
TIN (AAAI’2020)
TPN (CVPR’2020)
C3D (CVPR’2014)
X3D (CVPR’2020)
OmniSource (ECCV’2020)
MultiModality: Audio (ArXiv’2020)
TANet (ArXiv’2020)