NTU-RGB+D数据集

NTU-RGB+D（60）数据集论文连接：NTU-RGB+D一、基本介绍该数据集包含60个种类的动作（见表1），共56880个样本，其中有40类为日常行为动作，9类为与健康相关的动作，11类为双人相互动作。这些动作由40个年龄从10岁到35岁的人完成。该数据集由微软 Kinect v2传感器采集得到，并且使用了三个角度不同的摄像机，采集的数据形式包括深度信息、3D骨骼信息、RGB帧以及红外序列。表

文章共1,156字 · 阅读需要大约4分钟

一键AI生成摘要，助你高效阅读

问答

秃头·李

34242人浏览 · 2020-12-27 10:50:23

秃头·李 · 2020-12-27 10:50:23 发布

NTU-RGB+D数据集

论文连接：NTU-RGB+D

一、基本介绍

该数据集包含60个种类的动作（见表1），共56880个样本，其中有40类为日常行为动作，9类为与健康相关的动作，11类为双人相互动作。这些动作由40个年龄从10岁到35岁的人完成。该数据集由微软 Kinect v2传感器采集得到，并且使用了三个不同角度的摄像机，采集的数据形式包括深度信息、3D骨骼信息、RGB帧以及红外序列。

表1 动作种类

在这里插入图片描述

二、两个评价准则

NTU数据集在划分训练集和测试集时采用了两种不同的划分标准。

1、Cross-Subject

Cross-Subject按照人物ID来划分训练集和测试集，训练集40320个样本，测试集16560个样本，其中将人物ID为 1, 2, 4, 5, 8, 9, 13, 14, 15,16, 17, 18, 19, 25, 27, 28, 31, 34, 35, 38的20人作为训练集，剩余的作为测试集。

2、 Cross-View

按相机来划分训练集和测试集，相机1采集的样本作为测试集，相机2和3作为训练集，样本数分别为18960和37920。
说到相机就不得不说相机的设置规则，三个相机，相机的垂直高度都是一样的，水平角度分别为-45°、0°和45°，每个动作执行人做两遍相同的动作，一个次对着左边的相机，一次对着右边的相机，也就是说最后会采集到2×3个不同角度的信息。最后，设置不同的相机高度及距离以增加视角多样性，并赋予一个设置号（1-17），见表2。

表2 设置号

在这里插入图片描述

三、NTU的骨架坐标数据集

由于笔者的研究方向是基于骨架的动作识别，所以主要和读者分享NTU中骨架数据集的相关内容，其他形式的数据集读者可进入NTU-RGB+D论文中了解更多的内容。
NTU采集到的骨架点共25个，如下图所示。
在这里插入图片描述

1、文件命名方式

首先，数据集中有56880个.skeleton文件，每个文件代表一个样本，文件命名方式如下图所示。
在这里插入图片描述
S后面跟的是设置号（1-17），正如表2所示
C后面跟的是相机ID（1-3）
P后面跟的是人物ID（1-40）
R后面跟的是动作执行的遍数（1-2）
A后面跟的是动作的分类（1-60）

2、数据的格式

可以用excel打开文件，里面的内容如下所示。
在这里插入图片描述
第1行为该样本的帧数
第2行为执行动作的人数
第3行共有10个数据分别代表'bodyID', 'clipedEdges', 'handLeftConfidence','handLeftState', 'handRightConfidence', 'handRightState','isResticted', 'leanX', 'leanY', 'trackingState'
第4行代表关节点数
第5-29行为25个关节点的信息，每个关节点有12个数据，分别代表'x', 'y', 'z', 'depthX', 'depthY', 'colorX', 'colorY','orientationW', 'orientationX', 'orientationY','orientationZ', 'trackingState'
以上为一帧的信息，其他帧都是上述表示方式。