语义分割常用数据集整理

语义分割的数据集分为三类：2D图片，2.5D图片（RGB-D），3D图片。每一个类别的数据集都提供了像素级的标签，可以用来评估模型性能。同时其中一部分工作用到了数据增强来增加标签样本的数量。一、2D数据1.PASCAL Visual Object Classes（VOC）VOC数据集是计算机视觉主流数据集之一，可以作分类，分割，目标检测，动作检测和人物定位五类任务数据集，其中包含21个类及其标签：

文章共1,906字 · 阅读需要大约7分钟

一键AI生成摘要，助你高效阅读

问答

interesting233333

19447人浏览 · 2020-09-18 10:22:16

interesting233333 · 2020-09-18 10:22:16 发布

语义分割的数据集分为三类：2D图片，2.5D图片（RGB-D），3D图片。每一个类别的数据集都提供了像素级的标签，可以用来评估模型性能。同时其中一部分工作用到了数据增强来增加标签样本的数量。

一、2D数据

1.PASCAL Visual Object Classes（VOC）

VOC数据集是计算机视觉主流数据集之一，可以作分类，分割，目标检测，动作检测和人物定位五类任务数据集，其中包含21个类及其标签：车辆，房屋，动物、飞机、自行车、船、公交车、小汽车、摩托车、火车、瓶子、椅子、餐桌、盆栽植物、沙发、电视、鸟、猫、牛、狗、马、羊和人。

整个数据集分成两个部分，训练集和验证集。

https://pan.baidu.com/s/1TdoXJP99RPspJrmJnSjlYg#list/path=%2F 提取码：jz27

2.PASCAL Context

PASCAL Context是VOC 2010的拓展，带有所有训练图像的像素级标签。它包含超过400中类别。因为里面有一些类别的数据集比较稀少，故常用其中59个类别的数据集用于训练网络。

具体的操作详见：https://blog.csdn.net/qq_28869927/article/details/93379892

3. Microsoft Common Objects in Context (MS COCO)

MS COCO是另一个大规模物体检测，分割及文字定位数据集。该数据集包含众多类别，以及大量的标签。

丢个详细介绍链接和下载链接：https://blog.csdn.net/qq_41185868/article/details/82939959

4.Cityscapes

Cityscapes是另一个大规模数据集，其关注于城市街景的语义理解。它包含了一组来自50个城市的街景的不同的立体视频序列，有5k帧的高质量像素级标注，还有一组20k的弱标注帧。

它包括30个类别的语义和密集像素标注，分为8个类别:平面、人、车辆、建筑、物体、自然、天空和虚空。

丢个链接：https://blog.csdn.net/zz2230633069/article/details/84591532

5.ADE20K/MIT Scene Parsing（SceneParse150）

ADE20K/MIT Scene Parsing（SceneParse150）为场景分割算法提供了标准的训练和评估平台。数据来自于ADE20K，其包含25000多张图片。

丢个官网链接：http://groups.csail.mit.edu/vision/datasets/ADE20K/

6.SiftFlow

SiftFlow包含2688张用LabelMe标注的数据集。一共有33个用于语义分割的类别，其中分辨率为256*256的图片包含8种不同的户外场景。

丢个论文链接：http://people.csail.mit.edu/celiu/SIFTflow/

7.Stanford background

该数据集包含从现有公共数据集中选择的715个图像，包含标签种类：天空，树，道路，草，水，建筑物，山脉和前景物体。

丢个链接：http://dags.stanford.edu/projects/scenedataset.html

8.Berkeley Segmentation Dataset(BSD)

BSD数据集由彩色图和灰度图组成，共300张（现在增加到500张）。被分成两个部分，其中200张是训练集，100张是测试集。

链接：https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/segbench/

9.Youtube-Objects

这个数据集来自于YouTube网站上的视频数据。数据集的图片像素为480*360，共计10167张图片。

链接链接：https://data.vision.ee.ethz.ch/cvl/youtube-objects/

10.KITTI

KITTI主要用于机器人和自动驾驶，其中包含很多视频。由车辆传感器采集，一开始并不是做语义分割的，后来经过众人努力，其标记图片众多，可用于语义分割。

丢个详细介绍链接：https://blog.csdn.net/Solomon1558/article/details/70173223

二、2.5D数据

1.NYU-D V2

包含1449有标签和补全深度的图片。

丢个详细介绍链接: https://www.jianshu.com/p/07382200b0b9

2.SUN-3D

SUN-3D是一个大规模的RGB-D视频数据集包含41个不同建筑254个不同空间的415个序列。

链接：http://sun3d.cs.princeton.edu/

3.SUN RGB-D

它由四个不同的传感器捕获，包含10,000张RGB-D图像，其规模类似于PASCAL VOC。整个数据集被密集地注释，包括146,617个2D多边形和58,657个具有精确对象方向的3D包围盒，以及3D房间场景的分类和布局

链接：http://rgbd.cs.princeton.edu/

4.UW RGB-D Object Dataset

UW RGB-D对象数据集包含使用Kinect 3D摄像机记录的300个常见家庭对象。这些对象被组织成51个类别，使用WordNet超镜像-下镜像关系(类似于ImageNet)进行排列。该数据集是使用Kinect 3D摄像机记录的，该摄像机记录同步和对齐的640×480像素RGB和深度图像，频率为30赫兹，该数据集还包括8个注释的视频序列的自然场景。

链接：http://rgbd-dataset.cs.washington.edu/dataset/

5.ScanNet

ScanNet是RGB-D视频数据，包含1500多个室内场景。共21个类别的对象（0-20，总共已知类别应该是20，类别0应该是未知类别，即未标注点云），其中，1201个场景用于训练，312个场景用于测试。

丢个链接：http://www.scan-net.org/

三、3D数据

3D数据主要用于机器视觉，医疗图像分析，3D传感器分析等众多领域。

1.Stanford 2D-3D

该数据集包含2D、2.5D和3D数据集，并且都进行了实例级别的标注。其中包含6个室内区域场景，超过70000张RGB-D图像。

链接：https://cvgl.stanford.edu/

2.ShapeNet Core

ShapeNet Core是ShapeNet数据集的子集。其中包含55个常见物体类别，大约51300张3D图片。

链接: https://blog.csdn.net/Hansry/article/details/83897539

3.Sydney Urban Objects Dataset（悉尼城市目标数据集）

这个数据集包含现代街景，共有631张街景图片包含车辆，行人，标语和树木。

链接：http://www.acfr.usyd.edu.au/papers/SydneyUrbanObjectsDataset.shtml

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

【目标检测】目标检测的一些常用神经网络模型及方法

我的阶段性总结????文章目录1.概述1.2 目标检测的任务1.3 目标检测的分类2.R-CNN系列2.1 [R-CNN（Region with CNN features）](https://arxiv.org/pdf/1311.2524.pdf)2.2 [Fast R-CNN](https://www.cv-foundation.org/openaccess/content_iccv_2015/