语义分割的数据集分为三类:2D图片,2.5D图片(RGB-D),3D图片。每一个类别的数据集都提供了像素级的标签,可以用来评估模型性能。同时其中一部分工作用到了数据增强来增加标签样本的数量。

一、2D数据

1.PASCAL Visual Object Classes(VOC)

VOC数据集是计算机视觉主流数据集之一,可以作分类,分割,目标检测,动作检测和人物定位五类任务数据集,其中包含21个类及其标签:车辆,房屋,动物、飞机、自行车、船、公交车、小汽车、摩托车、火车、瓶子、椅子、餐桌、盆栽植物、沙发、电视、鸟、猫、牛、狗、马、羊和人。

整个数据集分成两个部分,训练集和验证集。

https://pan.baidu.com/s/1TdoXJP99RPspJrmJnSjlYg#list/path=%2F 提取码:jz27

2.PASCAL Context

PASCAL Context是VOC 2010的拓展,带有所有训练图像的像素级标签。它包含超过400中类别。因为里面有一些类别的数据集比较稀少,故常用其中59个类别的数据集用于训练网络。

具体的操作详见:https://blog.csdn.net/qq_28869927/article/details/93379892

3. Microsoft Common Objects in Context (MS COCO)

MS COCO是另一个大规模物体检测,分割及文字定位数据集。该数据集包含众多类别,以及大量的标签。

丢个详细介绍链接和下载链接:https://blog.csdn.net/qq_41185868/article/details/82939959

4.Cityscapes

Cityscapes是另一个大规模数据集,其关注于城市街景的语义理解。它包含了一组来自50个城市的街景的不同的立体视频序列,有5k帧的高质量像素级标注,还有一组20k的弱标注帧。

它包括30个类别的语义和密集像素标注,分为8个类别:平面、人、车辆、建筑、物体、自然、天空和虚空。

丢个链接:https://blog.csdn.net/zz2230633069/article/details/84591532

5.ADE20K/MIT Scene Parsing(SceneParse150)

ADE20K/MIT Scene Parsing(SceneParse150)为场景分割算法提供了标准的训练和评估平台。数据来自于ADE20K,其包含25000多张图片。

丢个官网链接:http://groups.csail.mit.edu/vision/datasets/ADE20K/

6.SiftFlow

SiftFlow包含2688张用LabelMe标注的数据集。一共有33个用于语义分割的类别,其中分辨率为256*256的图片包含8种不同的户外场景。

丢个论文链接:http://people.csail.mit.edu/celiu/SIFTflow/

7.Stanford background

该数据集包含从现有公共数据集中选择的715个图像,包含标签种类:天空,树,道路,草,水,建筑物,山脉和前景物体。

丢个链接:http://dags.stanford.edu/projects/scenedataset.html

8.Berkeley Segmentation Dataset(BSD)

BSD数据集由彩色图和灰度图组成,共300张(现在增加到500张)。被分成两个部分,其中200张是训练集,100张是测试集。

链接:https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/segbench/

9.Youtube-Objects

这个数据集来自于YouTube网站上的视频数据。数据集的图片像素为480*360,共计10167张图片。

链接链接:https://data.vision.ee.ethz.ch/cvl/youtube-objects/

10.KITTI

KITTI主要用于机器人和自动驾驶,其中包含很多视频。由车辆传感器采集,一开始并不是做语义分割的,后来经过众人努力,其标记图片众多,可用于语义分割。

丢个详细介绍链接:https://blog.csdn.net/Solomon1558/article/details/70173223

 

 

二、2.5D数据

1.NYU-D V2

包含1449有标签和补全深度的图片。

丢个详细介绍链接: https://www.jianshu.com/p/07382200b0b9

2.SUN-3D

SUN-3D是一个大规模的RGB-D视频数据集包含41个不同建筑254个不同空间的415个序列。

链接:http://sun3d.cs.princeton.edu/

3.SUN RGB-D

它由四个不同的传感器捕获,包含10,000张RGB-D图像,其规模类似于PASCAL VOC。整个数据集被密集地注释,包括146,617个2D多边形和58,657个具有精确对象方向的3D包围盒,以及3D房间场景的分类和布局

链接:http://rgbd.cs.princeton.edu/

4.UW RGB-D Object Dataset

UW RGB-D对象数据集包含使用Kinect 3D摄像机记录的300个常见家庭对象。这些对象被组织成51个类别,使用WordNet超镜像-下镜像关系(类似于ImageNet)进行排列。该数据集是使用Kinect 3D摄像机记录的,该摄像机记录同步和对齐的640×480像素RGB和深度图像,频率为30赫兹,该数据集还包括8个注释的视频序列的自然场景。

链接:http://rgbd-dataset.cs.washington.edu/dataset/

5.ScanNet

ScanNet是RGB-D视频数据,包含1500多个室内场景。共21个类别的对象(0-20,总共已知类别应该是20,类别0应该是未知类别,即未标注点云),其中,1201个场景用于训练,312个场景用于测试。

丢个链接:http://www.scan-net.org/

 

三、3D数据

3D数据主要用于机器视觉,医疗图像分析,3D传感器分析等众多领域。

1.Stanford 2D-3D

该数据集包含2D、2.5D和3D数据集,并且都进行了实例级别的标注。其中包含6个室内区域场景,超过70000张RGB-D图像。

链接:https://cvgl.stanford.edu/

2.ShapeNet Core

ShapeNet Core是ShapeNet数据集的子集。其中包含55个常见物体类别,大约51300张3D图片。

链接: https://blog.csdn.net/Hansry/article/details/83897539

3.Sydney Urban Objects Dataset(悉尼城市目标数据集)

这个数据集包含现代街景,共有631张街景图片包含车辆,行人,标语和树木。

链接:http://www.acfr.usyd.edu.au/papers/SydneyUrbanObjectsDataset.shtml

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐