人工智能数据集（资源篇）（更新于2020.11.27）

记录机器学习、计算机视觉、自然语言处理、无人驾驶、医疗、金融、政府领域开源的数据集

文章共5,680字 · 阅读需要大约19分钟

一键AI生成摘要，助你高效阅读

问答

守望者白狼

8050人浏览 · 2019-01-07 15:24:12

守望者白狼 · 2019-01-07 15:24:12 发布

收藏：全网最大机器学习数据集，视觉、NLP、音频都在这了
 280万分割掩码，谷歌Open Images数据集再更新
 从图像中检测和识别表格，北航&微软提出新型数据集TableBank
人类穿着数据集3DPeople发布，微软建立人工智能商学院 | AI一周学术
数据集查找神器！100个大型机器学习数据集都汇总在这了 | 资源
 【收藏】8款大型机器学习数据集顶级资源

Graviti Open Dataset: Graviti 是一个提供公开数据集的平台，你可以很方便的搜索你想要的数据，可在线预览样例数据、标注、标签，对于国外的数据不需要“梯子”、可高速免费下载。

计算机视觉

自然语言处理

语音
::::::::::::::::::::::::::
GiantMIDI-Piano: 字节跳动发布全球最大的古典钢琴数据集. 数据集中筛选并转谱了来自 2,786 位作曲家的 10,854 部钢琴作品，不同曲目的总时长达到了 1,237 小时，是谷歌 MAESTRO 数据集的 14 倍，填补了计算机音乐领域一直缺少一个大规模的钢琴 MIDI 数据集的空白。用途包括但不限于音乐信息检索、自动作曲、智能音乐创作、计算机音乐学等。
SGD数据集：目前公开可用的、最大的任务型对话数据集。谷歌发布了新的SGD数据集，研究团队称，此数据集将会成为有效的测试平台，可用于意图预测，槽位填充，状态跟踪和语言生成以及大型虚拟助手的其他任务。另外，各研究者也可将其用于对话技术创新。
Piano-midi.de: 古典钢琴曲
Nottingham : 超过 1000 首民谣
MuseData: 古典音乐评分的电子图书馆
JSB Chorales: 四部协奏曲
2000 HUB5 English：最近在 Deep Speech 论文中使用的英语语音数据，从百度获取。
LibriSpeech：包含文本和语音的有声读物数据集。由多个朗读者阅读的近 500 小时的各种有声读物演讲内容组成，包含带有文本和语音的章节。
VoxForge：带口音的清晰英语语音数据集。适用于提升不同口音或语调鲁棒性的案例。
TIMIT：英语语音识别数据集。
CHIME：嘈杂的语音识别挑战数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个扬声器在 4 个嘈杂位置的近 9000 个录音构成，仿真录音由多个语音环境和清晰的无噪声录音结合而成。
TED-LIUM：TED 演讲的音频转录。1495 个 TED 演讲录音以及这些录音的文字转录。
Google Audioset：扩展了 632 个音频分类样本，并从 YouTube 视频中提取了 2，084，320 个人类标记的 10 秒声音片段。

无人驾驶
:::::::::::::::::::
nuScenes: 自动驾驶多模式数据集，针对多个自动驾驶场景下第一个拥有全自动驾驶传感器的数据集，包含六个相机、五部雷达与一部激光雷达，而且是360全景视图。用过1000个场景，每个场景8秒长的视频，包含标注的23类对象与8个属性类别的3D轮廓，比KITTI 数据集多七倍的标注信息与100倍的图像数据，拥有最大规模的3D标注框数据。
Waymo 自动驾驶数据库：最大、最丰富、最多样化的自动驾驶数据集之一。谷歌母公司 Alphabet 旗下的自动驾驶公司 Waymo 宣布开源他们团队的自动驾驶数据库，以帮助研究界在机器感知与自动驾驶技术方面实现突破。公开的数据集由 Waymo 自驾汽车在各种条件下采集的高度标注数据组成，包括了覆盖多个地点的 1000 个驾驶段上收集的数据。
Uber 2B trip data：首次展示 2 百万公里的出行数据。
Google-Landmarks-v2：谷歌开源的最大地标数据集包含500万张图片和200000个地标。
Uber 2B trip data：首次展示 2 百万公里的出行数据。
本田公布104小时驾驶行为数据集：本田最近与波士顿大学合作，公布了在旧金山湾区采集的104小时**驾驶行为数据集，总体积大约150GB。收集了包括GPS、图像、激光雷达、汽车导航、司机驾驶行为等方面的信息。
DBNet数据集：厦门大学 SCSC 实验室李军教授团队与上海交大 MVIG 实验室卢策吾教授团队联合发布大规模驾驶行为数据集。DBNet 是专为研究驾驶行为的策略学习而设置的。DBNet 数据集记录了视频、激光雷达点云，以及对应的资深驾驶员（驾龄超过 10 年）的真实驾驶行为。
KITTI：由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo)，光流(optical flow)，视觉测距(visual odometry)，3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡与截断。整个数据集由389对立体图像和光流图，39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成，以10Hz的频率采样及同步。
comma2k19：comma.ai 发布了 comma2k19, 这是加利福尼亚280高速公路上超过33小时通勤的数据集。这意味着在加利福尼亚州圣何塞和旧金山之间20公里的高速公路上行驶了2019段，每段1分钟。 comma2k19是一个完全可重现且可扩展的数据集。数据采用comma EONs收集，其传感器类似于任何现代智能手机，包括道路相机，手机GPS，温度计和9轴IMU。此外，EON还使用comma grey panda捕获原始GNSS测量值和汽车发送的所有CAN数据。
Berkeley DeepDrive BDD100k：这是目前最大的自动驾驶数据集。里面有超过 1,100 多个小时驾驶体验的视频，包含10 万个在一天中不同时段以及在不同天气条件下的数据。
百度 Apolloscapes：大型数据集，定义了26种不同的语义项，如汽车，自行车，行人，建筑物，路灯等。
Comma.ai：超过7个小时的高速公路驾驶视频。里面的数据包括汽车的速度、加速度、转向角和GPS坐标。
城市景观数据集：记录50个不同城市的城市街道场景的大型数据集。
CSSAD数据集：包含自动车辆的感知和导航等数据，但着重于发达国家的道路。
麻省理工学院AGE实验室（MIT AGE Lab:）：在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。
LISA：智能和安全汽车实验室，加州大学圣地亚哥分校数据集：该数据集包括交通标志，车辆检测，交通信号灯和轨迹模式。
博世小型交通灯数据集（Bosch Small Traffic Light Dataset）：用于深入学习的小交通灯数据集。
LaRa交通灯识别（LaRa Traffic Light Recognition）：巴黎交通灯的数据集。
WPI 数据集：交通灯、行人和车道检测的数据集。
牛津的机器人汽车：这个数据集来自牛津的机器人汽车，它于一年时间内在英国牛津的同一条路上，反反复复跑了超过100次，捕捉了天气、交通和行人的不同组合，以及建筑和道路工程等长期变化。
KUL比利时交通标志数据集：来自比利时法兰德斯地区数以千计的实体交通标志的超过10000条注释。
MIT AGE Lab：在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。

医疗
::::::::::::::::::::::::
MedMNIST: 上海交大发布的 MedMNIST 医学图像分析数据集。MedMNIST 是一个包含 10 个医学公开数据集的集合，且全部数据均已经过预处理，将其分为包括训练集、验证集、测试子集的标准数据集。数据来源包括 X 射线、OCT、超声、CT 等不同成像模式，得到了同一病灶的多模态数据。与 MNIST 数据集一样，MedMNIST 可以在轻量级 28*28 图像上执行分类任务。
COVID-CT 数据集：加州大学圣地亚哥分校UCSD、Petuum的研究者构建了一个开源的 COVID-CT 数据集，其中包含 275 个 COVID-19 检测呈阳性的 CT 图像，有助于使用深度学习方法分析病人的 CT 图像并预测其是否患有新冠的相关研究和开发。
欧盟传染病监测图集：
默克分子活动挑战：
Musk dataset: Musk dataset 描述了以不同构造出现的分子。每个分子都是 musk 或 non-musk，且其中一个构造决定了这一特性。
Health Data：可搜索的主题包括医疗设备、环境卫生、药物滥用、精神健康等等。
头部 CT 扫描数据集：491 次扫描的 CQ500 数据集。
CheXpert：斯坦福发布，内含224316X光胸部图片，共涉及65,240名患者。数据量级和标注精准度都非常高。标注了 14 种常见的胸部放射影像观察结果。
吴恩达医学影像数据集：含有4万张人体上肢端的X光片的数据集MURA，并用这个数据集训练CNN寻找并定位X光片的异常部分。数据集要等到2月才会公布，可以持续关注Stanford ML
MIMIC-CXR：斯坦福与麻省理工学院的联合发布，内含371,920张带标签的胸部X射线图片，数据量级和标注精准度都非常高
慢性病数据（Chronic disease data）：美国各地慢性病指标的数据。
MIMIC-III：MIT计算生理学实验室的公开数据集，标记了约40000名重症监护患者的健康数据，包括人口统计学、生命体征、实验室测试、药物等维度。

金融和经济
Quandl：里面有很多经济和金融数据，你可以使用这些数据建立预测经济指标或股价的模型。
世界银行开放数据（World Bank Open Data）：涵盖世界各地人口统计、大量经济和发展指标的数据集。
国际货币基金组织的数据（IMF Data）：国际货币基金组织公布关于国际金融、债务率、外汇储备、商品价格和投资的数据。
英国金融时报金融时报市场数据（Financial Times Market Data：）：里面有来自世界各地的最新金融市场信息，包括股票价格指数、商品和外汇。
谷歌趋势（Google Trends）：观察和分析有关互联网搜索活动和世界各地新闻故事趋势的数据。
美国经济协会(AEA)：这这里你可以找到美国宏观经济的相关数据。

公共政府数据集
Data USA: 最全面的可视化美国公共数据。地址：
欧盟性别统计数据库：
荷兰国家地质研究数据：
联合国开发计划署项目：
免费图像：免费图像来源列表以及列表中的所有数据
GitHub 上的 BuzzFeed News：提供了来自 Buzzfeed 的数据。如果你想了解 2016 年至 2018 年期间的假新闻，那么这个就是你的最佳选择。
Group Lens：很多关于书籍和电影的信息。
Five Thirty Eight：有关于政治、体育、科学、健康、经济和文化方面的数据。
Bureau of Labor Statistics：有关美国劳动力市场活跃度、工作条件和价格变化的数据。
Centers for Disease Control and Prevention：包括各种健康主题，可让你访问大量可浏览和可搜索的数据。
Pew Internet：社会学数据。
NASA 的 Earth Data：地球观测系统数据和信息系统包含了美国宇航局的地球观测数据，其中包含如 NC 地表温度和碳通量等信息。
Reddit：可以搜索数据集并查找提供信息和请求信息的人。总的来说，Reddit 也是一个寻找信息并了解行业趋势的好地方。
National Center for Environmental Information：涵盖地球物理学、大气和海洋数据。他们目前是世界上最大的气候和天气信息提供商。
Open Corporates：全球最大的公司开放数据集，可让你访问超过 1 亿家公司的信息。你可以按公司或高级职员进行搜索，并在需要的时候限制你的搜索范围。
Altmetric：提供每年发布的最具热度的前 100 篇文章。
The World Factbook：该数据集包含 267 个国家和地区的信息，这是一个数据宝库，每周更新一次有关全球的信息。
欧盟开放数据门户：
美国政府数据：
新西兰政府数据集：
印度政府数据集：
首个官方气象数据集公开，已训练出20多个“青出于蓝”的 AI
Data.gov：在这里可以下载到多个美国政府机构的数据。从政府预算到学校成绩。但要注意的是，很多数据还有待进一步研究。
食品环境地图集（Food Environment Atlas）：当地的食物选择如何影响美国饮食的数据。
学校系统财务状况（School system finances）：这里有美国学校系统财务状况的调查。
美国国家教育统计中心（The US National Center for Education Statistics）：来自美国和世界各地的教育机构和教育人口统计数据。
英国数据服务：英国最大的社会、经济和人口数据收集机构。
数据美国（Data USA）：全面的、可视化的美国公共数据。
国家统计局

CMU 动作抓取数据集：
Brodatz dataset：纹理建模。
来自欧洲核子研究中心的大型强子对撞机（LHC）的 300TB 高质量数据。
纽约出租车数据集：由 FOIA 请求而获得的纽约出租车数据，导致隐私问题。
Uber FOIL 数据集：来自 Uber FOIL 请求的纽约 4.5M 拾取数据。
Criteo 点击量数据集：来自欧盟重新定位的大型互联网广告数据集。
Deep Vs Shallow Comparison ICML2007：为实证评估深层架构而生成的数据集。
MnistVariations：在 MNIST 中引入受控变化。
RectanglesData：区分宽矩形和垂直矩形。
ConvexNonConvex：区分凸形和非凸形状。http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex
BackgroundCorrelation：嘈杂 MNIST 背景下相关度的控制地址：
Arcade Universe：一个人工数据集生成器，图像包含街机游戏 sprite，如 tetris pentomino / tetromino。该生成器基于 O. Breleux 的 bugland 数据集生成器。
以 Baby AI School 为灵感的数据集集合。
Baby AI Shapes Dataset：区分 3 种简单形状。
NEXRAD：美国大气层的多普勒雷达扫描图。
Landsat8：整个地球表面的卫星视角图，每隔几周更新一次。
OpenStreetMap：免费提供整个星球的矢量数据。它包含（旧版）美国人口普查局的数据。
微软恶意软件数据集：每一行数据都对应着一个MachineIdentifier，相当于设备ID，也都包含一个代表着真实值的标签HasDetections，显示这台设备有没有感染恶意软件。
Github 上的优秀公共数据集：
Data Portal：
Open Data Monitor：
Quandl Data Portal：