GigaSpeech：10000小时多领域英语开源数据集发布

原文链接地址：THUsatlab 清华大学语音与音频技术实验室文头膜拜：感谢各位大神无私奉献语音识别的性能，很大程度上取决于训练数据集的规模和覆盖性。现有的语音开源数据集适用领域狭窄，缺少难度挑战，准确率接近饱和。学术界和工业界研究开始分道扬镳，碎片化严重。作为目前全球最大的多领域英语开源数据集，GigaSpeech致力于推动学术界和产业界的共同进步。概述GigaSpeech是一个不断发展的、多领

郁闷的撞墙了

832人浏览 · 2021-07-06 12:11:41

郁闷的撞墙了 · 2021-07-06 12:11:41 发布

原文链接地址：THUsatlab 清华大学语音与音频技术实验室
文头膜拜：感谢各位大神无私奉献

语音识别的性能，很大程度上取决于训练数据集的规模和覆盖性。现有的语音开源数据集适用领域狭窄，缺少难度挑战，准确率接近饱和。学术界和工业界研究开始分道扬镳，碎片化严重。作为目前全球最大的多领域英语开源数据集，GigaSpeech致力于推动学术界和产业界的共同进步。

概述

GigaSpeech是一个不断发展的、多领域英语语音识别语料库。它拥有10000小时的高质量标注音频，适用于有监督训练任务；以及33000小时的总音频，适用于半监督和无监督训练任务。

数据来源及质量控制

从发音风格和覆盖主题入手，GigaSpeech从有声读物、播客和YouTube上收集了约33000小时的转录音频，以及对应的人工转录文本、人工字幕等，涵盖诵读和自发口语等一系列不同风格，以及艺术、科学、体育等多种主题。
在这里插入图片描述

在质量控制上，GigaSpeech提供一种新的强制对齐和分段处理pipeline工具，以创建适合ASR训练的句子段，并滤除低质量转录片段。对于有监督训练任务，GigaSpeech提供了5个不同规模的子集。在过滤验证环节，最大训练子集的词错误率控制在4%以下；其它较小规模的子集的词错误率控制在0%。

适用于有监督训练任务的数据子集详情

GigaSpeech提供了10小时、250小时、1000小时、2500小时和10000小时等5个不同规模的子集，以适用于有监督训练任务。详情如下表所示：
在这里插入图片描述

开发集和测试集

在这里插入图片描述

排行榜

为方便使用，GIgaSpeech为主流的ASR框架提供了baseline的训练脚本，并开放leaderboard排行榜，目前提供的系统包括Athena、Espnet、Kaldi、Pika、WeNet，后续还将继续更新与完善。
在这里插入图片描述

使用申请入口

GigaSpeech数据集已开放，欢迎大家使用。
申请入口：
https://forms.gle/UuGQAPyscGRrUMLq6
更多细节，请访问github链接：
https://github.com/SpeechColab/GigaSpeech
预印版论文地址（已被InterSpeech 2021接收）：
https://arxiv.org/abs/2106.06909