一、基本信息
数据集全名叫CSR-I (WSJ0) Complete。1991 年,DARPA 口语项目开始计划建立一个新的语料库,以支持对大词汇量连续语音识别 (CSR) 系统的研究。前两个 CSR 语料库主要由阅读语音组成,其文本来自华尔街日报新闻文本的机器可读语料库,因此通常被称为 WSJ0 和 WSJ1。
语料库的文本属于 WSJ 文本语料库的 5,000 字或 20,000 字子集。 除了朗读的演讲外,还包括一些自发的听写。 听写部分是使用口述假设新闻文章的记者收集的。
整个过程中使用了两个麦克风:一个近距离的 Sennheiser HMD414 和一个辅助麦克风,辅助麦克风可能会有所不同。 语料库以三种配置提供:来自 Sennheiser 的语音、来自另一个麦克风的语音以及来自两者的语音; 这三组包括所有转录、测试、文档等。
下面为引用链接

https://catalog.ldc.upenn.edu/LDC93S6A

二、数据集内文件介绍
数据集里不同文件的内容具体介绍,由于比较繁琐,请看相关的网页链接。wsj0文档

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐