工程师在对语音识别做研究的过程中发现现有的人工智能并不能很好的识别儿童语音,包括在Amazon Echo与Google Home等设备在与儿童交互的场景下的都出现了识别错误的现象。

之所以发生这类问题,除了儿童语言因其声线与吐字等原因,语音和语言特性不同于成年人,有着天然的技术辨别难度,更为重要的是,儿童并不擅长按照机器能理解的方式与其交互,无论是采用了更友好的交互界面亦或是更加智能的语音助理,识别效果都不尽人意。

所以,高质量儿童语音数据的重要性不言而喻。为此,针对面向儿童语音识别应用场景,数据堂推出了近4000小时有效时长的高质量、多语言的儿童语音数据集,充分匹配儿童语音识别训练模型,可提升儿童语音识别准确率,支持儿童语音交互产品研究应用。

儿童语音数据集

中国儿童语音数据集

数据时长近3500小时,发音人均为6~12岁儿童,采集人数约10000人。口音覆盖七大方言区;录音文本包含作文故事、数字等儿童常用句子,以及车载、家居、语音助手的交互,精准契合实际应用场景。所有句子均由人工转写,句准确率97%,可用于语音识别、声纹识别等任务。

中国儿童说英语语音数据集

儿童朗读英语语音,全面覆盖学龄前(3-5岁)和学龄后(6-14岁)不同年龄段的儿童,富有儿童说话特色,录音内容精准匹配儿童使用英语的实际场景,为儿童智能家居、智能教育场景下的语音识别、口语评测提供数据支持。

美国儿童语音数据集

该数据由200余名美国本地儿童参与录制。录音内容符合儿童特点,主要为故事书、儿歌、口语等内容,每人350句,平均句长4.5次,句子平均重复次数2.1次。采用高保真麦克风录制,文本经过人工转写,句准确率达95%可用于语音识别、声纹识别等任务。

英国儿童语音数据集

该数据由200余名英国本地儿童参与录制,录音内容符合儿童特点,主要为儿童教科书、故事书等内容,该数据采用高保真麦克风录制,文本经过人工转写,句准确率达95%可用于语音识别、声纹识别等任务。

韩国儿童语音数据集

该数据集由1500名韩国本地儿童参与录制,发音人均为6~15岁儿童,录音文本包含包含日记、作文、读后感、故事书等,精准契合实际应用场景,所有句子均由人工转写,句准确率95%,可用于语音识别、声纹识别等任务。

能否做好儿童语音识别,很大程度上决定了儿童语音产品是“智能”还是“智障”。不论是优化训练数据还是提升算法性能,都是为了让智能时代的孩子的生活更加丰富多彩。

诚然,儿童语音识别还有很长的路要走,企业应立足儿童语音识别的应用场景,最大化满足儿童陪护、安全和学习需求,如此才能做出更加伟大的产品

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐