数据名称:印地语语音自由对话识别数据库-200人

数据编号:King-ASR-323

数据制作:海天瑞声

数据参数:16k, 16bit

录音通道:三通道

录音平台:手机

录音时长:303小时

数据用途:语音识别系统训练、测试、语音分析

数据简介

Hindi

(印地语),是印度的主要官方语言之一。据统计,印度国内以Hindi为母语的人数超过1.8亿,以其作为日常交流主要语言的人口接近8亿。在美国、南非、新加坡等地,使用Hindi的人数也高达数百万。随着印度的国际地位日益提升,Hindi的影响力也在逐渐增大。

为了提高语音识别引擎对Hindi的识别准确度,我公司于2016年年初录制了这个印地语自由对话语音识别数据库。

该数据库是在印度采集完成的,在安静办公室环境下进行录音。共有200位本地发音人参与了录音,其中男女性别比例约为1:1。发音人主要来自于以Hindi为主要官方语言的印度西部和东部地区。

我们选择了人们在日常交流中涉及最多的领域,包括家庭、工作、运动、购物、新闻、食物、电影等25个最常见的话题。

发音人被分成两人一组,在可选的25个话题中自由挑选自己感兴趣的话题,并针对该话题进行自由对话。在录音过程中,对于话题的进展,我们不给予发音人任何暗示、控制和引导。

每组自由对话时间为1个小时,整个语音数据库的纯语音时长为303小时(包含首尾静音段),磁盘容量为42GB。

该数据库由Hindi的母语使用者进行人工转写和标注,并经过了严格的质量检验。

该数据库包含一个SAMPA印地语发音词典,并由我们的印地语语言学家进行了校对。

发音人年龄分布情况

sg_trans.gif

更多关于此数据库的细节,请电话或邮件咨询我们。

我们计划在近期推出此数据库的免费数据包,请关注我们的微信公众号,不要错过推送哦!

sg_trans.gif

电话咨询:010-62660053

邮件咨询:contact@speechocean.com

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐