印地语自由对话语音识别数据库-200人

数据名称：印地语语音自由对话识别数据库-200人数据编号：King-ASR-323数据制作：海天瑞声数据参数：16k, 16bit录音通道：三通道录音平台：手机录音时长：303小时数据用途：语音识别系统训练、测试、语音分析数据简介Hindi(印地语)，是印度的主要官方语言之一。据统计，印度国内以Hindi为母语的人数超过1.8亿，以其作为日常交流主要语言的人口接近8亿。在美国、南非、新加坡等地，使

编程大乐趣

396人浏览 · 2020-10-27 17:56:22

编程大乐趣 · 2020-10-27 17:56:22 发布

数据名称：印地语语音自由对话识别数据库-200人

数据编号：King-ASR-323

数据制作：海天瑞声

数据参数：16k, 16bit

录音通道：三通道

录音平台：手机

录音时长：303小时

数据用途：语音识别系统训练、测试、语音分析

数据简介

Hindi

(印地语)，是印度的主要官方语言之一。据统计，印度国内以Hindi为母语的人数超过1.8亿，以其作为日常交流主要语言的人口接近8亿。在美国、南非、新加坡等地，使用Hindi的人数也高达数百万。随着印度的国际地位日益提升，Hindi的影响力也在逐渐增大。

为了提高语音识别引擎对Hindi的识别准确度，我公司于2016年年初录制了这个印地语自由对话语音识别数据库。

该数据库是在印度采集完成的，在安静办公室环境下进行录音。共有200位本地发音人参与了录音，其中男女性别比例约为1:1。发音人主要来自于以Hindi为主要官方语言的印度西部和东部地区。

我们选择了人们在日常交流中涉及最多的领域，包括家庭、工作、运动、购物、新闻、食物、电影等25个最常见的话题。

发音人被分成两人一组，在可选的25个话题中自由挑选自己感兴趣的话题，并针对该话题进行自由对话。在录音过程中，对于话题的进展，我们不给予发音人任何暗示、控制和引导。

每组自由对话时间为1个小时，整个语音数据库的纯语音时长为303小时（包含首尾静音段），磁盘容量为42GB。

该数据库由Hindi的母语使用者进行人工转写和标注，并经过了严格的质量检验。

该数据库包含一个SAMPA印地语发音词典，并由我们的印地语语言学家进行了校对。

发音人年龄分布情况

更多关于此数据库的细节，请电话或邮件咨询我们。

我们计划在近期推出此数据库的免费数据包，请关注我们的微信公众号，不要错过推送哦！

电话咨询：010-62660053

邮件咨询：contact@speechocean.com

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

用 OpenAI Assistants 做大模型应用开发

CSDN学习社区

cover

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

cover

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

所有评论(0)

查看更多评论

编程大乐趣

已为社区贡献527条内容