近年来,随着人工智能技术的迅速发展,语音识别(ASR)、语音合成(TTS)技术正不断突破。语音识别技术已深入到日常生活中的方方面面,语音助手、智能音箱、智能客服等都是较为典型的应用场景。在这些实际应用过程中数据标注起着重要作用,训练数据的准确性很大程度上影响了算法模型的表现。

 

什么是语音标注?

语音标注是数据标注行业中一种比较常见的标注类型。语音标注的就是标注员把语音中包含的文字信息、各种声音先“提取”出来,再进行转写或者合成,加上对应的标签,标注后的数据主要被用在人工智能机器学习中,可应用在语音识别、对话机器人等领域。

语音标注的语种一般分为中文、方言、英文等。根据语音时长可以分为长语音和短语音,,其中语音的长短、声音质量、有无预打标结果,是否需要切割等因素都会有较大的影响语音转写的速度。

语音标注中常见的标注类型有ASR语音转写、语音切割、语音清洗、情绪判定、声纹识别、音素标注、韵律标注、发音校对等。

语音标注过程中的注意事项

  1. 在语音标注中需要确定是否包含有效语音;需要确定语音的噪声情况;需要确定说话人数量;需要确定说话人性别、需要确定是否有口音等。
  2. 在前期语音清洗时,需要删去无效音频;在语音切割时,要保证有效音频前后静音两秒,截取时间过长或者过短都不符合语音数据标注规范。
  3. 语音标注的过程中的最好是使用降噪耳机,如果耳机质量不高,在标注过程中可能会产生很多的杂音,不利于标注。
  4. 整句话无法分辨出内容的,标为无效;背景噪音过大的,标为无效。

 

景联文科技为语音交互提供数据标注支持

景联文科技作为长三角地区规模最大的AI基础数据服务商之一,现有数据库拥有语音数据集超100T,已采集涵盖数万小时以上的语言朗读、自然语言对话语音数据,可为企业快速提供符合要求的数据集。例如《50800段车内录音采集数据集》、《21000段ASR语音转写音频训练集》、《60000段中文语音数据集》、《100个id12000段中国人读英语唤醒词数据集》、《13000段语音切割音频训练集》等可用于研究语音识别技术的算法的数据集,可有效提升企业的测试效率。

景联文科技先后建立杭州数据总部,武汉、金华、衡阳等不同省市数据处理分部,自研数据标注平台和全品类标注工具,支持语音工程,包括语音切割、ASR语音转写、语音情绪判定、声纹识别标注等多种标注类型,可全方位满足合作方各类数据标注需求,支持AI算法预处理,支持本地化部署和SAAS服务。通过智能化的标注平台产品赋能AI训练数据行业,能够有效提高人机协作效率扩大产能,及时调整标注方案做好逾期风险管控,准确把控数据质量问题,为语音标注相关企业提供处理大规模感知数据的能力,节省企业的时间和开发成本,实现人力驱动向技术驱动的重要升级,为行业赋能。

 

语音标注项目

一、需求:

非确定场景下多人对话语音8万条标注

二、项目难点:

部分音频存在多地域口音,算法辅助标注的效果不明显,人工识别也较为困难;准确率要求99%,工期紧张。

三、解决方案:

景联文标注平台预标注和自动质检功能有效提高标注效率与质量;根据项目要求进行项目结构分析,基于WBS原理将项目按照其内在结构和实施过程的顺序进行逐层分解成树状图,形成相对独立、易于管理和检查的项目各单元项目责任、进度等具体地落实到本项目每个参与者,确保标注质量。

景联文科技|AI基础数据服务|数据采集|数据标注|假指纹制作|指纹防伪算法

助力人工智能技术加速数字经济相关产业质量变革,赋能传统产业智能化转型升级

文章图文著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐