近年来AI技术发展速度迅猛,深入到生活中的方方面面,从手机APP到车载语音系统。今天小PP和大家一起仔细了解,AI技术中的语音技术在各场景的应用,并奉上对应模型~

语音识别技术

语音识别其实是一种感知智能,核心功能是将物理世界的信息转化成可供计算机处理的信息,为后续的认知智能提供基础。

实际上,语音识别早已经应用于我们日常生活中的方方面面。现在非常多的手机APP支持语音识别,解放双手提升效率。像社交类APP微信的语音转文字、翻译APP有道词典即可通过识别语音进行外语翻译、记录类APP以及可以语音输入的输入法APP等等。

除了APP中应用,目前车载也是语音技术落地的重要场景。通过语音识别,驾驶者可直接与车辆进行互动,比如要求车辆打开窗户、关闭天窗、开灯等等。智能控制车辆等技术已经开始批量进入生产,百度、科大讯飞等公司都有对应的合作车型,进行智能车机落地。

■ ■■■■

除上述应用方向,语音识别技术落地场景多种多样。语音技术也是深度学习算法工程师从业的重要方向之一,那么哪些框架里能找到语音识别模型呢?

目前主流深度学习框架都有各自的语音识别模型。比如Tensorflow有TF Speech, Pytorch通过ASR实现语音到文本端的模型,PaddlePaddle有DeepASR模型。小伙伴们可以按自己的需求选择模型并尝试。目前PaddlePaddle的语音识别模型使用的是汉语数据集,配合中文教材,小伙伴们可以快速上手训练语音识别模型~

详细链接:

https://github.com/PaddlePaddle/models/tree/develop/fluid/DeepASR

 

语音合成技术

语音合成是通过大量数据训练模型,使得机器能够模仿真人的声音进行发声,将文字输入后,机器通过模型将文字转变为声音。根据训练数据的不同,还可以生成每个人个性化的声音。

当前在手机APP、导航和音响类产品中,语音合成承担着重要作用。如果说语音识别是解放双手,那么语音合成就是“解放双眼”。

目前,地图类产品是语音合成技术的重点落地场景。驾车时,手眼都会被驾驶行为占据,唯一可以进行交互的就是语言和听力。语音合成应用于导航,不仅仅是通过“志玲姐姐语音包”给大家带来声音的享受,更重要的是,它让用户使用听觉接受信息,解放了用户驾驶中的视觉,大大降低了低头看手机引发交通危险的可能性。


除此以外,目前大火的智能音箱,比如天猫精灵、小米音箱和小度在家,它们的回答声音也源自语音合成。当然,现在语音合成的声音还可以定制,比如小度音箱便借用蔡康永老师的声音与使用者对话。


目前语音合成技术的效果已经非常纯熟,但是模型训练需要的数据量级,仍然过于庞大。面对这种情况,如何能够在最短时间内合成仿真程度高的声音,也将会是未来一段时间内需要攻克的技术难点。想要尝试破解难题的小伙伴们,同样需要选择深度学习框架而后训练模型,逐步努力落地这个想法。目前主流深度学习框架中,Pytorch和TensroFlow都有开源的合成模型,感兴趣的小伙伴可以尝试。

这次小伙伴们已经了解语音技术的应用和模型,后续也将呈现NLP、目标检测、人脸识别和图像方向的相关内容,欢迎大家持续关注~

 

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐