声音采集—>降噪—>语音唤醒—>语音转文字—>语义理解—>回复文字和指令—>文字转声音—>播放声音
举例:
1、用户说“天猫精灵,今天天气怎么样?”
2、“天猫精灵”被语音唤醒模块接收到,并判断为唤醒词,然后开始记录后续的“今天天气怎么样”这段语音,并发送给云端服务器。
3、服务器把这段语音,转化成文字“今天天气怎么样”,交给语义理解服务器
语义理解服务器把“今天天气怎么样”这段文字,拆解成“事件=查询天气,时间=今天”这段控制指令回传给设备。
4、设备根据时间和本机地理位置,找天气服务器查询天气,并获得天气的的文本数据“今天要下雨”
5、设备把“今天要下雨”这几个字发给文字转声音的服务器,服务器返回“今天要下雨”这段声音,由设备喇叭播放出来。
(3,4,5这三个动作,可以拆开由各个服务器单独完成,也可以由一个服务器统一完成。)
(车载系统做的比较简单,主要靠本地识别,落后智能音箱至少5年。)
各模块的功能
降噪(AEC)通过麦克风阵列,判断人在哪个方向,增强那个方向的拾音效果。这样可以在5米之外就能听到人在说话,足够一间房间使用了。
还可以在本机播放音乐的时候,滤除麦克风接收的本机音乐,使得智能音箱在播放音乐的时候也能被唤醒。
这就是大家讲的双麦降噪、7麦阵列之类的。
国际上做的比较好的是科胜讯(Conexant),国内做的比较好的是科大讯飞,国内现在有几十家小公司在做语音降噪算法
(然而这些小公司很快都会挂掉,原因见文章后面)
唤醒智能音箱的麦克风在7x24小时接收外部声音,持续分析这些声音,看看是否能检测到唤醒词(例如前面讲的“天猫精灵”),一旦检测到了唤醒词,就把之后的语音传给语音识别服务器。
国际上唤醒词做的最好的是Sensory,国内的主要是讯飞等语音识别公司。
像智能手表上,一般会有一颗专门的低功耗芯片,内置唤醒词算法,随时打开等着你说话。不需要占用CPU资源,非常省电。
语音转文字(ASR)语音并不能直接拿来分析成意思,必须要转化成文字。这是个成熟的技术了,以前还会有在现在大数据算法的辅助下,结合上下文理解,已经可以非常准确的把声音变成文字了。
语义理解(NLP)自然语言处理,就是把人的语言转化成机器能够理解的数字,分解开,并回复响应的语言。
大家觉得智能音箱是“智障音箱”,主要还是因为这里,现有的技术只能做到固定的问答,而无法像人类一样思考。
再加上人类语言有大量的不同表达方式和歧义语句,理解错误的地方也会非常多。例如“杀死猎人的狗”,杀死的是猎人,还是狗?
只有NLP语义处理能够接近人类的理解了,机器的语音交互,才真的能让用户正常对话。
文字转语音(TTS):这个大家都很熟悉了,不管是机械感强烈的讯飞,还是越来越俏皮的siri,或是高德地图的志玲姐姐声音,都是依靠TTS语音合成,把文字变成声音的。
做这个语音合成的非常多,早些年有放在本机端的,现在一般都是云端来合成。
主流架构
经典架构:降噪用专门的DSP芯片
主控用Android平台,
语音识别、语义识别、语音合成三个放在云端
控制和显示放在本地
现有的国产智能音箱,全都是这个架构的
做的最好的:Amazon Echo全球销量最大的,是Amazon Echo系列,几年时间卖了3000万台,直接导致国内2017年智能音箱公司大量涌现。
Echo和其他智能音箱最大的区别是:所有的控制,都放在云端了。哪怕你家的WIFI台灯和Echo是在同一个局域网,这个灯也是从云端直接控制的。
把控制也放到云端的好处是:智能音箱本身不需要升级任何程序,就可以支持所有的智能硬件。
做的最简单的:Google Android ThingsAndroid Things在2018CES刚发布了新版本,做的比Amazon更省事,把前端语音降噪都放在云端去做了。算法更容易更新,随着时间的发展,能够提供比本地降噪更优秀的降噪效果。
还能够降低硬件要求,从而降低硬件成本。
智能音箱发展趋势
没屏的降成本,越做越简单带屏幕,做复杂交互,作为中枢多个房间,分布式拾音网络云端化,能放在云端的服务都会放上去。做降噪算法,会比较难活下去传统语音识别企业,被互联网打压(写太长了大家不爱看,具体原因后面再讲。喜欢看的求个“赞”,鼓励一下小编继续敲键盘吧~~)
总结
智能音箱,美国卖的很好,国内卖的不怎么样。
虽然不知道谁能一统江湖,但以后一定是大势所趋。
中国卖的不太好的原因,主要是汉语太复杂,稍微调戏一下,智能音箱很容易就变成了智障音响了。
还有一个原因是,很多中国人生性喜欢和人交流,不喜欢和机器交流。明知道是个机器,还“天猫精灵”“叮咚叮咚”“小爱同学”之类的叫个不停,是不是感觉自己好傻??
所有评论(0)