科大讯飞/百度/阿里/腾讯(BAT)智能语音识别(ASR)性能对比选择预计价格分享

最近在做智能客服的时候需要使用到语音识别，所以了解和对比了各家平台的语音识别对比和分析！一、科大讯飞1、语音听写即在线音识别查看Demo把语音(≤60秒)转换成对应的文字信息，让机器能够“听懂”人类语言，相当于给机器安装上“耳朵”，使其具备“能听”的功能可以识别多种方言，识别率高支持Android，iOS，Windows，Java，Linux2、语音转写即长语音识别查看Dem...

天宇365

17128人浏览 · 2020-04-16 17:41:51

天宇365 · 2020-04-16 17:41:51 发布

最近在做智能客服的时候需要使用到语音识别，所以了解和对比了各家平台的语音识别对比和分析！

一、科大讯飞

1、语音听写即在线音识别查看Demo

把语音(≤60秒)转换成对应的文字信息，让机器能够“听懂”人类语言，相当于给机器安装上“耳朵”，使其具备“能听”的功能

可以识别多种方言，识别率高
支持Android，iOS，Windows，Java，Linux

2、语音转写即长语音识别查看Demo

语音转写（Long Form ASR）基于深度全序列卷积神经网络，将长段音频（5小时以内）数据转换成文本数据，为信息处理和数据挖掘提供基础

支持标准版/电话专用版，可以单声道&多声道，返回json格式
价格范围为4.9~9.9元/小时,提供5小时免费使用

3、实时语音转写查看Demo

实时语音转写（Real-time ASR）基于深度全序列卷积神经网络框架，通过 WebSocket 协议，建立应用与语言转写核心引擎的长连接，将音频流数据实时转换成文字流数据结果

WebSocket形式输入PCM实时音频流，导出json格式数据
价格为2万元/路/年，新用户免费限时使用。

文档地址：https://doc.xfyun.cn/

二、阿里语音识别

阿里云语音识别为智能语音交互2.0，价格有免费和付费版本，免费版本最大并发为10，商务专用版最大为200/100两个并发，也可以按量付费。参考阿里语音识别报价

电联客服，告知每小时价格为3.5，超过900小时为3块，每条线路分开计时，即100条线路每天打8小时为800小时，需要支付2800元RMB

1、录音文件识别即长语音识别

目前未上架，官方提供了排期

2、实时语音识别

对长时间的语音数据流进行识别，适用于会议演讲、视频直播等长时间不间断识别的场景。支持PCM、OPU音频编码格式，支持Java,C++,iOS,Android；流程为先推送申请指令，然后实时传递语音流，然后发送结束指令。

3、一句话识别

对一分钟内的短语音进行识别，适用于对话聊天，控制口令等较短的语音识别场景。支持音频编码格式：PCM、OPUS、OPU,支持Java,C++,iOS,Android语言。其实是API模式，所有语言都支持。

三、百度语音

百度语音目前只支持语音识别，语音合成和语音唤醒，支持pcm wav amr三种格式，时长为60秒以内，价格为完全免费，调用量限制为无限制，文档地址百度语音

1、离线语音识别

百度离线语音识别目前只支持Android和IOS，Android 平台的一体化离在线语音识别解决方案，以JAR包 + SO库的形式发布。IOS移动设备的离在线语音识别解决方案，以静态库方式提供。

2、在线语音识别

通过API格式调用，支持Android,iOS,C#,Java,Node,PHP,Python,C++语言，其实是API模式，所有开发语言都支持

支持普通话，英语，粤语，四川话，普通话远场

四、腾讯云语言识别

目前价格需要手动提交申请然后会给你推送报价，不对外提供报价（客服电话告诉我的），文档地址腾讯云语言识别

1、一句话识别即在线识别

识别60s内的短语音，当音频放在请求body中传输时整个请求大小不能超过1M，当音频以url方式传输时，音频时长不可超过60s。接口请求频率限制：20次/每秒

2、离线语音识别（RESTful API）

离线语音识别服务使用 RESTful API 识别语音文件，采用异步方式通知业务方全部文本结果。离线语音识别接口采用 HTTPS 协议，支持语音 URL 和本地语音文件两种请求方式。离线语音识别适用于多种标准语音格式的长段语音文件，通常应用于对识别结果返回时延要求不高的场景。目前支持的采样率为 8K 和 16K，仅支持中文。可以应用于客服语音记录质检、UGC 音频审核、会议语音记录转写和医生就诊录音转写等场景。

识别分为推送和获取识别结果两个步骤
支持长语音识别

五、总结

目前来看科大讯飞的产品比较完善，但是相比收费也是最高的，其次阿里相对比较完善，不过要线上使用相比价格还是比较高的，百度完全免费，不过只支持60秒以内识别，其次腾讯只支持两种模式识别。相比之下我在智能通话中会使用科大和阿里的在线识别，其次在语音质检过程中我会使用百度的识别，因为一般录音文件少于60秒（语音告知），如果超过部分可以提供剪裁！

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐