最近在做智能客服的时候需要使用到语音识别,所以了解和对比了各家平台的语音识别对比和分析!

一、科大讯飞

1、语音听写即在线音识别查看Demo

把语音(≤60秒)转换成对应的文字信息,让机器能够“听懂”人类语言,相当于给机器安装上“耳朵”,使其具备“能听”的功能

  • 可以识别多种方言,识别率高
  • 支持Android,iOS,Windows,Java,Linux

2、语音转写即长语音识别查看Demo

语音转写(Long Form ASR)基于深度全序列卷积神经网络,将长段音频(5小时以内)数据转换成文本数据,为信息处理和数据挖掘提供基础

  • 支持标准版/电话专用版,可以单声道&多声道,返回json格式
  • 价格范围为4.9~9.9元/小时,提供5小时免费使用

3、实时语音转写查看Demo

实时语音转写(Real-time ASR)基于深度全序列卷积神经网络框架,通过 WebSocket 协议,建立应用与语言转写核心引擎的长连接,将音频流数据实时转换成文字流数据结果

  • WebSocket形式输入PCM实时音频流,导出json格式数据
  • 价格为2万元/路/年,新用户免费限时使用。

文档地址:https://doc.xfyun.cn/

二、阿里语音识别

阿里云语音识别为智能语音交互2.0,价格有免费和付费版本,免费版本最大并发为10,商务专用版 最大为200/100两个并发,也可以按量付费。参考阿里语音识别报价

  • 电联客服,告知每小时价格为3.5,超过900小时为3块,每条线路分开计时,即100条线路每天打8小时为800小时,需要支付2800元RMB

1、录音文件识别即长语音识别

目前未上架,官方提供了排期

2、实时语音识别

对长时间的语音数据流进行识别,适用于会议演讲、视频直播等长时间不间断识别的场景。支持PCM、OPU音频编码格式,支持Java,C++,iOS,Android;流程为先推送申请指令,然后实时传递语音流,然后发送结束指令。

3、一句话识别

对一分钟内的短语音进行识别,适用于对话聊天,控制口令等较短的语音识别场景。支持音频编码格式:PCM、OPUS、OPU,支持Java,C++,iOS,Android语言。其实是API模式,所有语言都支持。

三、百度语音

百度语音目前只支持语音识别,语音合成和语音唤醒,支持pcm wav amr三种格式,时长为60秒以内,价格为完全免费,调用量限制为无限制,文档地址百度语音

1、离线语音识别

百度离线语音识别目前只支持Android和IOS,Android 平台的一体化离在线语音识别解决方案,以JAR包 + SO库的形式发布。IOS移动设备的离在线语音识别解决方案,以静态库方式提供。

2、在线语音识别

通过API格式调用,支持Android,iOS,C#,Java,Node,PHP,Python,C++语言,其实是API模式,所有开发语言都支持

  • 支持普通话,英语,粤语,四川话,普通话远场

四、腾讯云语言识别

目前价格需要手动提交申请然后会给你推送报价,不对外提供报价(客服电话告诉我的),文档地址腾讯云语言识别

1、一句话识别即在线识别

识别60s内的短语音,当音频放在请求body中传输时整个请求大小不能超过1M,当音频以url方式传输时,音频时长不可超过60s。接口请求频率限制:20次/每秒

2、离线语音识别(RESTful API)

离线语音识别服务使用 RESTful API 识别语音文件,采用异步方式通知业务方全部文本结果。离线语音识别接口采用 HTTPS 协议,支持语音 URL 和本地语音文件两种请求方式。离线语音识别适用于多种标准语音格式的长段语音文件,通常应用于对识别结果返回时延要求不高的场景。目前支持的采样率为 8K 和 16K,仅支持中文。可以应用于客服语音记录质检、UGC 音频审核、会议语音记录转写和医生就诊录音转写等场景。

  • 识别分为推送和获取识别结果两个步骤
  • 支持长语音识别

五、总结

目前来看科大讯飞的产品比较完善,但是相比收费也是最高的,其次阿里相对比较完善,不过要线上使用相比价格还是比较高的,百度完全免费,不过只支持60秒以内识别,其次腾讯只支持两种模式识别。相比之下我在智能通话中会使用科大和阿里的在线识别,其次在语音质检过程中我会使用百度的识别,因为一般录音文件少于60秒(语音告知),如果超过部分可以提供剪裁!

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐