准备工作

包括用户注册和创建应用。(参考文档

用户注册

进入百度AI开放平台,点击右上角控制台进行用户注册,开发者认证。
在这里插入图片描述
点击左侧导航栏语音技术,进入具体业务项。

创建应用

点击创建应用,来获得调用百度API服务的能力。
在这里插入图片描述
应用是调用API服务的基本操作单元,应用创建成功后获得AppID,API Key,Secret Key,这是后面调用接口的凭证。

音频转换

音频参数必须满足:
1 格式为pcm,wav,amr
2 采样率16k,8k,16bit位深、单声道
3 音频时长小于60s
可使用ffmpeg对音频文件格式进行处理,调出cmd,进入音频所在文件夹,参考代码:
格式转换(m4a转wav)

ffmpeg -i 输入文件名.m4a 输出文件名.wav

设置单声道,采样率16k

ffmpeg -i 输入文件名.wav -ac 1 -ar 16000 -y 输出文件名.wav

调用接口

参考文档
pycharm中新建项目,控制台pip安装百度语音识别python sdk

pip install baidu-aip

调用语音识别接口

from aip import AipSpeech

""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

读取识别音频文件

# 读取文件(固定代码)
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

# 识别本地文件
client.asr(get_file_content('音频文件名.wav'), 'wav', 16000, {
    'dev_pid': 1537,
})

运行pycharm,即可在控制台得到识别后的文本。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐