语音识别介绍

语音交互的可应用范围大、面向人群广,是人与人之间最常见的沟通方式,是提高交互效率、自然性和学习者的虚拟实验学习效率的有效途径。
语音交互技术包含语音识别技术和语音合成技术,语音识别引擎中通常都包含有SR和TTS技术,主要的语音识别引擎具体比较如下:
在这里插入图片描述
Microsoft .Net框架中的Speech DLL库为我们提供了语音识别和文本到语音技术服务,以实现语音交互。微软语音识别分两种模式监听听写模式和命令与控制模式,在听写模式识别任意输入语音转换为文本信息,而命令与控制模式划定范围监听,其识别准确率更高、适用于语音控制场景。
在下载了中文语音包后,并在初始化语音识别引擎时指定了该语音包之后,才能实现中文版本的语音识别功能,本文选择的是,面向服务器的中文语音识别包Microsoft Server Speech Recognition Language,语音合成则选择桌面版本慧慧语音包Microsoft HuiHui Desktop。

安装合适的TTS和SR语音包

TTS语音包及引擎安装

点击Windows’设置,选择时间和语言
在这里插入图片描述
点击语音选项,第二步就是可以选择添加语音,根据项目需要,自己添加,最后在选择语音框选择自己需要的语音。
在这里插入图片描述
在这里插入图片描述
附上官网教程:微软官网TTS安装教程

安装好语音包之后,还需要再控制面板中的语音识别中设置文字转语音的语言:选择自己安装的中文语音包
在这里插入图片描述
在这里插入图片描述

SR语音包及引擎安装

语音识别我们使用的面向服务器的SDK,Microsoft Speech Platform 包含一个软件开发工具包 (SDK)、一个运行时和运行时语言(支持特定语言的语音识别或文本到语音转换的语言包)。
官方网站Micosoft Speech Platform安装包网站

Microsoft Speech Platform SDK 提供了一套全面的开发工具,用于管理支持语音的应用程序中的 Speech Platform Runtime。 添加识别口语(语音识别)和生成合成语音(文本到语音或 TTS)的功能,以增强用户与应用程序的交互。

语音平台 SDK 包括 Microsoft.Speech.VoiceXml 命名空间,以支持使用行业标准 VoiceXML 标记语言创作语音应用程序。 语音平台运行时包括一个 VoiceXML 运行时。 同样包含在 SDK 中的 Microsoft 语法开发工具提供了一组全面的命令行应用程序,您可以使用这些应用程序验证、分析和调整语音识别语法。
在这里插入图片描述
下载Microsoft speech Platform Runtime 和所需识别语音的包Language Packs(语言包),注意:它们之间的版本必须一一对应,且安装的电脑中从未安装过这两个包,否则重新安装需要把旧的卸载后才可以安装。
安装时,首先安装运行安装包“SpeechPlatformRuntime.msi”,然后再安装SDK “MicrosoftSpeechPlatformSDK.msi”,直接再安装语言包
根据自己系统的是32位还是64位来选择下载,下载安装后,选择中文语音识别即可。带zh-CN才能实现中文的语音识别。

在这里插入图片描述
在控制面板可以看到,安装成功如下图。
在这里插入图片描述

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐