语音 AI 技术(e.g. 语音识别、语音合成)是人工智能重要的研究和应用方向。但是,不同于 CV、NLP 等“显学”,语音相关的从业人员(学界和业界)相对较少,语音领域的学术会议和期刊影响力也比较有限。

语音 AI 是一个多学科交叉的技术方向,涉及到信号处理、语言学、语音学(e.g. 发音规律)、心理学(e.g. 听觉感知)、传统机器学习以及深度学习等。近几年,随着深度学习的快速发展,语音也大量借鉴 CV、NLP 等领域的方法和成果。

鉴于此,我们简要梳理了语音 AI 的主要技术及应用场景。一方面,希望能够吸引更多不同专业背景的同侪投身语音AI领域;另一方面,希望能对有志于学习语音技术的同学提供一些帮助。欢迎有兴趣的同行或同学私信交流。

1. 技术方向

语音 AI 包括了一系统相关的技术,下面对其中的若干重要方向进行简要介绍。(一篇旧文,介绍了语音算法在智能音箱中的应用,感兴趣的读者也可以参考。)

1.1 语音识别

1.1.1 ASR

语音识别(Automatic Speech Recognition, ASR)是将语音信号转换成对应文本的 AI 技术。大词汇连续语音识别(LVCSR)的技术突破开始于 20 世纪 80 年代,此时隐马尔可夫模型(HMM)被用于建模语音信号。早期使用高斯混合模型(GMM)对发音分布进行建模,这种方案称为 GMM-HMM 系统。
基于 HMM-GMM 的技术方案在 20 多年前已经发展成熟,其中 HTK 为集大成者。Kaldi 后来居上,基本终结了这方面的学术研究和工程开发(欧洲、日本有团队使用其他类似但比较小众的工具)。
基于人工神经网络(ANN)的 ASR 研究几乎与 GMM 方案同时开展,但由于早期各方面条件不成熟,没有能够成功应用。2009 年前后,深度神经网络(DNN)被重新引入声学建模,并取得了突破性的进展。相关成果在 12 年被 Google、微软等 5 家主流研究机构共同报告,ASR 进入深度学习时代。使用深度神经网络做为声学模型的方案称为 DNN-HMM 系统,通常也称为 hybrid 系统(建模过程中混合使用了 GMM-HMM 相关技术)。

GMM-HMM 和 DNN-HMM 都属于传统的语音识别系统(conventional ASR),它们由若干独立模块组成:前端模块、声学模型、发音辞典、语言模型和解码器。端到端(End-to-End)语音识别方案则希望将各个模块统一起来,由单独的神经网络进行联合建模与优化。

端到端建模是也深度学习领域的圣杯。目前主流 CV 和 NLP 任务,以及声纹认证、声学场景分析等较简单的语音任务目前基本都是以端到端方案为主。语音识别、语音合成、语音信号处理由于问题本身的复杂性,目前还处于传统方案和端到端并存的阶段。虽然端到端未来能否完全取代传统方案,目前仍存在较大的争议,但一个基本的实事是,端到端是当下研究的主流,在很多场景也展现了显著的性能优势。

早在 2014 年之前,学界和业界就开始了端到端 ASR 方案的探索。从识别效果上, 18 年前后离线端到端系统基本达到可用水平。19 年后,端到端成为学术研究的主流。目前学术会议上已经很少能看到传统语音识别的相关工作了。
目前,端到端 ASR 有三种主要的实现方案——CTCTransducerAED(Attention-base Encoder-Decoder)

1.1.2 关键词检索

关键词检索(keyword search),可以看作是语音识别的特例。不同的是,在检索任务中,我们关注特定的关键词的检出效果,因此在技术手段上和语音识别有比较显著的差异。
随着智能音箱以及手机语音助理的普通,语音唤醒(wakup)技术日渐为人熟知。唤醒在有些文献中也称了 keyword spot 或 hotword spot。对设备呼喊相应的唤醒(如百度音箱的“小度小度”),设备即能被激活并响应用户的需求。

因此,识别相关技术的应用中,通常都会需要 VAD(Voice Activity Detection)模块进行配合。VAD 也称静音检测,其作用是检测出音频中的非语音片断并进行过滤。一方面可以减少后续识别等模块的计算量,另一方面也可以减少引入大量非语音而造成的误识别。

1.2 语音合成

语音合成,即 TTS(Text-To-Speech),是语音识别的反向任务。TTS 将给定的文本转换成相应的音频,以供播放。

1.2.1 基本技术

TTS 主要有三类方法:参数、拼接以有端到端。

参数方法合成的语音自然度比较低,机械感明显。但参数方案的资源占用可以做到非常小,因此,在设备端依然存在大量的需求。

拼接方法顾名思义,是将音库中的语音片断拼接起来,生成目标语音。基于拼接可以合成高质量的语音,但缺点是开发流程复杂,对音库质量要求较高。目前拼接方法基本被端到端方法所取代。

端到端方法是将 TTS 传统的前端(TN、时长模型、声学模型)和后端(声码器)分别用神经网络建模。

前端主流的方案包括 tacotron 系统 和 fastspeech 系统等。后端(神经声码器)觉的方法用 WavNet、WavRNN、LPCNet、MelGAN、HifiGAN 等。

1.2.2 应用方向

随着技术的发展,TTS 已经不限于简单的播放语音,而是有了越来越多样的场景需求。
例如,在电子书阅读、虚拟助手等场景,对合成语音的情感表达愈发重视。
另外,用户对于个性化语音合成的需求也越来越强烈。这就涉及如何利用小样本、低音质的数据进行模型建模的技术问题。

此外,歌曲合成也是语音合成的一个应用方向。

1.3 声纹技术

笼统而言,声纹技术(voiceprint)是一门分析语音/音频中特定属性的技术。

1.3.1 说话人识别

说话人识别是一项最常用的声纹技术。在说话人识别任务中,算法需要对比录入语音与注册的语音的相似度,从而判断说话人的身份。典型的应用是微信的数据声纹锁。

1.3.2 声纹检索

声纹检索是说话人识别的扩展。上述说话人识别是 1:1 的认证任务,即只需要判断目标语音是否是给定的注册语音属于相同的说话人。而声纹检索是 1:N 的认证任务,即需要从大小为 N 的注册声纹库中挑选出最相似的说话人或都判断不在声纹库中(即集外)。
声纹检索可以应用在刑侦领域,用于大规模的嫌犯筛查。

1.3.3 属性识别

语音中往往包含了说话人的一些生理属性,如性别、年龄等。这些属于可以通过声纹技术来进行识别。

1.3.4 声学场景分析

对于非纯语音的音频内容(例如短视频),有时需要对涉及的具体场景进行分析,以便分门别类进行处理(例如,语音片断转发给 ASR 进行转写;涉黄内容进行屏蔽)。这就涉及声学场景分析(acoustic scene ananlysis)。简单而言,通过声学场景分析,我们需要确认在何时发生了何种声学事件。

1.4 语音前端处理(语音信号处理)

人们的工作和生活都是处于极其复杂的声学环境中,人与人之间的交流以及人与机器之间的交互都会受到噪声、干扰等多种因素的影响。语音作为各种语音类应用的入口,通过各种算法对音频信号进行处理,消除录音设备和环境等带来的影响,使得处理后的信号更能反映语音的本质特征,为语音类应用的效率和用户体验提供保证。

1.4.1 主要问题

语音前端处理面临的问题,大致可以分为四类:
(1)回声:扬声器播放的声音又被麦克风拾取了。相应的处理方法有回声消除、回声抑制和回声控制等。
(2)混响:声音除了从声源直线传播到麦克风之外,还会经过各种反射到达麦克风。响应的处理方法有混响消除和混响抑制等。
(3)干扰:通常指非目标的其他人声。相应的处理方法有波束形成、盲源分离和声源定位等。
(4)噪声:除回声/混响/干扰之外的非目标声音,多数情况下指代的是各种各样的环境噪声。相应的方法有降噪/增强、噪声控制和有源噪声控制等。

1.4.2 应用场景

实时音频通话

包括传统电话、视频通话、电话会议等。在音频通话场景,信号处理主要是用于提升语音的可懂度和听感。音频通话相关的语音前端,最重要的要数经典的3A算法,即:
AEC——声学回声消除,解决通话过程中扬声器播放的声音又被麦克风采集到,导致远端说话人听到自己声音的问题;
ANS——自适应噪声抑制,解决通话过程中声音被环境噪声所污染的问题;
AGC——自适应增益控制,解决声音忽大忽小的问题。

语音交互

包括语音助手、智能客服和各种类型的语音控制系统等,主要服务于语音识别/唤醒/说话人识别/情感识别等。相对于通话,语音交互通常会面临更为复杂的声学环境,为了提升语音质量,很多产品采用麦克风阵列作为音频输入硬件,相应的就需要有麦克风阵列相关的语音前端处理算法,典型的有波束形成/盲源分离/声源定位等。

录音
包括集中式的会议录音器、分布式会议系统、录音笔、监控系统的录音部分、以及一些特制的录音器件等,这部分应用一般是后期对语音做处理分析,所以对实时性要求比较低,甚至一部分可以做纯离线的处理

其他
对实时性要求绝高的场景,像助听器的信号处理,对处理延迟的要求极高,需要达到10毫秒或者更小。扩音系统的音频前端处理,需要处理啸叫等问题。多模态处理,包括音视频结合、麦克风+骨传导传感器、声学麦克风+光学麦克风等。

2. 专业技能

下面介绍语音算法研发过程的用到的一些专业技能。虽然列了很多点,但依然不太全面。具体到某个特定方面(如说话人识别),可以并不需要所有这些技能,而且不同技能的熟悉度要求也不尽相同(有些可能仅仅要求能看懂)。

2.0 CS 基础

基础知识:计算机组成(体系结构)、算法设计与分析、设计模式
编程语言:c/c++、python、cuda、perl(目前用的非常少了)
Linux 系统基础操作:shell、vim 以及 awk、sed 等
基础工具:gcc、cmake(bazel)、git

2.1 机器学习相关

基本的机器学习知识,详见下面的阅读清单。
训练框架:pytorch、tensorflow
推理库:libtorch、onnx-runtime、tf-serving、tensorrt、mkl、mkl-dnn(one-dnn)

2.2 语音相关

语音信号处理:特征提取(fbank、mfcc、LPC)、3A 算法,以及下面的阅读清单。
工具:kaldi、openfst、srilm、sox、ffmpeg

2.3 工程相关

深度学习的发展,端到端方法在语音 AI 的各个方向都成为不可忽略的力量,在特定方向上甚至完全取代了传统的方法。方法的革新必然带来研发范式的变化。
高效的训练工具是处理海量语音数据的基础,因此大规模分布式系统(CPU 集群、GPU 集群)的使用,训练速度的优化(分布式优化、算子实现优化,乃至算法和硬件的协同设计 ),是工业界语音 AI 开发的前提条件。而高效的部署(模型压缩、计算图优化、跨平台支持)对于实际落地也非常重要。

因此,强悍的工程能力是未来在语音 AI 取得成功的越来越重要的因素。

3. 阅读清单

3.1 领域会议

3.1.1 旗舰会议
  • ICASSP (International Conference on Acoustics, Speech and Signal Processing) 是 IEEE Signal Processing Society 组织的年度盛会。今年的会议于 21 年 6 月在加拿大多伦多举办(因疫情改为线上)。值得注意的是,ICASSP 有相当数据的论文是与语音无关的。
  • INTERSPEECH()是由 International Speech Communication Association(ISCA) 组织的年度学术会议。21 年的会议将在 8 月底在 捷克布尔诺举行。

语音相关的重要进展也散见通用的 AI 会议(e.g. ICML、NeuriPS)。另外,语音能从研究更加活跃的 CV、NLP 领域汲取宝贵经验,因此,这些领域的重要会议也可以积极关注。

3.1.2 其他会议
  • ASRU (Automatic Speech Recognition and Understanding Workshop) 是 IEEE Speech and Language Processing Technical Committee 组织的研讨会,每两年一次(和 SLT 交替举办)。最近一次会议会将在 21 年 12 月哥伦比亚卡塔赫纳市举办。
  • SLT (Spoken Language Technology Workshop) 是 IEEE Speech and Language Processing Technical Committee 组织的研讨会,每两年一次(和 ASRU 交替举办)。最近一次是 21 年 1 月(举办地为深圳,因疫情改为线上)。

3.2 旗舰期刊

  • TASLP (IEEE/ACM Transactions on Audio, Speech, and Language Processing)

和大多数 AI 领域一样,期刊由于时效性不高,因此相对而言参考性不是太大。

3.3 书籍

3.3.1 ML基础
  1. Andrew Ng. Machine Learning (公开课).
  2. 李航(12). 统计学习方法(第一版).
  3. 李航(19). 统计学习方法(第二版).
  4. 周志华(16). 机器学习.
  5. Chris Bishop. (06). Pattern Recognition and Machine Learning.
  6. Goodfellow et al. (16). Deep Learning.
  7. Simon Haykin et al. (09) Neural Network and Learning Machine.
3.3.2 语音相关
  1. Dan Jurafsky & James H. Martin (07, 17). Speech and Language Processing.
  2. 陈果果 et al. (20). Kaldi语音识别实战.
  3. Young et al. (06). HTK Handbook.
  4. Kaldi Tutorial.
  5. 俞栋 & 邓力. (16). 解析深度学习:语音识别实践.
  6. Huang et al. (01). Spoken Language Processing: A Guide to Theory, Algorithm and System Development.
  7. 王泉. (20). 声纹技术.
  8. Benesty et al. Microphone Array Signal Processing.
  9. Benesty et al. Design of Circular Differential Microphone Arrays.
  10. Naylor et al. (Eds.) Speech Dereverberation.
  11. Hänsler et al. (Eds.) Topics in Acoustic Echo and Noise Control.
Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐