从自动机到人工智能:文本转语音合成技术综合发展史
在人类数个世纪的探索历程中,解构并复制我们最基本的特征之一——语言,始终是一项引人入胜的科学追求 1。文本转语音(Text-to-Speech, TTS)技术的发展史,就是一部从精巧的机械奇观到复杂的现代人工智能的宏大叙事,它不仅反映了工程技术的演进,也折射出更广泛的科学思潮变迁。这段旅程的核心,始终围绕着几个持久的挑战:如何实现声音的自然度(Naturalness),如何保证内容的可懂度(Int
从自动机到人工智能:文本转语音合成技术综合发展史
引言:对人造声音的持久探索
在人类数个世纪的探索历程中,解构并复制我们最基本的特征之一——语言,始终是一项引人入胜的科学追求 1。文本转语音(Text-to-Speech, TTS)技术的发展史,就是一部从精巧的机械奇观到复杂的现代人工智能的宏大叙事,它不仅反映了工程技术的演进,也折射出更广泛的科学思潮变迁。这段旅程的核心,始终围绕着几个持久的挑战:如何实现声音的
自然度(Naturalness),如何保证内容的可懂度(Intelligibility),以及如何实现对韵律和情感表达的精确控制(Control) 1。
本报告将系统性地追溯TTS技术通过四个不同范式演进的全过程:机械模拟、电子抽象、数据驱动建模以及端到端神经生成。我们将深入分析每个时代的技术飞跃、关键人物与研究机构的贡献,以及这些技术突破所带来的深远社会影响。从模仿人类发声器官的早期自动机,到能够以近乎真人的自然度进行表达的生成式人工智能,TTS的历史不仅是一部技术编年史,更是一部关于人类如何理解自身、并最终用硅基智能重塑交流方式的深刻洞见。
第一部分 机械神谕:模拟声道(18世纪70年代 – 20世纪30年代)
1.1 启蒙运动与语音解剖学
18世纪的欧洲,在启蒙运动思潮的推动下,对自然科学的探索达到了新的高度。对人体解剖学的深入研究,特别是对发声器官的理解,为机械语音合成奠定了理论基础 3。当时,科学家们将人声类比为一种乐器:肺部是风箱,声带是簧片,而声道则被视为共鸣管 3。这种观念将复杂的生理过程简化为一套可被机械复现的物理原理,激发了发明家们创造“会说话的机器”的雄心。
1.2 机械语音的先驱
克里斯蒂安·戈特利布·克拉策斯坦(Christian Gottlieb Kratzenstein, 1773-1780)
丹麦科学家克拉策斯坦是这一领域的先行者。为了赢得俄罗斯帝国科学院设立的奖项,他于1773年成功构建了一系列声学共鸣器。这些连接在风琴管上的装置,通过反复试验调整形状,能够模拟人类声道在发出五个长元音([aː], [eː], [iː], [oː], [uː])时的共振峰特性,从而产生可辨别的元音 3。他的工作首次证明,通过模拟声道形状的声学效应,可以人工合成语音的基本构成单元。
沃尔夫冈·冯·肯佩伦(Wolfgang von Kempelen, 1769-1791)
匈牙利发明家冯·肯佩伦的“声学-机械语音机”是这一时期最杰出的成就,也是历史上第一台能够产生完整单词和短句的设备 1。
- 设计与操作:肯佩伦的机器精巧地模仿了人类发声器官的结构。它使用一个风箱模拟肺部提供气流,一个象牙簧片模拟声带(声门)振动产生基频,一个橡胶制成的“嘴”和“鼻子”负责模拟口腔和鼻腔的构音动作。操作者通过一系列杠杆和哨管来产生[s]和[ʃ]等摩擦音 5。整台机器并非自动运行,而是需要像演奏乐器一样由人手动操作,通过手臂和手指的协调动作来控制发声 10。
- 设计的演进:肯佩伦的成功并非一蹴而就。他最初尝试了多簧片的并行设计,但发现这种结构在组合音节时会产生声音的“重叠”(即今天的协同发音现象),导致声音极不自然。他由此领悟到,自然语言只有一个声门和一个口腔,所有声音都通过这个统一的通道发出。基于这一洞察,他放弃了并行设计,转而开发了一个更符合解剖学原理的单声门模型,最终取得了突破 9。
- 历史地位与背景:尽管肯佩伦因其著名的(同时也是欺骗性的)“土耳其行棋傀儡”而更为人所知,但他的语音机却是一项真正的科学成就,只是在当时被前者的光环所掩盖 7。这台机器的最终版本至今仍保存在德国慕尼黑的德意志博物馆中 5。
1.3 19世纪的改进与公开展示
查尔斯·惠斯通(Charles Wheatstone, 1837)
进入19世纪,英国科学家查尔斯·惠斯通在肯佩伦的基础上进行了改进,制造出了能够发出绝大多数辅音和元音的语音机 6。
约瑟夫·法贝尔的“尤风尼亚”(Joseph Faber’s “Euphonia”, 1835-1846)
法贝尔的“尤风尼亚”是机械时代的集大成者。这台机器更为复杂,通过键盘和踏板进行控制,内部包含了舌头和嘴唇的模型,不仅能说话、耳语,甚至还能演唱英国国歌《天佑女王》 1。然而,它的声音单调、机械感十足,令当时的观众感到“不安”。这种怪异的听感,可以说在文化上奠定了人们对“机器人声音”的最初印象 12。
机械时代的探索虽然在技术上原始,但其贡献是奠基性的。这些发明家们通过物理实体,首次将人类语音产生的复杂过程抽象为一个可复制的工程模型。他们所构建的系统,本质上是一个“声源-滤波器”模型:一个振动源(如簧片,模拟声带)产生原始声音,然后通过一系列共鸣腔和构音器官(如橡胶嘴、舌头模型,模拟声道)进行滤波和调制,最终形成可辨别的语音。这个核心思想——声源与滤波器的分离——不仅是对人类发声机理的深刻洞察,更成为了贯穿此后数百年语音合成技术发展的核心理论框架。从后来的电子共振峰合成器到现代的神经网络声码器,其背后都闪耀着这一古老模型的智慧光芒。因此,机械时代并非一段被淘汰的弯路,而是为未来所有语音合成技术铺设了第一块理论基石。
此外,这些早期设备并非现代意义上的“自动机”,它们更像是需要高超技巧才能演奏的复杂乐器 10。操作者是整个系统不可或缺的一部分,负责实时控制发音的时机、清晰度和韵律。这种“人在环路中”(human-in-the-loop)的控制模式,揭示了语音合成的另一个核心挑战:控制。如何精确地协调各个“发声器官”以产生流畅、自然的语流,是当时操作者面临的难题。这一挑战后来从物理操作转变为算法设计,即如何编写规则或模型来自动控制音高、时长等参数。问题的本质——如何“演奏”这台发声仪器——始终未变,只是演奏者从人类变成了计算机程序。
第二部分 电子之声:抽象与分析(20世纪30年代 – 20世纪70年代)
2.1 贝尔实验室与电子合成的诞生
霍默·达德利的VOCODER与VODER(1939)
20世纪30年代,语音合成领域迎来了从机械到电子的革命性转变,而贝尔实验室正是这场革命的中心。工程师霍默·达德利最初为了解决电话通信带宽问题,发明了VOCODER(Voice Coder,声码器) 5。随后,他基于VOCODER的原理,创造了世界上第一台纯电子语音合成器——VODER*(Voice Operation Demonstrator),并在1939年的纽约世界博览会上向公众展示,引起轰动 1。
VODER的操作方式依然复杂,如同演奏一种新式乐器:操作员通过一个腕杆选择“嗡嗡声”(模拟浊音的声带振动)或“嘶嘶声”(模拟清音的气流噪声)作为声源,用手指控制10个按键来调节电子带通滤波器的参数(模拟声道共振),再用脚踏板控制音高 7。要熟练操作VODER,需要长达一年的专业训练 14。尽管其合成的声音依然带有明显的机械感,但VODER的历史意义在于,它无可辩驳地证明了利用电子电路生成可懂语音是完全可行的,为语音合成开辟了全新的道路 1。
2.2 哈斯金斯实验室与语音感知科学
模式播放器(Pattern Playback, 1950)
20世纪中叶,位于哈斯金斯实验室的富兰克林·S·库珀及其同事们开发了一台名为“模式播放器”的设备,它在TTS发展史上扮演了独特的角色 1。这台机器的功能是将绘制在透明胶片上的声谱图(spectrogram)——一种声音频率随时间变化的视觉图像——转换回声音。其原理是利用光源穿过胶片上的图案,照射到光伏电池上,从而将光的强度变化转换为声音信号 4。
模式播放器不仅是一台合成器,更是一个强大的科学研究工具。研究人员(如阿尔文·利伯曼)可以通过手动修改声谱图上的图案,然后听取合成结果,来系统地研究哪些声学特征(acoustic cues)对于人类感知不同的辅音和元音至关重要。这项工作极大地推动了语音感知科学的发展,并为后来的语音合成、语音识别以及语音感知的运动理论奠定了坚实的科学基础 4。
2.3 第一段计算机合成的声音(1961)
随着数字计算机的出现,语音合成进入了一个新纪元。1961年,贝尔实验室的物理学家小约翰·拉里·凯利(John Larry Kelly, Jr.)和路易斯·格斯特曼(Louis Gerstman)利用一台IBM 704计算机,成功合成了歌曲《雏菊贝尔》(Daisy Bell) 4。这一事件具有深远的文化影响。当时正在参观贝尔实验室的科幻作家阿瑟·克拉克(Arthur C. Clarke)亲眼目睹了这次演示,并深受启发。他后来将这一幕写入了其科幻巨著《2001:太空漫游》的剧本中:当人工智能计算机HAL 9000被逐渐关闭时,它唱起了同一首歌曲《雏菊贝尔》,成为了电影史上最令人难忘的经典场景之一 13。
2.4 第一个完整的文本转语音系统(1968)
尽管此前已有各种语音合成的尝试,但真正意义上第一个能够自动将任意英文文本转换为语音的系统,是由日本电气技术实验室的梅田规子(Noriko Umeda)及其团队于1968年开发的 4。这项工作标志着现代自动化TTS技术的开端,系统不再需要人类操作员“演奏”,而是能够遵循程序规则,自主地将文字信息转化为声音。
电子时代的到来,标志着TTS历史上一次深刻的范式转换:从物理模拟转向声学抽象。机械时代的发明家们致力于用齿轮、杠杆和风箱等物理部件来复制一个“人造喉咙” 3。而电子时代的研究者们则放弃了对物理结构的执着,转而致力于在电子层面生成与人类语音具有相同
声学特性的信号。VODER用振荡器代替了簧片,用电子滤波器代替了共鸣腔 1。它不再模拟声道的物理形状,而是模拟声道对声源信号的滤波效应。模式播放器则将这种抽象推向了极致,它甚至绕过了声源-滤波器模型,直接从最终的声学输出——声谱图——出发进行合成 4。这种从“语音是如何物理产生的?”到“语音信号具有哪些数学和信号特性?”的思维转变,为TTS技术接入数字计算和算法化处理打开了大门,为未来五十年的发展奠定了基础。
同时,这一时期的工具也揭示了合成与分析之间密不可分的共生关系。达德利的VOCODER本身就是一个分析-合成系统,它先分析真实语音以提取参数,再用这些参数来合成语音 5。VODER可以被看作是这个系统中的“合成”部分被独立出来,并赋予了可演奏性。而模式播放器则是一个为验证声谱图分析结果而生的合成工具,它允许研究人员通过“以分析指导合成”的方式,确认哪些声学特征在感知上是重要的 17。这表明,当时的目标并不仅仅是制造一个会说话的机器,更是要利用合成技术作为一种科学工具,来深入理解人类语音的本质。这种以研究为驱动力的发展模式,为后来更具实用性的TTS系统提供了坚实的科学依据。
第三部分 算法时代:基于规则与数据的合成(20世纪70年代 – 21世纪初)
随着计算机技术的普及,语音合成进入了以算法为核心的时代。这一时期,两种主要的技术路线——基于规则的参数合成和基于数据的拼接合成——并行发展,共同推动了TTS技术从实验室走向商业应用和大众生活。
3.1 现代合成技术之父:丹尼斯·克拉特与共振峰理论
共振峰合成原理
共振峰合成(Formant Synthesis)是算法时代的第一个重要范式。它继承并发展了电子时代的声源-滤波器模型,其核心思想是利用数字滤波器来模拟人类声道在发声时的共振频率(即“共振峰”) 21。系统通过算法规则,精确控制声源(浊音的脉冲序列或清音的白噪声)以及一系列滤波器的中心频率、带宽和增益等参数,从而合成出不同的音素 23。
克拉特的贡献与MITalk
麻省理工学院(MIT)的科学家丹尼斯·克拉特(Dennis Klatt)是共振峰合成领域的泰斗级人物。他在20世纪70年代进行了开创性的研究,最终于1979年与同事共同开发出MITalk系统 1。MITalk是第一个能够以较高的可懂度处理任意英语文本的综合性TTS系统,它通过一套复杂的文本分析前端,将输入文本转换为音素和韵律信息,再由克拉特设计的先进共振峰合成器生成语音 15。克拉特还开发了个人系统
Klattalk,并以他自己和家人的声音为蓝本,创造了一系列标志性的合成语音,如“完美保罗”(Perfect Paul,模拟他年轻时的声音)、“美丽贝蒂”(Beautiful Betty,模拟他妻子的声音)和“小孩基特”(Kit the Kid,模拟他女儿的声音) 15。
3.2 DECtalk与天才之声
商业化与应用
1983年,数字设备公司(DEC)获得了Klattalk的授权,并于次年推出了商业化产品DECtalk 15。DECtalk是一个通过串口连接的独立硬件盒子,内置了包括“完美保罗”在内的九种声音,因其出色的可懂度和灵活性,被广泛应用于自动电话应答系统等商业领域 29。
斯蒂芬·霍金的声音
DECtalk最著名的应用,莫过于成为物理学家斯蒂芬·霍金的“声音”。霍金因病失去语言能力后,于1985年开始使用一套基于DECtalk技术的系统(具体型号为Speech Plus CallText 5010)进行交流 15。他选择了“完美保罗”这个声音,并与之建立了深厚的个人联系。在随后的几十年里,尽管技术不断进步,出现了更自然的新声音,霍金始终拒绝更换。他认为这个声音已经成为他个人身份的一部分,是他与世界沟通的标志 15。当最初的硬件设备老化失效时,英特尔等公司的工程师们甚至付出了巨大努力,通过在树莓派上进行软件仿真,来精确复刻这个具有历史意义的声音,以确保霍金能够继续使用他所认同的“自己的声音” 28。
霍金与DECtalk的故事,是技术史上一个感人至深的案例。它首次深刻地揭示了一个现象:人造声音可以超越工具属性,成为个人身份认同的核心组成部分。当一个人失去其生物学上的声音后,他所选择的替代声音便承载了他的思想、个性和存在感。对霍金而言,“完美保罗”的稳定性和一致性,远比追求技术上所谓的“更自然”重要。这一现象对于当今的语音克隆和辅助技术设计具有深远的启示,它提醒我们,在技术迭代中,用户的心理认同和情感联系是不可忽视的关键因素。
3.3 首批消费级产品与辅助技术的兴起
线性预测编码(LPC)
在DECtalk等高端专业设备之外,另一项技术突破——线性预测编码(Linear Predictive Coding, LPC)——则为TTS的平民化铺平了道路。由板仓文忠(Fumitada Itakura)等人开发的LPC技术,能够以极高的效率对语音信号进行编码和压缩,从而可以被集成到低成本的专用芯片中 4。
德州仪器“说与拼”(Speak & Spell)
1978年,德州仪器公司(Texas Instruments)推出了划时代的教育玩具“说与拼”(Speak & Spell)。这是第一款面向大众市场的、内置语音合成功能的消费电子产品 4。它搭载了一颗LPC语音合成芯片,能够清晰地读出单词供儿童拼写,其新颖的交互方式和教育价值使其风靡一时,也让语音合成技术第一次走进了千家万户。
服务于视障人士的TTS
与此同时,TTS作为辅助技术(Assistive Technology)的价值也日益凸显。早在1976年,就出现了专为盲人设计的Telesensory Systems Speech+发声计算器 4。进入80年代中期,随着个人电脑的普及,IBM Screen Reader等第一代屏幕阅读器软件诞生,它们利用TTS技术将屏幕上的文本信息朗读出来,为视障用户打开了通往数字世界的大门 40。
3.4 从规则到数据:拼接合成
到了20世纪90年代,随着计算机存储容量和处理能力的飞速提升,一种全新的合成范式开始兴起:拼接合成(Concatenative Synthesis)。其核心思想不再是依据规则生成人工声波,而是利用一个庞大的、预先录制好的真人语音数据库,通过“剪切和粘贴”的方式,将一个个小的语音片段拼接成所需的话语 2。由于使用的是真实的录音,这种方法在自然度上取得了前所未有的突破 42。
双音素合成(Diphone Synthesis)
拼接合成的早期形式是双音素合成。双音素(Diphone)指的是从一个音素的稳态部分到下一个音素稳态部分的过渡音。一个语言中的双音素数量是有限的(例如,英语约有2500个)。通过录制并建立一个包含所有双音素的最小完备数据库,系统就可以拼接出任意的词语组合 45。这种方法的优势在于数据库规模可控,且覆盖性强。
单元选择合成(Unit Selection Synthesis)
单元选择合成是拼接方法的进阶版,也是神经网络时代之前质量最高的TTS技术。它不再局限于双音素,而是建立一个包含音素、音节、单词甚至短语等不同长度单位的、规模极其庞大的语音数据库(通常达数GB) 45。在合成时,一个复杂的搜索算法会启动,根据两个核心成本函数来寻找最佳的单元拼接序列:
- 目标成本(Target Cost):衡量数据库中的候选单元与目标发音(包括音素、重音、语调等)的匹配程度。
- 连接成本(Join Cost):衡量两个相邻单元拼接在一起时的声学平滑度,以避免产生突兀的接缝。
通过优化这两个成本的总和,单元选择系统能够生成极其流畅、自然的语音,其效果在当时常常与真人录音难以区分 42。
3.5 统计学的折衷方案:基于HMM的合成
在拼接合成追求极致自然度的同时,另一条技术路线——基于隐马尔可夫模型(Hidden Markov Model, HMM)的合成——则提供了一种更为灵活的解决方案。这种方法属于统计参数语音合成(Statistical Parametric Speech Synthesis, SPSS)的范畴 51。
核心原理
与拼接合成直接存储波形片段不同,HMM合成系统存储的是语音的统计模型。在训练阶段,系统会从大量的语音语料中,学习出每个音素在不同上下文中的声学参数(如梅尔倒谱系数)的统计分布,并用HMM来表示这些模型 51。在合成阶段,系统会根据输入的文本,生成一个最可能的参数序列,然后通过一个声码器(Vocoder)将这串参数转换成最终的语音波形 51。
优势与劣势
HMM合成的最大优势在于其灵活性和小巧。由于声音是由参数模型生成的,因此可以通过数学变换来轻松改变声音的特征,如语速、音高,甚至实现变声或情感调整,而模型本身的体积也远小于拼接合成所需的海量数据库 56。其输出的语音也因统计模型的特性而非常平滑稳定。然而,这种方法的致命弱点在于其音质。统计建模过程本质上是一种平均化处理,这会导致生成参数的“过平滑”(over-smoothing),丢失了真实语音中许多微妙的细节,从而产生一种特有的、听起来有些沉闷、模糊的“嗡嗡声”(buzzy sound),缺乏真实感 54。
整个算法时代的发展,完美地展现了语音合成领域一个核心的矛盾:保真度(Fidelity)与灵活性(Flexibility)之间的权衡。
- 共振峰合成是高灵活性、低保真度的代表。它的参数可以被规则精确控制,但声音本质上是人工的,听起来很机械。
- 单元选择合成则是低灵活性、高保真度的典范。它通过使用真人录音达到了前所未有的自然度,但修改韵律或语调非常困难,且无法说出数据库中不存在的语音组合。
- HMM合成正是在这两者之间寻求的折衷。它像共振峰合成一样基于参数,因而具备了灵活性和可控性;又像拼接合成一样从真实数据中学习,因而比纯规则系统更自然。然而,统计平均的本质使其在保真度上做出了妥协,导致了音质的损失。
这一时期的技术演进,清晰地勾勒出一条在保真度与灵活性之间不断探索、寻求平衡的路径。每一种范式的局限性都直接催生了下一种技术的诞生,最终为神经网络的登场——试图同时实现高保真度与高灵活性——做好了充分的铺垫。
表1:前神经网络时代合成范式对比分析
技术范式 | 核心原理 | 主要优势 | 主要劣势 | 占用/数据需求 |
---|---|---|---|---|
共振峰合成 | 通过规则控制数字滤波器,模拟声道的共振峰。 | 灵活性极高,可控性强,模型占用空间小。 | 自然度低,声音机械感、机器人感强。 | 数据需求低,模型小。 |
双音素合成 | 拼接一个完备的、包含所有音素间过渡音的最小语音单元数据库。 | 自然度高于共振峰合成,数据库规模可控。 | 拼接点可能存在不自然,韵律控制有限。 | 中等数据,中等规模数据库。 |
单元选择合成 | 从海量真人语音数据库中,通过算法选择最佳的单元序列进行拼接。 | 自然度极高,在当时可达到以假乱真的水平。 | 灵活性差,韵律难修改,依赖庞大的数据库。 | 海量数据(数GB),数据库庞大。 |
基于HMM的合成 | 学习语音声学参数的统计模型,在合成时生成参数序列再由声码器转为音频。 | 灵活性高,模型占用小,输出平滑稳定。 | 音质因“过平滑”而沉闷、模糊,有“嗡嗡声”。 | 中等数据,模型小。 |
第四部分 神经革命:端到端语音合成(2016年 – 至今)
2010年代中期,深度学习的浪潮席卷了整个人工智能领域,语音合成也不例外。神经网络的强大能力,使得构建“端到端”(End-to-End)模型成为可能,彻底颠覆了传统TTS技术的范式。
4.1 端到端学习的范式转变
端到端模型的核心思想是利用一个单一的、庞大的神经网络,直接学习从最原始的输入(如字符或音素序列)到最终的声学表示(如声谱图)之间的复杂映射关系 1。这种方法取代了传统TTS系统中繁琐的多阶段处理流水线(如文本分析、音长预测、声学建模、声码器合成等),将它们统一到一个可联合优化的框架中。这不仅简化了系统设计,更重要的是,它让模型能够从数据中自动学习到比人工设计的规则更丰富、更微妙的语言与声音之间的关联。
4.2 引爆点:Tacotron与WaveNet
Tacotron(谷歌,2017)
Tacotron是端到端TTS领域的开创性模型之一。它采用了一个带有注意力机制的序列到序列(Sequence-to-Sequence)架构,能够直接将输入的文本字符序列转换为梅尔声谱图(Mel-spectrogram)——一种对人类听觉特性进行优化的声谱表示 61。Tacotron在帧(frame)级别上生成声谱图,这意味着它的推理速度比在样本(sample)级别上操作的模型要快 61。在最初的版本中,Tacotron使用经典的Griffin-Lim算法将生成的声谱图转换回最终的音频波形 61。
WaveNet(DeepMind,2016)
如果说Tacotron革新了声学特征的生成,那么WaveNet则彻底改变了波形的合成。WaveNet是一个深度生成模型,它能够以自回归(autoregressive)的方式,逐个样本点地生成原始音频波形(raw audio waveform) 66。
- 架构:WaveNet的精髓在于其创新的因果膨胀卷积(causal dilated convolutions)结构。因果卷积确保了在预测当前样本点时,模型只能利用过去的信息,而不能“看到”未来;而膨胀卷积则允许网络在层数不深的情况下,拥有巨大的感受野(receptive field),从而高效地捕捉音频信号中的长期依赖关系 66。
- 影响:WaveNet作为一种神经声码器(neural vocoder),即把声谱图等声学特征转换为波形的模型,其合成的音质达到了前所未有的高度,与真人录音的差距被大幅缩小,听感极为自然 69。
Tacotron 2(2017)
不久之后,谷歌推出了Tacotron 2,这个架构将前两者的优点完美结合:它使用一个类似Tacotron的模型来从文本生成高质量的梅尔声谱图,然后用一个基于WaveNet的声码器将这些声谱图转换为最终的高保真音频波形 71。Tacotron 2的发布,标志着神经TTS技术走向成熟,其合成质量成为了业界的新标杆。
这一时期的发展,体现了TTS技术管线的一种“解构”与“重构”的过程。传统的TTS管线由文本前端、声学模型和声码器三部分组成。神经网络首先以“解构”的方式,对其中的单个组件进行了革命性的提升:WaveNet成为了一个远超传统算法的超级声码器 69,而Tacotron则成为了一个性能卓越的
超级声学模型 61。随后,Tacotron 2则将这两个经过优化的神经组件“重构”在一起,形成了一条全新的、完全由神经网络构成的技术管线。最终,像VITS这样的模型则实现了终极的“重构”,将声学模型和声码器融合到一个统一的端到端框架中联合训练,标志着技术整合的更高阶段。
4.3 克服自回归模型的局限:追求速度与鲁棒性
尽管自回归模型(如初版Tacotron和WaveNet)在质量上取得了巨大成功,但它们也存在明显的缺点:合成速度慢,因为输出是逐个样本或逐帧生成的;并且在处理长句时,注意力机制可能会出错,导致漏词、重复词等鲁棒性问题 73。
FastSpeech(微软,2019)
为了解决这些问题,微软亚洲研究院提出了FastSpeech,一个非自回归的并行TTS模型 73。
- 架构:FastSpeech摒弃了自回归的循环结构,采用了一种基于前馈Transformer的架构。其核心创新在于引入了一个“长度调节器”(Length Regulator)。该调节器利用一个独立训练的“音长预测器”(Duration Predictor)来预测每个音素应该持续的帧数,然后将输入的音素序列进行扩展,使其长度与目标梅尔声谱图对齐,从而实现整个声谱图的并行生成 74。
- 优势:这种并行生成机制带来了惊人的速度提升(梅尔声谱图生成速度可达自回归模型的270倍),并且由于没有了逐步依赖的错误累积,其鲁棒性也大大增强,几乎完全消除了漏词和重复词的问题 73。
4.4 新一代架构的涌现
Transformer在TTS中的应用
继FastSpeech之后,以自注意力机制为核心的Transformer架构,因其在捕捉长距离依赖方面的卓越能力,被广泛应用于TTS领域,逐渐取代了早期的RNN结构 78。
VITS(2021)
VITS是一个集大成者的端到端模型,它巧妙地融合了多种先进的深度学习技术:使用变分自编码器(VAE)来学习富有表现力的潜在表示,利用生成对抗网络(GAN)来生成更加逼真的波形,并结合归一化流(Normalizing Flows)来增强模型的表达能力 81。值得一提的是,VITS通过一种名为“单调对齐搜索”(Monotonic Alignment Search, MAS)的内部机制来学习文本与语音之间的对齐,不再需要外部的对齐工具 83。
扩散模型(Diffusion Models)
扩散模型是近年来在生成模型领域异军突起的最新技术。其原理是通过学习一个“去噪”过程的逆过程来生成数据。在TTS中,模型从一个纯噪声信号开始,通过多步迭代,逐步去除噪声,最终生成清晰、高保真的语音波形 86。扩散模型在生成质量和可控性方面展现出巨大潜力,是当前TTS研究的前沿方向。
神经网络模型的成功,也体现了从显式建模到隐式学习的转变。传统系统依赖于大量人工设计的、显式的中间模块和特征,如音长模型、F0曲线生成规则等 24。而神经网络模型,特别是端到端模型,则倾向于将这些复杂的声学和韵律特征编码到一个高维的、人类难以解释的
潜在空间(latent space)中。例如,Tacotron的注意力机制隐式地学习了文本与语音的对齐关系 61;而带有韵律编码器的模型则能将情感、风格等高级信息压缩成一个向量,从而实现对生成语音的控制 91。这反映了人工智能发展的一个宏观趋势:从依赖人类专家注入领域知识的系统,转向能够从海量数据中自主学习这些知识的系统。
第五部分 现代世界之声:应用与影响
随着神经合成技术的成熟,TTS已经从一个专门的研究领域,渗透到我们日常生活的方方面面,并正在催生全新的应用场景和商业模式,同时也带来了前所未有的伦理挑战。
5.1 无处不在的声音:TTS融入日常生活
语音助手
苹果的Siri、亚马逊的Alexa和谷歌助手等现代语音助手,是TTS技术最广泛的应用之一。它们通过一个集成了自动语音识别(ASR)、自然语言理解(NLU)和TTS的复杂技术栈,实现了与用户的流畅对话 92。有趣的是,这些助手的早期版本(如最初的Siri)使用的是拼接合成技术,其声音源自真人配音演员苏珊·班尼特(Susan Bennett)在2005年录制的大量语音片段。后来,为了追求更高的灵活性和更自然的表达,它们逐渐过渡到了更先进的神经TTS模型 94。
导航系统
GPS导航语音的演变也同样体现了TTS技术的进步。早期的导航系统只能拼接预先录制好的短语,如“在下一个路口,左转”,导致发音生硬,无法念出复杂的街道名称 95。而现代的导航系统则采用神经TTS,能够流畅、自然地播报任意地名和路况信息,极大地提升了用户体验 95。
无障碍技术
TTS在辅助技术领域的应用也达到了新的高度。JAWS、NVDA以及苹果的VoiceOver等现代屏幕阅读器软件,功能强大且高度集成,它们利用高质量的TTS声音,为视障用户提供了访问计算机、智能手机和互联网的平等机会,是数字包容性不可或缺的一环 40。
5.2 媒体与娱乐的新领域
有声读物
高质量神经TTS正在颠覆传统的有声读物出版业。过去,制作一本有声读物需要聘请专业播音员进行长时间的录制,成本高昂且周期漫长。如今,TTS技术使得出版商和独立作者能够以极低的成本、极快的速度生成听感自然的有声读物,这不仅 democratized 了内容创作,也让大量小众、冷门或绝版书籍得以“发声”,极大地丰富了听众的选择 99。
视频游戏
在视频游戏领域,TTS的应用正带来一场交互革命。传统游戏中,所有角色的对话都需要由配音演员预先录制,这限制了对话的多样性和互动性。而动态TTS技术则允许游戏中的非玩家角色(NPC)实现实时、个性化的对话,例如,角色可以直呼玩家自定义的名字,或者根据游戏世界中发生的实时事件发表评论 102。这极大地增强了游戏的沉浸感和可玩性,同时也为拥有数百万行对话的超大型游戏项目,提供了一个经济高效的解决方案。
富有表现力的情感合成
当前TTS研究的一个重要方向,是让合成语音超越中性、客观的播报,实现真正富有情感和表现力的“声音表演”。通过对模型进行特定情感数据的训练,或设计能够控制韵律、风格的编码器,研究人员正努力让AI声音能够表达喜悦、悲伤、愤怒等复杂情绪,为电影配音、虚拟角色等创意应用开辟新的可能性 106。
这种技术趋势正在深刻地颠覆传统媒体的生产管线。在游戏和有声读物等领域,传统的模式是“录制-分发”:所有音频内容都在生产阶段被固化为音频文件,然后分发给用户 102。这是一种前期投入巨大、后期灵活性差的模式。而TTS技术则催生了“
按需生成”的新模式。游戏开发者不再需要为每个可能的对话分支都录制音频,他们只需编写文本模板,如“干得好,[玩家名],你找到了[物品名]!”,然后由TTS引擎在游戏运行时实时生成个性化的语音 105。这使得“资产”本身从静态的
.wav文件,转变为动态的、可复用的“声音模型”。这种转变从根本上改变了互动媒体的经济学和创作范式。
5.3 终极模仿:零样本语音克隆
概念定义
零样本TTS(Zero-shot TTS),又称语音克隆,指的是模型仅需一段极短的(通常为几秒钟)目标说话人的音频样本,就能合成出使用该说话人声音的任意文本,而无需针对该说话人进行任何模型重新训练 109。
VALL-E(微软,2023)
微软研究院的VALL-E是零样本TTS领域的里程碑式模型。它创新地将TTS任务视为一个语言模型任务,通过一个名为EnCodec的神经音频编解码器将语音波形量化为离散的“音频token”。VALL-E在一个包含6万小时语音的庞大数据集上进行训练,学会了根据一个3秒钟的语音提示(prompt),来生成与提示音在音色、情感甚至声学环境上都高度一致的语音 112。
5.4 伦理困境:深度伪造与信任的未来
风险与挑战
语音克隆技术的飞速发展,在带来巨大便利的同时,也打开了潘多拉的魔盒。高度逼真的合成语音带来了严峻的社会风险 116:
- 欺诈:犯罪分子可以利用语音克隆技术冒充公司高管、政府官员或亲友,进行电话诈骗或绕过声纹识别系统。
- 虚假信息:可以轻易地制造公众人物的虚假录音,用于散布谣言、操纵舆论或进行政治抹黑。
- 非自愿剥削:被用于制作深度伪造(deepfake)色情内容,对受害者造成严重的精神伤害。
- 信任侵蚀:当任何音频都可能被伪造时,公众对数字媒体的信任将受到根本性的动摇,这被称为“骗子的红利”(liar’s dividend),即真实的证据也可能被轻易地斥为伪造,从而削弱新闻报道和司法证据的可信度。
应对与缓解
面对这些挑战,社会各界正在探索应对之策。技术层面,研究人员正在积极开发深度伪造音频检测模型,以区分真实录音和AI合成语音 116。在平台和法律层面,越来越多的社交媒体平台开始要求对AI生成内容进行标注或添加水印,同时,一些国家和地区已经出台法律,将制作和传播非自愿的深度伪造内容定为犯罪 116。
这项技术的发展揭示了一个深刻的悖论:声音的民主化带来了身份认证的危机。一方面,语音克隆技术赋予了失语症患者重获“声音”的希望 109,让独立创作者能够以低廉的成本获得专业级的配音 101,这无疑是技术的普惠和赋能。但另一方面,用于这些善意应用的核心技术,与用于恶意欺诈和诽谤的技术并无本质区别——唯一的不同在于使用者的意图和是否获得了当事人的同意。这种技术进步与伦理危机的共生关系意味着,TTS的未来发展不再是一个纯粹的技术问题,而是一个复杂的社会-技术挑战。我们必须在推动技术创新的同时,并行发展能够维护信任的检测、验证和监管机制。
结论:合成语音的未来
回顾文本转语音技术的演进历程,我们看到了一条从物理模仿到统计建模,再到生成式人工智能的清晰脉络。早期发明家们对人类发声器官的机械模拟,奠定了声源-滤波器的理论基石。电子和计算机时代的到来,将这一模型抽象为可计算的算法,催生了共振峰合成和拼接合成等经典范式,并让TTS技术在辅助设备和消费电子产品中首次崭露头角。而近十年来,以深度学习为核心的神经革命,通过端到端模型彻底重塑了该领域,将合成语音的自然度和表现力提升到了前所未有的高度。
展望未来,TTS技术正朝着与大型语言模型(LLM)深度融合的方向发展 119。未来的语音交互系统将不再是简单的“文本到语音”转换器,而是能够理解深层语境、进行复杂推理,并生成兼具恰当内容和丰富情感的“思想-语音”一体化系统。一个真正能够进行自然、流畅、富有同理心对话的AI伴侣,正从科幻走向现实。
然而,技术上的巨大成功也伴随着深刻的社会责任。从肯佩伦的机械玩偶到微软的VALL-E,人类对人造声音的追求已经超出了先驱者们最大胆的想象。我们现在掌握的,是能够以假乱真地复制人类声音身份的强大工具。如何确保这些声音服务于创造、沟通和赋能,而非欺骗、操纵和伤害,已成为我们无法回避的时代课题。语音合成的终极挑战,已不再是技术本身,而是我们如何有智慧、有道德地运用它。
引用的著作
- A History of Text-to-Speech: From Mechanical Voices to AI Assistants - Vapi AI Blog, 访问时间为 九月 27, 2025, https://vapi.ai/blog/history-of-text-to-speech
- Text-to-Speech Synthesis: an Overview | by Sciforce - Medium, 访问时间为 九月 27, 2025, https://medium.com/sciforce/text-to-speech-synthesis-an-overview-641c18fcd35f
- Mechanical Speech Synthesis in Early Talking Automata | Acoustics Today, 访问时间为 九月 27, 2025, https://acousticstoday.org/wp-content/uploads/2019/06/Mechanical-Speech-Synthesis-in-Early-Talking-Automata-Gordon-J.-Ramsay.pdf
- Speech synthesis - Wikipedia, 访问时间为 九月 27, 2025, https://en.wikipedia.org/wiki/Speech_synthesis
- History of speech synthesis, 1770 - 1970 - Columbia CS, 访问时间为 九月 27, 2025, http://www.cs.columbia.edu/~julia/cs4706/tts-history.htm
- Speech synthesis. History - New Line Technologies, 访问时间为 九月 27, 2025, https://newline.tech/speech-synthesis-history/
- History and Development of Speech Synthesis, 访问时间为 九月 27, 2025, http://research.spa.aalto.fi/publications/theses/lemmetty_mst/chap2.html
- Wolfgang von Kempelen’s speaking machine, 访问时间为 九月 27, 2025, https://en.wikipedia.org/wiki/Wolfgang_von_Kempelen’s_speaking_machine
- Wolfgang von Kempelen’s speaking machine - Wikipedia, 访问时间为 九月 27, 2025, https://en.wikipedia.org/wiki/Wolfgang_von_Kempelen%27s_speaking_machine
- The “Kempelen” speaking machine - Google Arts & Culture, 访问时间为 九月 27, 2025, https://artsandculture.google.com/story/the-%E2%80%9Ckempelen%E2%80%9D-speaking-machine-leibniz-association/2QUB7hLe64FKJA?hl=en
- Von Kempelen Builds the First Successful Speech Synthesizer - History of Information, 访问时间为 九月 27, 2025, https://www.historyofinformation.com/detail.php?id=430
- Sound it out: the (sometimes creepy) history of the talking machine - WHYY, 访问时间为 九月 27, 2025, https://whyy.org/articles/history-of-the-talking-machine/
- A short history of text to speech - Speechify, 访问时间为 九月 27, 2025, https://speechify.com/blog/history-of-text-to-speech/
- From Voder To OVox: A History Of Vocal Synthesis - Attack Magazine, 访问时间为 九月 27, 2025, https://www.attackmagazine.com/features/long-read/from-voder-to-ovox-a-history-of-vocal-synthesis/
- The Complete Evolution of Text to Speech Technology - LyricWinter, 访问时间为 九月 27, 2025, https://lyricwinter.com/blog/complete-evolution-text-to-speech-technology
- The Voder: First Human Speech Synthesizer | Specialty Answering Service, 访问时间为 九月 27, 2025, https://www.whatisthevoder.com/
- Pattern playback - Wikipedia, 访问时间为 九月 27, 2025, https://en.wikipedia.org/wiki/Pattern_playback
- ‘Pattern Playback’, Franklin S. Cooper. USA, 1949 - 120 Years of Electronic Music, 访问时间为 九月 27, 2025, https://120years.net/pattern-playback-franklin-s-cooper-usa-1949/
- SPEECH SYNTHESIZERS, 访问时间为 九月 27, 2025, https://www.coli.uni-saarland.de/groups/FK/speech_science/icphs/ICPhS1961/p4.1_003.pdf
- Klatt’s `History of speech synthesis’ Archive of audio clips. - Acoustics Today, 访问时间为 九月 27, 2025, https://acousticstoday.org/klatts-speech-synthesis-d/
- What is formant synthesis? How does it work? : r/synthesizers - Reddit, 访问时间为 九月 27, 2025, https://www.reddit.com/r/synthesizers/comments/1e9krrp/what_is_formant_synthesis_how_does_it_work/
- Methods, Techniques, and Algorithms, 访问时间为 九月 27, 2025, http://research.spa.aalto.fi/publications/theses/lemmetty_mst/chap5.html
- How do formant models in speech synthesis work? - Tencent Cloud, 访问时间为 九月 27, 2025, https://www.tencentcloud.com/techpedia/120008
- From Text to Speech: A Deep Dive into TTS Technologies | by Zilliz | Medium, 访问时间为 九月 27, 2025, https://medium.com/@zilliz_learn/from-text-to-speech-a-deep-dive-into-tts-technologies-18ea409f20e8
- Formant Synthesis - Keller Eric, 访问时间为 九月 27, 2025, https://www.erickeller.ch/pdf.files/Styger-Keller-94-FundVol.pdf
- Klatt’s history of speech synthesis: A Few Highlights, 访问时间为 九月 27, 2025, https://tcscasa.org/klatts-history-of-speech-synthesis/
- DECtalk Archive, 访问时间为 九月 27, 2025, https://dectalk.nu/
- The woman who saved Stephen Hawking’s voice and gave the tech to those in need, 访问时间为 九月 27, 2025, https://news.ycombinator.com/item?id=16637162
- DECtalk - Wikipedia, 访问时间为 九月 27, 2025, https://en.wikipedia.org/wiki/DECtalk
- DECtalk DTC-01 : Digital Equipment Corporation - Internet Archive, 访问时间为 九月 27, 2025, https://archive.org/details/dectalk
- DECtalk - Vocaloid Database, 访问时间为 九月 27, 2025, https://vocadb.net/T/7890/dectalk
- The Evolution of Text-to-Speech Voice Assistive Technology - William & Mary, 访问时间为 九月 27, 2025, https://www.wm.edu/offices/studentsuccess/studentaccessibilityservices/resources/technologyspotlight/texttospeech/
- Stephen Hawking’s famous voice belonged to this pioneering MIT scientist - Big Think, 访问时间为 九月 27, 2025, https://bigthink.com/high-culture/this-mit-scientist-gave-his-voice-to-stephen-hawking/
- Bringing A New Voice to Genius—MITalk, the CallText 5010, and Stephen Hawking’s Wheelchair - Computer History Museum, 访问时间为 九月 27, 2025, https://computerhistory.org/blog/how-dectalk-gave-voice-to-a-genius-engineering-stephen-hawkings-wheelchair/
- Why Stephen Hawking never changed his voice. - YouTube, 访问时间为 九月 27, 2025, https://www.youtube.com/watch?v=wn_G22hShGY
- TIL Stephen Hawking’s computer voice was recorded and initially programmed by computer scientist Dennis Klatt in 1987. Klatt died in 1988 from cancer, and though Hawking was offered newer voices as time went on he chose to keep Klatt’s voice as his own. : r/todayilearned - Reddit, 访问时间为 九月 27, 2025, https://www.reddit.com/r/todayilearned/comments/ocy1wk/til_stephen_hawkings_computer_voice_was_recorded/
- Speak & Spell (toy) - Wikipedia, 访问时间为 九月 27, 2025, https://en.wikipedia.org/wiki/Speak_%26_Spell_(toy)
- Speak & Spell (US, 1979 Version) : Texas Instruments - Internet Archive, 访问时间为 九月 27, 2025, https://archive.org/details/hh_snspell
- Speak & Spell from Texas Instruments (1978) - Toy Tales, 访问时间为 九月 27, 2025, https://toytales.ca/speak-spell-from-texas-instruments-1978/
- The Evolution of Screen Readers for Blind Users - outreach1, 访问时间为 九月 27, 2025, https://www.outreach1.org/2025/07/13/the-evolution-of-screen-readers-for-blind-users/
- A History of Accessibility at IBM | Accessworld - The American Foundation for the Blind, 访问时间为 九月 27, 2025, https://afb.org/aw/5/2/14760
- Exploring concatenative synthesis in music and speech - Telnyx, 访问时间为 九月 27, 2025, https://telnyx.com/learn-ai/concatenative-synthesis
- How to Create Natural Audio Using Concatenative Synthesis - Vapi AI Blog, 访问时间为 九月 27, 2025, https://vapi.ai/blog/concatenative-synthesis
- Concatenative Synthesis - Deepgram, 访问时间为 九月 27, 2025, https://deepgram.com/ai-glossary/concatenative-synthesis
- Building Voices in the Festival Speech Synthesis System - 9 Unit selection databases - Festvox, 访问时间为 九月 27, 2025, http://festvox.org/festvox-1.2/festvox_9.html
- Unit selection databases - Festvox, 访问时间为 九月 27, 2025, http://www.festvox.org/bsv/c2645.html
- festival 2 – build your own general purpose unit selection speech - CSTR, 访问时间为 九月 27, 2025, https://www.cstr.ed.ac.uk/downloads/publications/2004/clarkrichmondking_ssw504.pdf
- Speech synthesis - Survival, 访问时间为 九月 27, 2025, https://landsurvival.com/schools-wikipedia/wp/s/Speech_synthesis.htm
- Diphone Synthesis using Unit Selection - ISCA Archive, 访问时间为 九月 27, 2025, https://www.isca-archive.org/ssw_1998/beutnagel98_ssw.pdf
- A robust unit selection system for speech synthesis - AIP Publishing, 访问时间为 九月 27, 2025, https://pubs.aip.org/asa/jasa/article/105/2_Supplement/978/556145/A-robust-unit-selection-system-for-speech
- A tutorial on HMM speech synthesis (invited paper) - Edinburgh Research Explorer, 访问时间为 九月 27, 2025, https://www.research.ed.ac.uk/files/8425701/A_tutorial_on_HMM_speech_synthesis_invited_paper_.pdf
- 9.2. Statistical parametric speech synthesis, 访问时间为 九月 27, 2025, https://speechprocessingbook.aalto.fi/Synthesis/Statistical_parametric_speech_synthesis.html
- statistical parametric synthesis (SPSS) - learnius, 访问时间为 九月 27, 2025, https://learnius.com/slp/9+Speech+Synthesis/1+Fundamental+Concepts/2+Technologies/statistical+parametric+synthesis+(SPSS)
- Statistical Parametric Speech Synthesis - CMU School of Computer Science, 访问时间为 九月 27, 2025, https://www.cs.cmu.edu/~awb/papers/icassp2007/0401229.pdf
- Statistical Parametric Speech Synthesis with Joint Estimation of Acoustic and Excitation Model Parameters - ISCA Archive, 访问时间为 九月 27, 2025, https://www.isca-archive.org/ssw_2010/maia10_ssw.pdf
- Hidden Markov Model based Speech Synthesis: A Review - ResearchGate, 访问时间为 九月 27, 2025, https://www.researchgate.net/publication/284139182_Hidden_Markov_Model_based_Speech_Synthesis_A_Review
- A Multi Model HMM Based Speech Synthesis - Engineering Journal, 访问时间为 九月 27, 2025, https://engj.org/index.php/ej/article/view/1770/736
- HMM-based Speech Synthesis: Fundamentals and Its Recent Advances - YouTube, 访问时间为 九月 27, 2025, https://www.youtube.com/watch?v=MPdOp72bOCA
- (PDF) An HMM-based singing voice synthesis system - ResearchGate, 访问时间为 九月 27, 2025, https://www.researchgate.net/publication/221484784_An_HMM-based_singing_voice_synthesis_system
- Mixed Excitation for HMM-based Speech Synthesis - ISCA Archive, 访问时间为 九月 27, 2025, https://www.isca-archive.org/eurospeech_2001/yoshimura01_eurospeech.pdf
- (PDF) Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model - ResearchGate, 访问时间为 九月 27, 2025, https://www.researchgate.net/publication/315696313_Tacotron_A_Fully_End-to-End_Text-To-Speech_Synthesis_Model
- [1703.10135] Tacotron: Towards End-to-End Speech Synthesis - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/abs/1703.10135
- What is Tacotron? | Activeloop Glossary, 访问时间为 九月 27, 2025, https://www.activeloop.ai/resources/glossary/tacotron/
- [R] Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model (Wang et. al., Google), 访问时间为 九月 27, 2025, https://www.reddit.com/r/MachineLearning/comments/62c1on/r_tacotron_a_fully_endtoend_texttospeech/
- What are the key differences between the Tacotron and Wavenet text-to-speech (TTS) systems? - Quora, 访问时间为 九月 27, 2025, https://www.quora.com/What-are-the-key-differences-between-the-Tacotron-and-Wavenet-text-to-speech-TTS-systems
- Wavenet Model | jekyll-theme-cayman, 访问时间为 九月 27, 2025, https://haydensansum.github.io/CS205-Waveforms/wavenet.html
- What is WaveNet? | Activeloop Glossary, 访问时间为 九月 27, 2025, https://www.activeloop.ai/resources/glossary/wave-net/
- wavenet:agenerative model for raw audio - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/pdf/1609.03499
- WaveNet: A generative model for raw audio - Google DeepMind, 访问时间为 九月 27, 2025, https://deepmind.google/discover/blog/wavenet-a-generative-model-for-raw-audio/
- [1609.03499] WaveNet: A Generative Model for Raw Audio - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/abs/1609.03499
- Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/abs/1712.05884
- arXiv:1712.05884v2 [cs.CL] 16 Feb 2018, 访问时间为 九月 27, 2025, https://arxiv.org/pdf/1712.05884
- FastSpeech: Revolutionizing Speech Synthesis with Parallel Processing - Vapi AI Blog, 访问时间为 九月 27, 2025, https://vapi.ai/blog/fast-speech
- FastSpeech: Fast, Robust and Controllable Text to Speech, 访问时间为 九月 27, 2025, http://papers.neurips.cc/paper/8580-fastspeech-fast-robust-and-controllable-text-to-speech.pdf
- [1905.09263] FastSpeech: Fast, Robust and Controllable Text to Speech - ar5iv - arXiv, 访问时间为 九月 27, 2025, https://ar5iv.labs.arxiv.org/html/1905.09263
- FastSpeech: New text-to-speech model improves on speed, accuracy, and controllability, 访问时间为 九月 27, 2025, https://www.microsoft.com/en-us/research/blog/fastspeech-new-text-to-speech-model-improves-on-speed-accuracy-and-controllability/
- FastSpeech: Fast, Robust and Controllable Text to Speech, 访问时间为 九月 27, 2025, https://speechresearch.github.io/fastspeech/
- [2303.11607] Transformers in Speech Processing: A Survey - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/abs/2303.11607
- Survey: Transformer-based Models in Data Modality Conversion - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/html/2408.04723v1
- Transformers in Speech Processing: A Survey - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/pdf/2303.11607
- VITS - Hugging Face, 访问时间为 九月 27, 2025, https://huggingface.co/docs/transformers/model_doc/vits
- VITS - TTS 0.22.0 documentation, 访问时间为 九月 27, 2025, https://docs.coqui.ai/en/latest/models/vits.html
- VITS architecture - learnius, 访问时间为 九月 27, 2025, https://learnius.com/slp/9+Speech+Synthesis/2+Advanced+Topics/3+End-to-End+Models/VITS+architecture
- Understanding VITS: Revolutionizing Voice AI With Natural-Sounding Speech - Vapi, 访问时间为 九月 27, 2025, https://vapi.ai/blog/vits
- Wanna know how VITS works? · coqui-ai TTS · Discussion #2620 - GitHub, 访问时间为 九月 27, 2025, https://github.com/coqui-ai/TTS/discussions/2620
- Sample-Efficient Diffusion for Text-To-Speech Synthesis - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/html/2409.03717v1
- [2409.03717] Sample-Efficient Diffusion for Text-To-Speech Synthesis - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/abs/2409.03717
- [2302.13700] Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/abs/2302.13700
- [2409.09311] Improving Robustness of Diffusion-Based Zero-Shot Speech Synthesis via Stable Formant Generation - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/abs/2409.09311
- [2406.05551] Autoregressive Diffusion Transformer for Text-to-Speech Synthesis - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/abs/2406.05551
- Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron - Google, 访问时间为 九月 27, 2025, https://google.github.io/tacotron/publications/end_to_end_prosody_transfer/Towards%20End%20to%20End%20Prosody%20Transfer%20for%20Expressive%20Speech%20Synthesis%20with%20Tacotron.pdf
- AI-Powered Voice Assistants: A Guide - Convin, 访问时间为 九月 27, 2025, https://convin.ai/blog/which-ai-technology-is-used-behind-the-personal-voice-assistant
- Conversational AI Examples: How Siri, Alexa & Google Assistant have Human-like … - CFTE, 访问时间为 九月 27, 2025, https://blog.cfte.education/conversational-ai-examples-how-siri-alexa-google-assistant-have-human-like-conversations/
- Recorded long before launch, she did not know her voice was going to be ‘Siri’ : Meet the real voice behind the chatbot, 访问时间为 九月 27, 2025, https://timesofindia.indiatimes.com/etimes/trending/recorded-long-before-launch-she-did-not-know-her-voice-was-going-to-be-siri-meet-the-real-voice-behind-the-chatbot/articleshow/124148887.cms
- How GPS Learns to Speak Your Language - Smithsonian Magazine, 访问时间为 九月 27, 2025, https://www.smithsonianmag.com/innovation/how-gps-learns-to-speak-your-language-180963679/
- The voices of GPS and Siri: not what you think they are - Language Log, 访问时间为 九月 27, 2025, https://languagelog.ldc.upenn.edu/nll/?p=62704
- Meet the Voice Behind Your GPS #documentary #truestory - YouTube, 访问时间为 九月 27, 2025, https://www.youtube.com/shorts/xh-aY6HodHQ
- Blind and Vision Impairment: Screen Readers - ADCET, 访问时间为 九月 27, 2025, https://www.adcet.edu.au/inclusive-technology/blind-and-vision-impaired/screen-readers
- TTSReader | Text To Speech Reader Online. Accurate & Free, 访问时间为 九月 27, 2025, https://ttsreader.com/
- How to Create Immersive Audiobooks with Text-to-Speech - Respeecher, 访问时间为 九月 27, 2025, https://www.respeecher.com/blog/create-immersive-audiobooks-with-text-to-speech
- Text-to-Speech Technology in Audiobook Creation - Voice Control for ChatGPT, 访问时间为 九月 27, 2025, https://voicecontrol.chat/blog/posts/text-to-speech-technology-in-audiobook-creation
- Text to Speech for Game Developers - Murf AI, 访问时间为 九月 27, 2025, https://murf.ai/blog/text-to-speech-for-game-development
- Text to Speech for Gaming - Voice.ai, 访问时间为 九月 27, 2025, https://voice.ai/hub/tts/text-to-speech-for-gaming/
- AI text-to-speech for video game characters - Inworld AI, 访问时间为 九月 27, 2025, https://inworld.ai/landing/tts-gaming-ai-text-to-speech-for-video-game-characters
- Text to Speech for Gaming - ReadSpeaker, 访问时间为 九月 27, 2025, https://www.readspeaker.com/sectors/gaming/
- Emotional Speech Synthesis - Deepdub, 访问时间为 九月 27, 2025, https://deepdub.ai/glossary/emotional-speech-synthesis
- Prompt-Driven Text-to-Speech Synthesis Based on Emotion and Intensity Control - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/html/2501.06276v1
- Controllable Emotion Transfer For End-to-End Speech Synthesis | Request PDF - ResearchGate, 访问时间为 九月 27, 2025, https://www.researchgate.net/publication/349802607_Controllable_Emotion_Transfer_For_End-to-End_Speech_Synthesis
- Zero-Shot Voice Cloning Text-to-Speech for Dysphonia Disorder Speakers - ResearchGate, 访问时间为 九月 27, 2025, https://www.researchgate.net/publication/380298738_Zero-Shot_Voice_Cloning_Text-to-Speech_for_Dysphonia_Disorder_Speakers
- [2501.08566] Towards Lightweight and Stable Zero-shot TTS with Self-distilled Representation Disentanglement - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/abs/2501.08566
- SF-Speech: Straightened Flow for Zero-Shot Voice Clone - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/html/2410.12399v2
- Microsoft’s VALL-E AI can clone your voice in just three seconds - 311 Institute, 访问时间为 九月 27, 2025, https://www.311institute.com/microsofts-vall-e-ai-can-clone-your-voice-in-just-three-seconds/
- Vall E - Microsoft, 访问时间为 九月 27, 2025, https://www.microsoft.com/en-us/research/project/vall-e-x/vall-e/
- Vall E 2 - Microsoft, 访问时间为 九月 27, 2025, https://www.microsoft.com/en-us/research/project/vall-e-x/vall-e-2/
- Plachtaa/VALL-E-X: An open source implementation of Microsoft’s VALL-E X zero-shot TTS model. Demo is available in https://plachtaa.github.io/vallex - GitHub, 访问时间为 九月 27, 2025, https://github.com/Plachtaa/VALL-E-X
- Ethical Boundaries of Deepfake Technology in 2025 | Resemble AI, 访问时间为 九月 27, 2025, https://www.resemble.ai/deepfake-technology-ethical-implications/
- Friend or Faux: The Ethics of AI Voice Training and Why It Matters - Kits.AI, 访问时间为 九月 27, 2025, https://www.kits.ai/blog/ai-voice-cloning-ethics
- Audio Deepfake Detection: What Has Been Achieved and What Lies Ahead - PMC, 访问时间为 九月 27, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11991371/
- When Large Language Models Meet Speech: A Survey on Integration Approaches - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/html/2502.19548v1
- Recent Advances in Speech Language Models: A Survey - arXiv, 访问时间为 九月 27, 2025, https://arxiv.org/html/2410.03751v1
更多推荐
所有评论(0)