在自动语音识别(Automatic speech recognition, ASR)中,尽管出现了深度神经网络(DNN)模型,但如何建立在不同使用领域稳健运行的声学模型仍然是一个开放的研究挑战。近年来,人们提出了几种方法,使训练良好的网络从源域适应到新的目标域:(1)数据增强。(2)使用辅助的特征。(3)自适应选定参数。(4)对抗方法。(5)微调方法。
 这些研究中绝大多数的共同点是,一些转录数据即使通常来自目标域的数量有限,也可以用于声学模型的调整。这种假设对于资源充足的语言(Well-resourced, WR)是合理的,但对于资源不足的语言(Low-resourced, LR)可能就不成立了,因为即使源域中可用的数据量也可能非常有限,而安排新域的数据转录是昂贵的或不切实际的。

题目:Cross Lingual Transfer Learning for Zero-Resource Domain Adaptation(ICASSP 2020)
关键词:acoustic modelling, domain adaptation, multilingual speech recognition
在这里插入图片描述

一、所要解决的问题

语音识别中,低资源语言的域自适应问题。

二、方法

2.1 概述

采用Mutil-task并采用共享网络底层的思路,通过在高资源语言中进行域自适应,将模型从源域迁移到目标域,再利用低资源语言语料微调,从而同时达到在低资源中进行域自适应的目的。

2.2 具体操作:

(1)同时使用源域的高资源和低资源语料训练Mutil-lingual模型,得到M1。
(2)在M1上使用目标域的高资源语料训练,将模型在目标域进行自适应得到M2。
(3)在M2上使用目标域的低资源语料训练,微调得到最终模型M3。
在这里插入图片描述

三、实验分析

评价指标是词错误率(Word error rate,WER)

3.1 数据介绍

表一:英语及西班牙语语料分布
CTSBN
English~200h的子集~150h
Spanish~163h~30h
表二 塔加拉族语和立陶宛语语料分布
时长
Tagalog80h
Lithuanian40h

3.2 模型
7层TDNN。

3.3 实验结果
3.3.1 论文中使用英语和西班牙语做了一组实验,两种语言都有源域(Conversational telephone speech,CTS)语料和目标域(Broadcast news,BN)语料。其中英语是高资源(Well-resourced,WR),西班牙语是低资源(Low-resourced,LR)。且全部是8kHz采样频率。

实验结果一
在这里插入图片描述
( a ) mono-ling BN AM:只采用BN域的单语语料训练的模型,WR语言和LR语言在各自的BN域中训练的模型,在对应的BN域测试集上的表现。
( b ) mono-ling CTS AM:只采用CTS域单语语料训练的模型,WR语言和LR语言在各自的CTS域中训练的模型,在对应的CTS域测试集及BN域测试集上表现。
  其中,两种语言在BN域中WER都有所提高,尤其是LR语言相比 ( a ) WER非常高。
( c ) mutil-ling CTS AM:采用CTS域的WR语言和LR语言混合后的语料训练的模型,在CTS域和BN域测试集上的表现。
  其中,CTS域上WR语言和LR语言WER都有所提高;BN域上两者相比 ( b ) WER略有下降,但相比 ( a ) WER仍然很高。

实验结果二
在这里插入图片描述
( a ) 前两行(1)和(2)来自表(1),(3)为本文提出的方法:使用CTS域的WR语言和LR语言混合后的语料训练得到M1,再使用BN域的WR语言语料将模型迁移到目标域得到M2,最后使用BN域的LR语言的语料对模型进行finetune得到M3,分别使用M2、M3在BN域对应测试集上测试得到(3)的测试结果。
( b ) 为了验证本文提出方法的有效性,将本文提出的方法同另外相关的两种跨语言信息迁移的方法(mutil-task CL和mutil-cond CL)进行对比。
mutil-task CL: 将CTS域LR语言,CTS域WR语言和BN域WR语言看作三种任务,同时进行多任务训练,得到模型M1,M2和M3训练方法同(3)相同,M1在BN域两个测试集上测试得到(4),M2和M3在BN域对应测试集上测试得到(5)。
mutil-cond CL: 将CTS域LR语言,混合的CTS域WR语言和BN域WR语言看作两种任务,同时进行多任务训练得到模型M1,M2和M3训练方法同(3)相同,M1在BN域两个测试集上测试得到(6),M2和M3在BN域对应测试集上测试得到(7)。
结论:
a. 实验发现微调时微调前3层网络(共7层TDNN)1轮时表现最好。
b. 两种对比的方法finetune后都没有表现出提升。实验显示最好的finetune是微调最少的epoch和最少的层。其他配置下WER仅有正负0.1的震荡。
c. 本文提出方法可以在WR和LR目标域找到一个更好的平衡。

实验结果三
实验使用了另外两种相比于西班牙语和英语相关性更低的语言(塔加拉族语和立陶宛语) 来验证该方法的有效性。同时CTS域(源域)数据采用8kHz采样,而BN域和TB域(目标域)采用16kHz采样。
在这里插入图片描述
( a ) mono-ling CTS: 采用CTS域单语训练的模型,在BN域和TB域对应语言测试集上WER的表现。
( b ) multi-ling CTS: 采用CTS域多任务训练方法训练的模型,前面的由CTS域的英语和塔加拉族语训练,后面的由英语和立陶宛语训练。
( c ) pproposed CL adapt 为采用本文提出的训练方法进行训练的模型。
结论:
a. 本文提出的方法在WR语言和LR语言差距较大的情况下也适用。在源域为低频采样和目标域为高频采样的情况下也适用。
b. 再与目标域WR语言更接近情况下该方法表现更好。

以上是我们今天的分享,欢迎大家批评指正。

参考文献:
[1] A. Abad, P. Bell, A. Carmantini, and S. Renals, “Cross Lingual Transfer Learning for Zero-Resource Domain Adaptation,” ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6909-6913, 2020.

点击阅读全文
Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐