语音识别 Speech recognition 中的 CTC cost，CTC损失函数（学习心得）

seq2seq 模型在语音识别方面的应用让人激动！什么是语音识别问题呢？气压随着时间推移不断变化，产生了音频人的耳朵可以衡量不同频率和强度的声波输入整个原始的音频片段 raw audio clip生成一个声谱图 generate a spectrogram（横轴是时间，纵轴是声音的频率，颜色显示声波能量的大小）伪空白输出 false blank outputs：经常用于预处理步骤，在输入到神经网络

AItrust

1463人浏览 · 2020-05-08 22:05:57

AItrust · 2020-05-08 22:05:57 发布

seq2seq 模型在语音识别方面的应用让人激动！

在这里插入图片描述
什么是语音识别问题呢？
气压随着时间推移不断变化，产生了音频
人的耳朵可以衡量不同频率和强度的声波

输入整个原始的音频片段 raw audio clip
生成一个声谱图 generate a spectrogram（横轴是时间，纵轴是声音的频率，颜色显示声波能量的大小）

伪空白输出 false blank outputs：经常用于预处理步骤，在输入到神经网络之前

过去一段时间，语音识别是基于音位 phonemes 来构建的
而音位是由人工设计而成 hand-engineered

但是在 end-to-end 的神经网络中，音位已经不再需要了
我们只需要一个很大的数据集
学术研究中需要 300 小时的音频，专业研究中，可能超过 3000 小时，都是合理的大小
最好的商业系统，已经训练了超过1万小时的数据，甚至超过10万，而且还在变得更大！

在这里插入图片描述
如何建立一个语音识别系统呢？
比如，我们可以利用注意力模型

在这里插入图片描述
另外一种效果不错的方法：CTC cost （利用 CTC 损失函数）
CTC：Connectionist Temporal Classification
这是由 Alex Graves, Santiago Fernandes, Faustino Gomez, Jurgen Schmidhuber 提出