pytorch使用pytorch-kaldi实现ASR语音识别

pytorch使用pytorch-kaldi实现ASR语音识别Song• 10986 次浏览 • 0 个回复 • 2018年09月17日pytorch-kaldi是开发最先进的DNN/RNN混合语音识别系统的公共存储库。DNN部分由pytorch管理，而特征提取，标签计算和解码使用kaldi工具包执行。前面我们已经介绍了Linux/Windos搭建安装Kaldi环境实现ASR语音识别介绍：该项目发

Quake~

1788人浏览 · 2020-10-14 16:50:26

Quake~ · 2020-10-14 16:50:26 发布

pytorch使用pytorch-kaldi实现ASR语音识别

Song • 10986 次浏览 • 0 个回复 • 2018年09月17日

pytorch-kaldi是开发最先进的DNN/RNN混合语音识别系统的公共存储库。DNN部分由pytorch管理，而特征提取，标签计算和解码使用kaldi工具包执行。前面我们已经介绍了Linux/Windos搭建安装Kaldi环境实现ASR语音识别

介绍：

该项目发布了一系列代码和实用程序，以开发最先进的DNN/RNN混合语音识别系统。DNN/RNN部分在pytorch中实现，而特征提取，对齐和解码使用Kaldi工具包执行。提供的系统的当前版本具有以下功能：

支持不同类型的NN（例如，MLP，RNN，LSTM，GRU，最小GRU，轻GRU）[1,2,3]
支持recurrent dropout
支持batch和图层规范化
支持单向/双向RNN
支持residual/skip连接
支持双正则化[4]
python2/python3兼容性
多gpu训练
recovery/saving checkpoints
可与kaldi轻松对接。

所提供的解决方案专为标准机器和HPC集群上的大规模语音识别实验而设计。

先决条件：

必须是Linux（我们在Ubuntu 17.04和各种版本的Debian上进行了测试）。
我们建议在GPU机器上运行代码。确保安装了cuda库（https://developer.nvidia.com/cuda-downloads）并且正常工作。我们在`cuda 9.0,9.1和8.0上测试了我们的系统。确保安装了python（代码使用python 2.7和python 3.6进行测试）。建议使用Anaconda`（https://anaconda.org/anaconda/python）。
如果没有安装pytorch，请先安装（http://pytorch.org/）。我们在`pytorch 0.3.0和pytorch 0.3.1上测试了我们的代码。较旧版本的pytorch可能会出现错误。要检查安装，请键入python，然后在进入控制台后输入import torch`。确保一切都很好。
请安装Kaldi（http://kaldi-asr.org/）。正如安装过程中建议的那样，不要忘记将Kaldi二进制文件的路径添加到`$HOME/.bashrc`中。作为检查安装的第一个测试，打开`bash shell，键入copy-feats`并确保没有出现错误。
从kaldi-io-for-python项目安装kaldi-io软件包（https://github.com/vesis84/kaldi-io-for-python）。它提供了`kaldi`和`python`之间的简单接口。要安装它：
- 1、克隆代码
```
git clone https://github.com/vesis84/kaldi-io-for-python.git
```
- 2、添加export PYTHONPATH=$PYTHONPATH:<kaldi-io-dir>到$HOME/.bashrc和其来源

输入python -c "import kaldi_io"以检查包是否已正确安装。您可以在https://github.com/vesis84/kaldi-io-for-python上找到更多信息（包括一些读写测试）。

RNN模型的实现根据训练句的长度对训练句进行排序。这允许系统在形成微型机时最小化零填充的需要。使用sox提取每个句子的持续时间。请确保已安装（仅在create_chunk.sh中生成功能列表时使用）

pytorch-kaldi源码环境：

cd pytorch-kaldi
source ./env.sh

如何运行TIMIT实验：

尽管代码可以很容易地适应任何语音数据集，但在文档的以下部分中，我们提供了一个基于流行的TIMIT数据集的示例。

1、运行TIMIT的Kaldi s5基线。此步骤对于计算稍后用于训练pytorch MLP的特征和标签是必要的。尤其是：

转到$ KALDI_ROOT/egs/timit/s5然后在path.sh之前运行run.sh脚本。
确保一切正常。
请使用local/nnet/run_dnn.sh运行Karel的DNN基线。
不要忘记使用以下命令计算test和dev数据的对齐方式。如果您想使用tri3对齐方式，请键入：

steps/align_fmllr.sh --nj 4 data/dev data/lang exp/tri3 exp/tri3_ali_dev

steps/align_fmllr.sh --nj 4 data/test data/lang exp/tri3 exp/tri3_ali_test

如果您想使用dnn alignments（如建议的那样），请输入：

steps/nnet/align.sh --nj 4 data-fmllr-tri3/dev data/lang exp/dnn4_pretrain-dbn_dnn exp/dnn4_pretrain-dbn_dnn_ali_dev

steps/nnet/align.sh --nj 4 data-fmllr-tri3/test data/lang exp/dnn4_pretrain-dbn_dnn exp/dnn4_pretrain-dbn_dnn_ali_test

2、将功能列表拆分为块。

转到pytorch-kaldi文件夹。
create_chunks.sh脚本首先对kaldi特征列表进行清洗或排序（根据句子长度），然后将其拆分为一定数量的块。混合列表可能适用于前馈DNN，而排序列表可用于RNN（用于最小化形成微缩位时零填充的需要）。该代码还计算每个发言者和每个句子的CMVN。

对于清洗mfcc功能运行：

./create_chunks.sh $KALDI_ROOT/egs/timit/s5/data/train mfcc_shu 5 train 0
./create_chunks.sh $KALDI_ROOT/egs/timit/s5/data/dev mfcc_shu 1 dev 0
./create_chunks.sh $KALDI_ROOT/egs/timit/s5/data/test mfcc_shu 1 test 0

对于有序的mfcc功能运行：

./create_chunks.sh $KALDI_ROOT/egs/timit/s5/data/train mfcc_ord 5 train 1
./create_chunks.sh $KALDI_ROOT/egs/timit/s5/data/dev mfcc_ord 1 dev 1
./create_chunks.sh $KALDI_ROOT/egs/timit/s5/data/test mfcc_ord 1 test 1

注意：每个训练块应包含大约1小时的语音。对于100小时的较大训练数据集，您应该使用：

./create_chunks.sh $KALDI_ROOT/egs/your_dataset/data/train mfcc_ord 100 train 1

3、设置配置文件。

进入cfg文件夹
打开配置文件（例如，TIMIT_MLP.cfg，TIMIT_GRU.cfg）并根据您的路径修改它：
tr_fea_scp包含使用create_chunks.sh创建的功能列表。
tr_fea_opts允许用户轻松添加规范化，衍生物和其他类型的特征处理。
tr_lab_folder是包含对齐（标签）的kaldi文件夹。
tr_lab_opts允许用户派生依赖于上下文的电话目标（当设置为ali-to-pdf时）或单声道目标（当设置为ali-to-phone --per-frame时）。
请修改dev和测试数据的路径。
您可以根据需要随意修改DNN架构和其他优化参数。
所需的count_file用于在馈送解码器之前规范化DNN后验。该归一化步骤对于HMM-DNN语音识别是至关重要的。事实上，DNN提供后验概率，而HMM是与可能性一起工作的生成模型。为了得出所需的可能性，可以简单地将后验除以先验概率。计数文件包含上述先验，通过简单计算电话状态得出。如果运行完整的TIMIT s5配方（包括DNN部分），则会在此处自动创建计数文件：

$KALDI_ROOT/egs/timit/s5/exp/dnn4_pretrain-dbn_dnn/ali_train_pdf.counts

否则，您可以使用以下命令临时创建：

alidir=/home/mirco/kaldi-trunk/egs/timit/s5/exp/tri3_ali (change it with your own path)

num_pdf=$(hmm-info $alidir/final.mdl | awk '/pdfs/{print $4}')
labels_tr_pdf="ark:ali-to-pdf $alidir/final.mdl \"ark:gunzip -c $alidir/ali.*.gz |\" ark:- |"

analyze-counts --verbose=1 --binary=false --counts-dim=$num_pdf "$labels_tr_pdf" ali_train_pdf.counts

使用use_cuda=1选项在GPU上运行代码（强烈建议）。
使用save_gpumem = 0选项来保存gpu内存。代码会慢一点（大约10-15％），但它可以节省gpu内存。
有关所有可能选项的更详细说明，请参阅config_description.cfg。

4、运行实验。

键入以下命令以运行DNN训练：

./run_exp.sh cfg/baselines/TIMIT_MLP.cfg

或者

./run_exp.sh cfg/baselines/TIMIT_GRU.cfg

要检查可能出现的错误，请大家看看到log.log保存到在CFG文件中指定的输出文件夹（out_folder）文件。请注意，run_exp.sh是一个执行完整ASR实验（训练，转发和解码步骤）的bash脚本。如果一切正常，您应该在输出文件夹中找到以下文件：

文件res.res总结了各个时期的训练和评估表现。查看exp/our_results，了解运行代码时应该获得的结果。
包含语音识别结果的文件夹decode_test。如果您输入./RESULTS，您应该能够看到每个实验的错误率（PER％）。
.pkl模型是用于语音解码的最终模型。
.info文件报告每个训练块的损失和错误性能。
log.log文件包含训练过程中可能发生的错误。

添加自定义DNN模型

可以轻松编写自己的自定义DNN模型并将其插入neural_nets.py。与已经实现的模型类似，用户必须编写初始化DNN参数的init方法和forward方法。正向方法应该输入当前特征x和相应的lab标签。它必须在输出端提供处理过的小批量的损失，误差和后验概率。创建自定义DNN后，应以这种方式将新模型导入run_nn_single_ep.py文件：