脚本位置   egs/librisppech/s5/local/run_rnnlm.sh

github地址为:https://github.com/kaldi-asr/kaldi/blob/master/egs/librispeech/s5/local/run_rnnlm.sh

大体步骤:

首先设置参数,

rnnlm_options = "-hidden 150 -direct 1000 -direct-order 5"    #rnn 的网络结构
rnnlm_tag="h150_me5-1000"                                                 #本次模型的tag
num_threads=8 # set this value to the number of physical cores on your CPU
stage=0                                            
rnnlm_ver=faster-rnnlm                                                           #训练工具版本

stage 1:

数据准备,生成train.txt 与 dev.txt

stage 2:

模型训练,

  • 首先检查faster-rnn是否安装(tools下的脚本安装有些问题,有个依赖工具需要手动安装,看下build.sh应该就可以搞定了这里就不详述啦)
  • 设置rnnlm_path
  • 设置rnnlm_cmd = "$rnnlm_path"
  • 执行模型训练命令,$rnnlm_cmd --rnnlm $modeldir/rnnlm.tmp \ 
  •                                                      --train $datadir/train.txt \            #训练数据
  •                                                      --valid $datadir/dev.txt  \            #验证数据
  •                                                      --threads $num_threads \          #并行数
  •                                                      $rnnlm_options \                        #rnn网络结构
  •                                                      --retry 1 -stop 1.0 2>&1 | tee $modeldir/rnnlm.log

stage 3:

对lattices重评分

使用的脚本为steps/rnnlmrescore.sh --skip-scoring false \  # 是否跳过scoring 

                                                          --N 100  \               # nbest中的N

                                                          $coef  \                   # rnnlm的权重参数

                                                          $old_lang_dir $modeldir $datasetdir $latticedir $resultdir

脚本中只对tri6b下的模型的dev进行了重评分,每组都设置3种rnnlm权重(0.25,0.5,0.75),结果确实要优于n-gram。

实验结果

%WER 7.31 [ 3976 / 54402, 617 ins, 364 del, 2995 sub ] exp/tri6b/decode_tglarge_dev_clean/wer_13_0.5
%WER 6.91 [ 3759 / 54402, 578 ins, 342 del, 2839 sub ] exp/tri6b/decode_tglarge_dev_clean_faster-rnnlm_h150_me5-1000_L0.25/wer_14_0.5
%WER 7.06 [ 3842 / 54402, 611 ins, 323 del, 2908 sub ] exp/tri6b/decode_tglarge_dev_clean_faster-rnnlm_h150_me5-1000_L0.5/wer_13_0.5
%WER 7.50 [ 4081 / 54402, 671 ins, 325 del, 3085 sub ] exp/tri6b/decode_tglarge_dev_clean_faster-rnnlm_h150_me5-1000_L0.75/wer_13_0.5
%WER 21.28 [ 10842 / 50948, 1331 ins, 1352 del, 8159 sub ] exp/tri6b/decode_tglarge_dev_other/wer_15_0.5
%WER 20.70 [ 10548 / 50948, 1393 ins, 1196 del, 7959 sub ] exp/tri6b/decode_tglarge_dev_other_faster-rnnlm_h150_me5-1000_L0.25/wer_14_0.5
%WER 20.74 [ 10565 / 50948, 1429 ins, 1164 del, 7972 sub ] exp/tri6b/decode_tglarge_dev_other_faster-rnnlm_h150_me5-1000_L0.5/wer_14_0.5
%WER 21.03 [ 10714 / 50948, 1455 ins, 1175 del, 8084 sub ] exp/tri6b/decode_tglarge_dev_other_faster-rnnlm_h150_me5-1000_L0.75/wer_15_0.5

 

Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐