kaldi中的rnnlm训练脚本

脚本位置 egs/librisppech/s5/local/run_rnnlm.shgithub地址为：https://github.com/kaldi-asr/kaldi/blob/master/egs/librispeech/s5/local/run_rnnlm.sh大体步骤：首先设置参数，rnnlm_options ="-hidden 150 -direct 1000 -direct-ord

zzzzzzk_nuaa

1121人浏览 · 2020-07-07 14:11:14

zzzzzzk_nuaa · 2020-07-07 14:11:14 发布

脚本位置 egs/librisppech/s5/local/run_rnnlm.sh

github地址为：https://github.com/kaldi-asr/kaldi/blob/master/egs/librispeech/s5/local/run_rnnlm.sh

大体步骤：

首先设置参数，

rnnlm_options = "-hidden 150 -direct 1000 -direct-order 5" #rnn 的网络结构
rnnlm_tag="h150_me5-1000" #本次模型的tag
num_threads=8 # set this value to the number of physical cores on your CPU
stage=0
rnnlm_ver=faster-rnnlm #训练工具版本

stage 1：

数据准备，生成train.txt 与 dev.txt

stage 2：

模型训练，

首先检查faster-rnn是否安装（tools下的脚本安装有些问题，有个依赖工具需要手动安装，看下build.sh应该就可以搞定了这里就不详述啦）
设置rnnlm_path
设置rnnlm_cmd = "$rnnlm_path"
执行模型训练命令，$rnnlm_cmd --rnnlm $modeldir/rnnlm.tmp \
--train $datadir/train.txt \ #训练数据
--valid $datadir/dev.txt \ #验证数据
--threads $num_threads \ #并行数
$rnnlm_options \ #rnn网络结构
--retry 1 -stop 1.0 2>&1 | tee $modeldir/rnnlm.log

stage 3:

对lattices重评分

使用的脚本为steps/rnnlmrescore.sh --skip-scoring false \ # 是否跳过scoring

--N 100 \ # nbest中的N

$coef \ # rnnlm的权重参数

$old_lang_dir $modeldir $datasetdir $latticedir $resultdir

脚本中只对tri6b下的模型的dev进行了重评分，每组都设置3种rnnlm权重（0.25，0.5，0.75），结果确实要优于n-gram。

实验结果

%WER 7.31 [ 3976 / 54402, 617 ins, 364 del, 2995 sub ] exp/tri6b/decode_tglarge_dev_clean/wer_13_0.5
%WER 6.91 [ 3759 / 54402, 578 ins, 342 del, 2839 sub ] exp/tri6b/decode_tglarge_dev_clean_faster-rnnlm_h150_me5-1000_L0.25/wer_14_0.5
%WER 7.06 [ 3842 / 54402, 611 ins, 323 del, 2908 sub ] exp/tri6b/decode_tglarge_dev_clean_faster-rnnlm_h150_me5-1000_L0.5/wer_13_0.5
%WER 7.50 [ 4081 / 54402, 671 ins, 325 del, 3085 sub ] exp/tri6b/decode_tglarge_dev_clean_faster-rnnlm_h150_me5-1000_L0.75/wer_13_0.5
%WER 21.28 [ 10842 / 50948, 1331 ins, 1352 del, 8159 sub ] exp/tri6b/decode_tglarge_dev_other/wer_15_0.5
%WER 20.70 [ 10548 / 50948, 1393 ins, 1196 del, 7959 sub ] exp/tri6b/decode_tglarge_dev_other_faster-rnnlm_h150_me5-1000_L0.25/wer_14_0.5
%WER 20.74 [ 10565 / 50948, 1429 ins, 1164 del, 7972 sub ] exp/tri6b/decode_tglarge_dev_other_faster-rnnlm_h150_me5-1000_L0.5/wer_14_0.5
%WER 21.03 [ 10714 / 50948, 1455 ins, 1175 del, 8084 sub ] exp/tri6b/decode_tglarge_dev_other_faster-rnnlm_h150_me5-1000_L0.75/wer_15_0.5

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

ADS1292R 使用过程心电图高精度ADC模块

文章目录1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础https://www.ti.com.cn/cn/lit/wp/slyy192/slyy192.pdf?ts=1600659610730&ref_u

开放原子开发者工作坊

实现一个家庭安防与环境监测系统（一）

开放原子开发者工作坊

【cf】Codeforces Round #774 (Div. 2) 前4题

题目A. Square Counting 简单数学题目大意题解代码B. Quality vs Quantity 排序题目大意题解代码C. Factorials and Powers of Two 状态压缩dp+位运算题目大意题解代码D. Weight the Tree 树形dp+dfs题目大意题解代码E. Power Board 看起来像是数论？许多年没打cf了，偶尔打了一盘，恢复紫名了。A. S