孤立词语音识别（4）——HMM-GMM孤立词语音识别

标题

coding-piggy

1510人浏览 · 2020-05-09 17:06:04

coding-piggy · 2020-05-09 17:06:04 发布

我们以一个单词为最小的训练/识别单位，以10个数字0-9的中文发音为例。

训练

10个数字的音频（wav），分别输入；
分别提取MFCC特征向量；
分别用特征向量去训练模型；
最终得到10个模型（但是集合到一个model文件里）。

识别

一段连续音频输入；
语音切割算法，分成单个字；
我用的是wadrtcvad库。
对每个单字，分别用10个模型测试，最终输出结果为概率最大的一个。

def gen_wavlist(wavpath):
	wavdict = {}
	for (dirpath, dirnames, filenames) in os.walk(wavpath):
		for filename in filenames:
			if filename.endswith('.wav'):
				filepath = os.sep.join([dirpath, filename])
				fileid = filename.strip('.wav')
				wavdict[fileid] = filepath
	return wavdict

def compute_mfcc(file):
	fs, audio = wavfile.read(file)
	mfcc_feat = calcMFCC_delta_delta(audio, fs, win_length=0.025, win_step=0.01, cep_num=13, filters_num=26, NFFT=512)
	return mfcc_feat

class Model():
	"""docstring for Model"""
	def __init__(self, CATEGORY=None, n_comp=3, n_mix = 3, cov_type='diag', n_iter=1000):
		super(Model, self).__init__()
		self.CATEGORY = CATEGORY
		self.category = len(CATEGORY)
		self.n_comp = n_comp
		self.n_mix = n_mix
		self.cov_type = cov_type
		self.n_iter = n_iter
		# 关键步骤，初始化models，返回特定参数的模型的列表
		self.models = []
		for k in range(self.category):
			model = hmm.GMMHMM(n_components=self.n_comp, n_mix = self.n_mix,
								covariance_type=self.cov_type, n_iter=self.n_iter)
			self.models.append(model)

	# 模型训练
	def train(self, wavdict=None):
		for k in range(12):
			subdata = []
			model = self.models[k]
			for x in wavdict:
				if x == self.CATEGORY[k]:
					mfcc_feat = compute_mfcc(wavdict[x])
					model.fit(mfcc_feat)
					model.label = self.CATEGORY[k]

	# 使用特定的测试集合进行测试
	def test(self, wavdict=None):
		result = []
		for x in wavdict:
			subre = []
			cur_result = []
			mfcc_feat = compute_mfcc(wavdict[x])
			for k in range(self.category):
				model = self.models[k]
				# 生成当前模型下，每个数据的得分情况
				re = model.score(mfcc_feat)
				subre.append(re)
			# 汇总得分情况，当前得分最高的模型就是这个数据的label
			max_score_index = subre.index(max(subre))
			cur_result = self.CATEGORY[max_score_index]
			# print('当前结果：', cur_result)
			result.append(cur_result)
		# 返回种类的类别标签
		print('识别得到结果：\n',result)
		return result

	def save(self, path="models.pkl"):
		# 利用external joblib保存生成的hmm模型
		joblib.dump(self.models, path)


	def load(self, path="models.pkl"):
		# 导入hmm模型
		self.models = joblib.load(path)

参考文献

https://blog.csdn.net/chinatelecom08/article/details/82901480?utm_source=blogxgwz8
https://www.pianshen.com/article/3636324839/

点击阅读全文

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生