【模式识别】隐马尔可夫模型（HMM）

隐马尔可夫模型（HMM）这里写目录标题隐马尔可夫模型（HMM）引言HMM模型定义模型两个假设HMM解决的三个基本问题1、Evaluation问题2、Learning问题3、Decoding问题Evaluation问题求解（前向算法和后向算法）前向算法引言机器学习领域分为两个流派：频率派和贝叶斯派。频率派逐渐发展为统计机器学习学科，其核心问题为优化问题。定义出定义一个模型，计算损失函数，再通过随机梯

阿珍爱上了阿强binz

1956人浏览 · 2020-10-24 00:43:00

阿珍爱上了阿强binz · 2020-10-24 00:43:00 发布

隐马尔可夫模型（HMM）

引言

机器学习领域分为两个流派：频率派和贝叶斯派。频率派逐渐发展为统计机器学习学科，其核心问题为优化问题。定义出定义一个模型，计算损失函数，再通过随机梯度下降、牛顿拟牛顿法等最优化方法进行求解。贝叶斯派发展出概率图模型，最终解决的是推断问题，通过计算后验概率，使用数值积分、蒙特卡罗方法等方法进行求解。

本文中的HMM方法即是一种概率图模型，而且是一种无向概率图模型。隐马尔可夫模型（Hidden Markov Model,HMM）,是一种可用于标注问题的统计学习模型，其最早在NLP领域大放异彩，可以用于语音识别、机器翻译，并在上世纪八十年代开始被应用于生物信息领域。

HMM模型定义

一个标准的马尔可夫过程中，状态对于观察者来说都是可见的，由此通过初始分布以及状态转移概率便可以完全确定一个马尔可夫过程（参见《随机过程》，马尔可夫过程部分），由此衍生出来的隐马尔可夫模型，描述的是由隐藏的马尔科夫链随机生成不可观测的状态序列，再由每个状态生成随机的可观测序列的过程，属于生成模型。

模型

即：马尔可夫链 → 状态序列（不可观测）→观测序列（可观测），由下图直观显示：

在这里插入图片描述

一个隐马尔科夫模型可以由初始概率分布、状态转移概率分布、观测概率分布确定。

初始概率分布指的是初始状态的概率向量 $\pi$ ,状态转移概率分布指的是状态转移矩阵A,观测概率分布指的是观测概率矩阵B。其中， $\pi$ 和A确定了隐藏的马尔可夫链，生成不可观测状态序列。B和状态序列则确定了如何产生观测序列。所以隐马尔科夫模型 $\lambda$ 可以用三元符号表示：
$\lambda=(A,B,\pi)$

两个假设

同时，隐马尔可夫模型需要满足两个假设：

(a)马尔可夫性（无后效性）：下一个时刻的状态至于当前时刻状态有关，与之前所有时刻均无关；

(b)观测独立性：同一时刻的观测只与当前时刻的状态相关，与其它观测和状态均无关。

HMM解决的三个基本问题

1、Evaluation问题

即概率计算问题，给定模型λ和观测序列O，计算在模型λ下模型O出现的概率P(O|λ)；

解决方法：前向算法和后向算法。

2、Learning问题

已知观测序列O，估计模型λ；

解决方法：EM算法，参见：【模式识别】期望最大化算法（EM算法）。

3、Decoding问题

即预测问题，给定观测序列O，求最有可能的对应的状态序列。即已知λ和O，求I = argmaxP(I|O)。

进而引申出两个问题：

(a).预测问题：求 $p(i_{t+1}|o_1,...,o_t)$

(b).滤波问题：求 $p(i_t|o_1,...,o_t)$

Evaluation问题求解（前向算法和后向算法）

输入：模型λ和观测序列O

输出：P(O|λ)

根据概率论中的基本定理，我们有：
$P(O|\lambda)=\sum_IP(O,I|\lambda)=\sum_IP(O|I,\lambda)P(I|\lambda)$
其中：
$p(I|\lambda)=p(i_1,i_2,\cdots,i_t|\lambda)=p(i_t|i_1,i_2,\cdots,i_{t-1},\lambda)p(i_1,i_2,\cdots,i_{t-1}|\lambda)$

根据齐次 Markov 假设： $p(i_t|i_1,i_2,\cdots,i_{t-1},\lambda)=p(i_t|i_{t-1})=a_{i_{t-1}i_t}$ 所以： $p(I|\lambda)=\pi_1\prod\limits_{t=2}^Ta_{i_{t-1},i_t}$ 又由于： $p(O|I,\lambda)=\prod\limits_{t=1}^Tb_{i_t}(o_t)$ 于是： $p(O|\lambda)=\sum\limits_{I}\pi_{i_1}\prod\limits_{t=2}^Ta_{i_{t-1},i_t}\prod\limits_{t=1}^Tb_{i_t}(o_t)$ 我们看到，上面的式子中的求和符号是对所有的观测变量求和，于是复杂度为 $O(TN^T)$ ,可知此方法计算量极大，下面介绍有效算法，前向-后效算法。

前向算法

算法推导

首先给出前向概率定义：给定隐马尔可夫模型λ和O，将t时刻的 $i_t$ 以及到t时刻为止的所有观测序列的联合概率密度记为 $\alpha_t(i)$ （表达式如图）则T时刻有 $\alpha_T(i)$ ，所以我们可以用 $\alpha_T(i)$ 将要求的P(O|λ)表达出来。此文问题从解P(O|λ)变为解 $\alpha_T(i)$ ，我们希望能发现 $\alpha_t(i)$ 和 $\alpha_{t+1(j)}$ 的关系，之后即可通过递推的方法求得最后时刻的 $\alpha_T(i)$ ，具体推导如图。
在这里插入图片描述

算法流程

所以我们就得到了前向算法：

输入：隐马尔可夫模型λ，观测序列O

输出：观测序列概率P(O|λ)

a.初值： $\alpha_1(i)=\pi_ib_i(o_1)$ , $ i=1,2,…,N$

b.递推：对于t=1,2,…,T-1
$\alpha_{t+1}(i)=\sum_{j=1}^N\alpha_t(j)a_{ji}b_i(o_{t+1})，其中i=1,2,3,...,N$
c.终止：
$P(O|\lambda)=\sum^N_{i=1}\alpha_T(i)$

后向算法

算法推导

后向算法与前向算法类似，它通过定义后向传播概率 $\beta_t(i)$ 从后往前实现递推过程得到 $\beta_1(i)$ ，并使用 $\beta_1(i)$ 表示出P(O|λ)，内容如下图

在这里插入图片描述

算法流程

输入：隐马尔可夫模型λ，观测序列O

输出：观测序列概率P(O|λ)

a.初值： $\beta_t(i)=1$ , $ i=1,2,…,N$

b.递推：对于t=1,2,…,T-1
$\beta_{t}(i)=\sum_{j=1}^Na_{ij}b_j(o_{t+1})\beta_{t+1}(j)，其中i=1,2,3,...,N$
c.终止：
$P(O|\lambda)=\sum^N_{i=1}\pi_ib_i(o_1)\beta_1(i)$
前向和后向传播算法复杂度都大大缩减。

Learning问题(EM算法求解)

输入：观测数据 $O=(o_1,...o_T)$
输出：隐马尔可夫模型参数 $\lambda=(\pi,A,B)$

EM算法求解

很明显这是一个含有隐变量的概率模型，故可以使用EM算法求解：
1：在 MLE 中，完全数据的对数似然函数为： $P(O,I|\lambda)$
2:EM算法：Q函数为

$Q（\lambda,\lambda^{(t）})= \sum\limits_I\log P(O,I|\lambda)p(O,I|\lambda^t)=\sum\limits_I[\log \pi_{i_1}+\sum\limits_{t=2}^T\log a_{i_{t-1},i_t}+\sum\limits_{t=1}^T\log b_{i_t}(o_t)]p(O,I|\lambda^t)$

对 $\pi^{t+1}$ ：
$\pi^{t+1}=\arg\max_{\pi} \sum_I\log \pi_{i_1}P(O,I|\lambda^t)$

上面的式子中，对 $i_2,i_2,\cdots,i_T$ 求和可以将这些参数消掉： $\pi^{t+1}=\mathop{argmax}_\pi \sum\limits_{i_1}[\log \pi_{i_1}\cdot p(O,i_1|\lambda^t)]$ 上面的式子还有对 $\pi$ 的约束 $\sum\limits_i\pi_i=1$ 。定义 Lagrange 函数： $L(\pi,\eta)=\sum\limits_{i=1}^N\log \pi_i\cdot p(O,i_1=q_i|\lambda^t)+\eta(\sum\limits_{i=1}^N\pi_i-1)$ 于是： $\frac{\partial L}{\partial\pi_i}=\frac{1}{\pi_i}p(O,i_1=q_i|\lambda^t)+\eta=0$ 对上式求和： $\sum\limits_{i=1}^Np(O,i_1=q_i|\lambda^t)+\pi_i\eta=0\Rightarrow\eta=-p(O|\lambda^t)$ 所以： $\pi_i^{t+1}=\frac{p(O,i_1=q_i|\lambda^t)}{p(O|\lambda^t)}$
同理可得 $a_{ij}$ ,以及 $b_j(k)$

Decoding问题(EM算法求解)

近似算法
维比特算法：动态规划解隐马尔可夫模型预测问题

点击阅读全文

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生