大模型教我成为大模型算法工程师之day6：概率图模型

本文介绍了概率图模型(PGM)这一结合概率论与图论的工具，用于处理不确定性世界中的复杂关系。主要内容包括：1) 概率图模型分为有向(贝叶斯网络)和无向(马尔可夫随机场)两类；2) 贝叶斯网络通过有向无环图表达因果关系；3) 马尔可夫随机场通过无向图表达相关关系；4) 隐马尔可夫模型(HMM)处理时序数据，包含状态序列和观测序列；5) 条件随机场(CRF)解决了HMM的局限性，在序列标注任务中表现优

如意鼠

359人浏览 · 2025-12-10 15:45:13

如意鼠 · 2025-12-10 15:45:13 发布

Day 6: 概率图模型——不确定性世界的导航图

写在前面：世界是充满不确定性的。传统的机器学习往往给出确定的预测（分类或回归），但在许多复杂场景（如语音识别、自然语言处理、医疗诊断）中，我们需要对变量之间的依赖关系进行建模。概率图模型（Probabilistic Graphical Models, PGM）正是结合了概率论（处理不确定性）和图论（处理复杂关系）的强大工具。虽然在深度学习时代，端到端模型掩盖了许多PGM的光芒，但HMM、CRF等思想依然是理解序列建模（如Transformer位置编码、RLHF）的基石。

1. 概率图模型概览

概率图模型的核心是将概率分布 $P(X_1, X_2, ..., X_n)$ 表示为图结构 $G = (V, E)$ 。

节点 (Node)：表示随机变量。
边 (Edge)：表示变量之间的概率依赖关系。

根据边的方向，分为两大类：

有向图 (Directed Graphical Models)：即贝叶斯网络，表达"因果关系"（A导致B）。
无向图 (Undirected Graphical Models)：即马尔可夫随机场，表达"相关关系"（A和B相互影响）。

2. 贝叶斯网络 (Bayesian Networks)

贝叶斯网络使用有向无环图 (DAG) 来分解联合概率分布。

2.1 核心公式

$P(X1,...,Xn)=∏i=1nP(Xi∣Pa(Xi))P(X_1, ..., X_n) = \prod_{i=1}^n P(X_i | Pa(X_i))$
其中 $Pa(X_i)$ 是节点 $X_i$ 的父节点集合。

2.2 典型案例：警报系统

变量：地震 (E)、入室盗窃 (B)、警报响 (A)、约翰打电话 (J)、玛丽打电话 (M)。
结构： $\to A$ , $\to A$ , $\to J$ , $\to M$ 。
直觉：地震和盗窃都会触发警报；警报响了，约翰和玛丽可能会给你打电话。但地震和盗窃之间没有直接联系（除非警报响了，观测到警报后，二者会产生"解释消除"效应）。

3. 马尔可夫随机场 (Markov Random Fields, MRF)

当变量之间没有明确的方向（因果）时，使用无向图。例如图像中相邻像素的关系。

3.1 团与势函数

团 (Clique)：图中任意两个节点都有边连接的子图。
联合概率：基于最大团 (Maximal Clique) 的势函数 (Potential Function) 的乘积。
$\frac{1}{Z} \prod_{C} \psi_C(X_C)$
其中 $Z$ 是归一化因子（Partition Function）， $ψC\psi_C$ 是非负函数（通常取指数形式）。

4. 隐马尔可夫模型 (HMM)

HMM 是最简单的动态贝叶斯网络，用于处理时序数据。

4.1 两个序列

状态序列 (Hidden States)： $Z_1, Z_2, ..., Z_T$ （不可见，如"今天的天气"：晴/雨）。
观测序列 (Observations)： $X_1, X_2, ..., X_T$ （可见，如"今天的活动"：散步/宅家）。

4.2 三要素

初始状态概率 $π\pi$ ：第一天是晴天的概率。
状态转移矩阵 $A$ ：晴天变雨天的概率。
发射概率矩阵 $B$ ：晴天去散步的概率。

4.3 三个基本问题

概率计算（Forward-Backward算法）：已知模型，求某个观测序列出现的概率。
解码问题（Viterbi算法）：已知观测序列，求最可能的隐藏状态序列（如语音识别中，听到的声音 -> 对应的文字）。
学习问题（Baum-Welch算法/EM）：已知观测序列，反推模型参数。

5. 条件随机场 (CRF)

在NLP序列标注（如分词、NER）任务中，CRF 曾长期霸榜。它解决了 HMM "观测独立性假设"过于严格的问题。

5.1 Linear-Chain CRF

只考虑相邻状态之间的依赖。

判别式模型：直接建模 $P (Y ∣ X)$ ，而不是像 HMM 那样建模 $P (X, Y)$ 。
特征函数：可以利用整个观测序列 $X$ 的信息（例如标注第 $i$ 个词时，可以看上下文），不仅仅是当前词。

5.2 对比 HMM vs MEMM vs CRF

HMM：生成式，假设太强（观测只依赖当前状态）。
MEMM (最大熵马尔可夫)：判别式，但也存在"标注偏置"问题（倾向于选择后继状态少的路径）。
CRF：全局归一化，解决了上述问题，是序列标注的完全体。

6. 总结与实战代码

Python 实战：使用 HMM 进行股市波动预测（简化版）

虽然 hmmlearn 库不是 sklearn 的一部分，但它兼容 sklearn 接口。

import numpy as np
import matplotlib.pyplot as plt
from hmmlearn.hmm import GaussianHMM

# 1. 模拟数据
# 假设股市有3种隐藏状态：[熊市, 震荡, 牛市]
# 观测值是每日收益率
np.random.seed(42)

# 生成模拟收益率
# 状态0(熊市): 均值-0.02, 方差0.01
# 状态1(震荡): 均值0.00, 方差0.005
# 状态2(牛市): 均值0.02, 方差0.01
means = np.array([[-0.02], [0.00], [0.02]])
covars = np.array([[0.005], [0.002], [0.005]]) 

model_true = GaussianHMM(n_components=3, covariance_type="diag")
model_true.startprob_ = np.array([0.1, 0.8, 0.1])
model_true.transmat_ = np.array([
    [0.9, 0.1, 0.0],
    [0.1, 0.8, 0.1],
    [0.0, 0.1, 0.9]
])
model_true.means_ = means
model_true.covars_ = covars

# 采样 500 天数据
X, Z = model_true.sample(500)

# 2. 训练 HMM 模型
# 在实际场景中，我们只知道 X (收益率)，不知道 Z (市场状态)
model = GaussianHMM(n_components=3, covariance_type="diag", n_iter=100)
model.fit(X)

# 3. 预测隐藏状态
Z_pred = model.predict(X)

# 4. 可视化
plt.figure(figsize=(15, 8))
plt.subplot(2, 1, 1)
plt.plot(X, label='Daily Returns', alpha=0.6)
plt.title('Simulated Daily Returns')

plt.subplot(2, 1, 2)
plt.plot(Z_pred, label='Predicted Hidden State', color='orange')
plt.yticks([0, 1, 2], ['State 0', 'State 1', 'State 2'])
plt.title('Inferred Market Regimes')
plt.tight_layout()
plt.show()

print(f"Learned Means:\n{model.means_}")
print(f"Learned TransMat:\n{model.transmat_}")

核心总结

HMM 是序列建模的鼻祖，核心是状态转移和发射概率。
CRF 曾是 NLP 实体识别（NER）的王者，核心是全局归一化的条件概率。
深度学习时代：虽然 LSTM/Transformer 取代了 HMM/CRF 作为特征提取器，但在输出层，BiLSTM-CRF 依然是许多高精度序列标注任务的首选架构，因为 CRF 能显式学习标签约束（如 B-Person 后面不能接 I-Org）。

北京朝阳AI社区

更多推荐

论文解读|危机中的歧义性：多模态与合成数据分类方法

社交媒体平台，如 Twitter（现更名为 X），通过实现实时信息共享，在危机期间发挥着至关重要的作用。然而，多模态数据可能存在歧义，且模态间的标签可能出现错位。能够对“有信息量”和“无信息量”的推文进行分类有助于危机响应，但这些数据在数据集中往往具有歧义性且分布不平衡，从而削弱模型性能。本研究探讨了多模态学习方法在对危机相关推文进行分类（无论其是否存在歧义）方面的有效性，并通过使用生成式人工智能