别再死记硬背了！用Python手撸一个HMM中文分词器（附完整代码和PKU语料）

CarrieYung

313人浏览 · 2026-06-10 13:30:36

CarrieYung · 2026-06-10 13:30:36 发布

从零构建HMM中文分词器：原理剖析与Python实战

中文分词是自然语言处理的基础环节，而隐马尔可夫模型（HMM）作为经典的统计学习方法，在序列标注任务中展现出独特优势。本文将带您深入HMM在中文分词中的应用，从理论推导到完整代码实现，最后用PKU语料库验证效果。

1. HMM分词核心原理拆解

1.1 状态设计与BMES标注体系

HMM将分词问题转化为字序列标注任务，采用BMES四状态体系：

B （Begin）：词语起始字
M （Middle）：词语中间字
E （End）：词语结尾字
S （Single）：独立成词的单字

例如句子"人工智能技术"标注为：

人/B 工/M 智/M 能/E 技/B 术/E

1.2 三大概率矩阵的物理意义

HMM依赖三个核心概率矩阵：

矩阵类型	数学表示	实际意义
初始概率	π(i) = P(q₁=sᵢ)	句子首字处于各状态的概率
转移概率	aᵢⱼ = P(qₜ₊₁=sⱼ\|qₜ=sᵢ)	从当前状态转移到下一状态的概率
发射概率	bⱼ(oₖ) = P(oₖ\|qₜ=sⱼ)	在特定状态下观测到某字符的概率

平滑处理技巧 ：

# 加一平滑（Laplace Smoothing）
emit_p = {k: (v + 1) / total_count for k, v in emit_counts.items()}

2. 工程实现关键步骤

2.1 语料预处理与特征提取

使用PKU语料库时需注意：

统一转换为UTF-8编码
处理特殊符号和空格
统计字符频率分布

语料分析代码片段 ：

def analyze_corpus(file_path):
    char_freq = defaultdict(int)
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            for char in line.strip():
                if char != ' ':
                    char_freq[char] += 1
    return sorted(char_freq.items(), key=lambda x: -x[1])

2.2 模型训练实现细节

完整训练流程包含：

初始化概率矩阵
统计状态转移频次
计算归一化概率
序列标注转换

关键数据结构 ：

class HMM:
    def __init__(self):
        self.state_list = ['B', 'M', 'E', 'S']
        self.start_p = {}  # 初始概率
        self.trans_p = {}  # 转移概率 
        self.emit_p = {}   # 发射概率

3. Viterbi算法深度优化

3.1 动态规划实现

Viterbi算法的核心递推公式：

V[t][s] = max(V[t-1][s_prev] * a(s_prev→s) * b(s,o_t))

Python实现要点 ：

def viterbi(obs, states, start_p, trans_p, emit_p):
    V = [{}]  # 概率矩阵
    path = {} # 路径记录
    
    # 初始化t=0时刻
    for s in states:
        V[0][s] = start_p[s] * emit_p[s].get(obs[0], EPSILON)
        path[s] = [s]
    
    # 递推计算
    for t in range(1, len(obs)):
        V.append({})
        new_path = {}
        
        for s in states:
            (max_prob, max_state) = max(
                (V[t-1][s_prev] * trans_p[s_prev].get(s, EPSILON) * 
                 emit_p[s].get(obs[t], EPSILON), s_prev) 
                for s_prev in states
            )
            V[t][s] = max_prob
            new_path[s] = path[max_state] + [s]
        
        path = new_path
    
    # 回溯最优路径
    last_state = max(V[-1].items(), key=lambda x: x[1])[0]
    return path[last_state]

3.2 数值稳定性处理

实际工程中需考虑：

对数概率转换避免下溢
设置最小概率阈值
处理未登录词

import math

def log_viterbi(obs, states, start_p, trans_p, emit_p):
    # 将对数概率计算融入原有算法
    V[0][s] = math.log(start_p.get(s, EPSILON)) + 
              math.log(emit_p[s].get(obs[0], EPSILON))

4. 完整项目实战

4.1 项目结构设计

hmm_segmenter/
├── data/               # 语料目录
│   ├── pku_training.utf8
│   └── test_corpus.txt
├── model/              # 模型存储
│   └── hmm_model.pkl
├── utils.py            # 工具函数
├── hmm_model.py        # 核心实现
└── demo.py             # 使用示例

4.2 性能优化技巧

内存优化 ：使用稀疏矩阵存储概率
速度优化 ：Cython加速关键计算
准确率提升 ：
- 加入词典特征
- 融合规则方法

混合分词示例 ：

def hybrid_segment(text, hmm_model, dict_words):
    # 先进行词典匹配
    for word in dict_words:
        if word in text:
            # 特殊处理已知词汇
            pass
    # 剩余部分用HMM处理
    return hmm_model.cut(text)

5. 评估与调优

5.1 标准评估指标

指标	计算公式	说明
准确率	P = 正确切分词数/系统输出词数	查准率
召回率	R = 正确切分词数/标准答案词数	查全率
F1值	2PR/(P+R)	综合指标

5.2 常见问题排查

问题1 ：未登录词效果差
- 解决方案：增加平滑强度或引入字符嵌入
问题2 ：长词识别不准
- 调整转移概率约束
- 加入最大词长限制

# 最大词长限制示例
MAX_WORD_LEN = 6

def adjust_trans_p(trans_p):
    for s in ['B', 'M']:
        trans_p[s]['M'] *= 0.9  # 降低连续M的概率

在实际项目中，HMM分词器配合简单的词典可以达到85%以上的F1值。对于"研究生命的起源"这样的句子，我们的实现能够正确输出：

研究/生命/的/起源

亚马逊云科技技术品牌专区

更多推荐

2026年人工智能专业学习数据分析的价值

掌握Python数据分析栈（Pandas、NumPy、Scikit-learn）。完成1-2个Kaggle竞赛或开源项目。考取CDA数据分析师证书证书优势（1）提升数据分析能力CDA 认证涵盖了数据分析的各个方面，包括数据采集、处理、分析和可视化等。通过 CDA 认证的学习和考试，可以系统地掌握数据分析的知识和技能，提升自己在数据分析方面的能力。（2）增强就业竞争力在就业市场上，拥有 CDA 认证

亚马逊云科技技术品牌专区

如果你写云数据库（3）

一些分布式数据库在这个方面就很吃亏，多副本，为了追求高可靠，就自然要把副本放到多个 AZ 中，这样一来，计算流量就很容易在多个 AZ 之间来回蹿，费用蹭蹭涨。所以啊，云原生的数据库，还是 Snowflake 玩得溜，卡了一个非常好的位，把这些乱七八糟的需求全部绕过了，一个 AZ 管够。那么，如果你在设计产品的时候，就需要时时刻刻把网络这件事情放在心上，最好，每一次查询涉及到的机器都不要跨 AZ。甚