用Python给《三国演义》做一次‘CT扫描’：词云、关系图、出场统计一键生成（附完整代码）

weixin_30321709

360人浏览 · 2026-06-05 12:12:12

weixin_30321709 · 2026-06-05 12:12:12 发布

用Python给《三国演义》做一次‘CT扫描’：词云、关系图、出场统计一键生成（附完整代码）

翻开《三国演义》，那些金戈铁马的场景、运筹帷幄的谋士、叱咤风云的武将仿佛就在眼前。但你是否想过，用数据视角重新解读这部经典？本文将带你用Python对这部名著进行一次全方位的"CT扫描"，通过词云、人物关系图和出场统计等可视化手段，揭示文字背后的隐藏规律。

1. 环境准备与数据清洗

在开始之前，我们需要搭建一个轻量级的分析环境。这个项目最吸引人的地方在于，所有功能都封装在单个脚本中，无需复杂配置即可运行。

核心工具栈 ：

jieba ：中文分词利器
wordcloud ：词云生成引擎
networkx ：关系网络分析库
pyecharts ：交互式可视化工具

安装依赖只需一行命令：

pip install jieba wordcloud networkx pyecharts matplotlib imageio

数据处理是分析的基础。针对古典文学的特殊性，我们需要解决几个关键问题：

文本清洗要点 ：

合并人物别名（如"孔明"→"诸葛亮"）
过滤非人名词汇
处理特殊标点和章节分隔符

# 典型的人物别名映射处理
name_mapping = {
    '孔明': '诸葛亮',
    '云长': '关羽',
    '玄德': '刘备',
    '孟德': '曹操'
}

def normalize_name(word):
    return name_mapping.get(word, word)

2. 人物出场频次分析

统计人物出场次数就像给小说做"心电图"，能直观反映各角色在叙事中的权重。我们采用词性标注技术精准捕捉人名：

技术实现路径 ：

使用 jieba.posseg 进行词性标注
筛选nr（人名）词性的词汇
应用别名归一化处理
按出现频率排序

from collections import Counter

def count_characters(text):
    words = pseg.cut(text)
    characters = []
    for word, flag in words:
        if flag == 'nr' and len(word) > 1:
            normalized = normalize_name(word)
            characters.append(normalized)
    return Counter(characters)

生成的TOP15人物出场统计表：

排名	人物	出场次数
1	诸葛亮	1373
2	曹操	1021
3	刘备	978
4	关羽	872
5	张飞	563

注意：统计结果可能因别名处理规则不同略有差异

3. 人物关系网络构建

人物关系图如同小说的"神经系统图"，揭示角色间的互动强度。我们采用共现分析技术：

关系权重算法 ：

按段落分割文本
统计人物两两共现次数
用最大出现次数归一化
设置阈值过滤弱关联

def build_relation_network(text, characters):
    paragraphs = text.split('\n')
    relations = {}
    for para in paragraphs:
        present_chars = [c for c in characters if c in para]
        for i in range(len(present_chars)):
            for j in range(i+1, len(present_chars)):
                pair = tuple(sorted([present_chars[i], present_chars[j]]))
                relations[pair] = relations.get(pair, 0) + 1
    return relations

生成的社交关系图中，连线粗细代表互动强度。有趣的是，数据分析显示：

诸葛亮与刘备的关联度最高
曹操的社交网络最为复杂
吕布呈现出"孤岛式"关系特征

4. 多维可视化呈现

4.1 动态词云生成

词云是文本的"热成像图"，我们提供两种生成方式：

静态词云 ：

def generate_wordcloud(counts):
    wc = WordCloud(
        font_path='simhei.ttf',
        background_color='white',
        max_words=200,
        width=1200,
        height=800
    )
    wc.generate_from_frequencies(counts)
    wc.to_file('character_cloud.png')

交互式词云 （使用pyecharts）：

from pyecharts.charts import WordCloud

def interactive_wordcloud(counts):
    words = [(k, v) for k, v in counts.items()]
    (
        WordCloud()
        .add("", words, word_size_range=[20, 100])
        .set_global_opts(title_opts=opts.TitleOpts(title="三国人物词云"))
        .render("interactive_cloud.html")
    )

4.2 章节字数波动分析

通过分析120回的字数变化，可以观察到叙事的节奏感：

def chapter_length_analysis(text):
    chapters = text.split('第')[1:]  # 按"第X回"分割
    lengths = [len(chap) for chap in chapters]
    return lengths

典型发现：

赤壁之战相关章节字数明显增多
过渡性章节字数普遍较短
全书字数分布呈现多峰特征

5. 完整解决方案封装

将所有功能整合为可复用的 ThreeKingdomsAnalyzer 类：

class ThreeKingdomsAnalyzer:
    def __init__(self, filepath):
        self.text = self._load_text(filepath)
        self.counts = None
        self.relations = None
    
    def analyze(self, top_n=15):
        self.counts = self._count_characters()
        self.relations = self._build_relations(top_n)
        
    def generate_report(self):
        self._plot_wordcloud()
        self._plot_relations()
        self._export_stats()

使用示例：

analyzer = ThreeKingdomsAnalyzer('三国演义.txt')
analyzer.analyze()
analyzer.generate_report()

这个项目最实用的价值在于，只需替换文本文件，同样的代码可以分析《红楼梦》等其他古典名著。在实际教学中，学生通过修改参数就能观察到不同可视化效果，极大降低了文本分析的门槛。

亚马逊云科技技术品牌专区

更多推荐

AI 学习路径：从入门到实战的全景路线图（2026 版）

关于当前最新最热的AI人工智能学习路径分享

亚马逊云科技技术品牌专区

WPF基础到企业应用系列7——深入剖析依赖属性（WPF/Silverlight核

首先圣殿骑士很高兴这个系列能得到大家的关注和支持，这个系列从七月份开始到现在才第七篇，上一篇发布是在8月2日，掐指一算有二十多天没有继续更新了，最主要原因一来是想把它写好，二来是因为最近几个月在筹备“云计算之旅”系列，所以一再推迟了发布进度。

亚马逊云科技技术品牌专区

解密 AI Agent 的安全带与催化剂：一文读懂 Harness Engineering 的崛起与落地实践

解密 AI Agent 的"安全带"与"催化剂"：一文读懂 Harness Engineering 的崛起与落地实践在过去的一两年里，大语言模型（LLM）的火爆催生了 **AI Agent（人工智能智能体）** 的井喷。我们看着 Agent 从最初只能做简单对话的 Bot，演变成如今能够自主规划、调用工具、甚至代替人类编写代码和处理复杂业务流的数字员工。然而，随着 Agent...