深入 Python 内存管理：从引用计数到 GC 与内存碎片的实战解析

清水白石008

350人浏览 · 2026-05-02 11:26:06

清水白石008 · 2026-05-02 11:26:06 发布

深入 Python 内存管理：从引用计数到 GC 与内存碎片的实战解析

Python 是一门高效且优雅的编程语言，因其简洁的语法和强大的生态而广受欢迎。然而，即便是经验丰富的开发者，也时常在大型或长期运行的 Python 服务中遇到内存问题：内存持续上涨、程序偶尔崩溃、重启才能恢复。尤其是在处理 RSS 聚合、爬虫或高并发 Web 服务时，这类问题尤为常见。

本文将从中高级开发者视角，系统解析 Python 的内存管理机制，包括引用计数（Reference Counting）、垃圾回收（Garbage Collection, GC）以及内存碎片（Memory Fragmentation）。通过理论结合实践案例，帮助你理解内存增长的根因、定位问题，并提供可操作的优化策略。

一、Python 内存管理概览

Python 的内存管理机制可以概括为三层：

对象分配与引用计数
每个 Python 对象都包含一个引用计数器，用于记录当前有多少引用指向它。引用计数为 0 时，对象立即被释放。
垃圾回收器（GC）
Python 的 GC 主要用于处理 循环引用 的对象（例如两个对象互相引用），这些对象即使引用计数非 0，也可能无法访问，需要 GC 来回收。
内存分配器与碎片管理
Python 使用私有内存池（pymalloc）管理小对象（<256字节），大对象直接调用操作系统分配。内存分配和释放过程中可能产生 内存碎片，导致实际可用内存不被释放。

小结

层级	作用	常见问题
引用计数	即时释放不再使用的对象	循环引用未释放
GC（循环引用）	回收循环引用对象	GC 不及时或对象复杂导致延迟
内存分配器	管理小对象缓存、减少系统调用	内存碎片导致内存不释放

二、引用计数：Python 的“即时回收机制”

Python 中每个对象都有 ob_refcnt（引用计数），在 CPython 内部通过增加/减少引用计数实现自动回收。

import sys

a = [1, 2, 3]
print(sys.getrefcount(a))  # 输出引用计数（+1，因为传入 getrefcount 作为参数本身会增加一次）
b = a
print(sys.getrefcount(a))  # 引用计数增加
del b
print(sys.getrefcount(a))  # 引用计数减少

实践问题

在长期运行的 RSS 服务中，如果对象被持续引用而不释放：

列表或字典持续增长
内存使用持续上升
重启服务后内存才释放

这说明引用计数无法回收循环引用或被意外持有的对象。

三、垃圾回收（GC）：循环引用的守护者

1. GC 的工作原理

Python 使用三代垃圾回收机制：

Generation 0：新创建对象
Generation 1：经历一次回收仍存活的对象
Generation 2：长寿命对象

GC 会周期性扫描对象池，寻找无法访问的循环引用对象并释放内存。

import gc

# 强制运行 GC
gc.collect()

2. GC 与引用计数的配合

普通对象：引用计数为 0 即回收
循环引用对象：引用计数非 0，需要 GC 回收

3. 实战调优

在 RSS 服务中，如果发现内存持续增长，可以：

import gc

# 输出未回收的对象数量
print(gc.get_count())

# 打印可回收的循环引用对象
for obj in gc.garbage:
    print(obj)

调整 GC 阈值：

gc.set_threshold(700, 10, 10)  # 默认是 (700, 10, 10)

或者定期手动触发 GC（例如每 N 条 RSS 条目处理后）

四、内存碎片：隐藏的内存杀手

即便对象被释放，Python 的内存分配器（pymalloc）也可能导致 内存碎片：

小对象内存池无法归还给操作系统
大对象释放后可能无法连续释放
长期运行服务中，碎片累积会导致 RSS（Resident Set Size）持续上升

1. 示例

import tracemalloc

tracemalloc.start()

data = [bytearray(1024*1024) for _ in range(100)]  # 分配 100MB
del data

snapshot = tracemalloc.take_snapshot()
top_stats = snapshot.statistics('lineno')

for stat in top_stats[:10]:
    print(stat)

tracemalloc 可帮助追踪内存分配热点
内存碎片通常出现在大量小对象创建和释放场景中

2. 实践策略

避免频繁创建/销毁大对象，尽量复用对象
使用 生成器 或 流式处理，减少内存占用
对长期运行的服务，可考虑重启进程或使用 内存池 管理

五、综合分析：RSS 服务内存上涨案例

1. 可能原因

现象	可能原因	解决策略
内存持续上涨，重启才恢复	循环引用未被及时回收	调整 GC 阈值、定期触发 GC
对象被意外持有	全局缓存或闭包持有对象	使用弱引用 (`weakref`)
内存碎片累积	pymalloc 分配碎片导致 RSS 增长	对象复用、分配策略优化

2. 实战优化示例

import gc
import weakref

class RSSItem:
    def __init__(self, title, link):
        self.title = title
        self.link = link

# 使用弱引用缓存 RSSItem，避免意外持有导致 GC 无法回收
rss_cache = weakref.WeakValueDictionary()

def add_item(item):
    rss_cache[item.link] = item

# 周期性触发 GC
def periodic_gc():
    gc.collect()
    print("GC executed, uncollected objects:", len(gc.garbage))

使用 WeakValueDictionary 防止缓存导致内存泄漏
配合 周期性 GC 和 生成器流式处理 可显著控制内存增长

六、高级优化与最佳实践

1. 生成器与流式处理

避免一次性加载大量 RSS 条目：

def rss_feed_generator(feed):
    for item in feed:
        yield item  # 流式处理，节省内存

for entry in rss_feed_generator(large_feed):
    process(entry)

2. 异步处理与内存控制

结合 asyncio 异步处理 RSS 请求：

import asyncio
import aiohttp

async def fetch(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as resp:
            return await resp.text()

async def main(urls):
    for url in urls:
        content = await fetch(url)
        process_content(content)

# 限制同时运行任务数量，减少内存峰值
asyncio.run(main(url_list))

3. 内存监控与告警

使用 tracemalloc 或 psutil 定期监控内存
设置阈值告警，提前触发 GC 或重启服务

import psutil, os

process = psutil.Process(os.getpid())
if process.memory_info().rss > 500*1024*1024:  # 500MB
    gc.collect()

七、总结

引用计数负责对象的即时回收，但无法处理循环引用。
**垃圾回收器（GC）**回收循环引用对象，是长期运行服务的安全网。
内存碎片是长寿命服务内存上涨的重要因素，需通过对象复用、生成器、异步流式处理等手段控制。
对于长期运行的 RSS 或爬虫服务，结合弱引用缓存、定期 GC、生成器/异步流式处理以及内存监控，能够有效避免内存持续上涨问题。

互动讨论

你在 Python 服务中遇到的内存上涨问题通常是什么场景？
你使用过哪些策略优化 GC 或减少内存碎片？
面对高并发和大数据量，你认为 Python 的内存管理还可以在哪些方面改进？

欢迎在评论区分享你的经验与案例，我们一起深入 Python 内存管理的奥秘。

参考资料

Python 官方文档 – 垃圾回收
PEP 8 – Python 代码风格指南
《流畅的 Python》 – Luciano Ramalho
《Python 高性能编程》 – Gabriele Lanaro

亚马逊云科技技术品牌专区

更多推荐

GEO 到底是什么？真正有效的 GEO 应该怎么做？

地理GEO属于弱周期、高刚需、政策扶持赛道，不跟风热点、不轻易裁员，广泛服务于政务、基建、民生、国防领域。地理空间GEO，是以地理坐标为核心，融合测绘、卫星遥感、大数据、物联网、数字孪生等技术，完成空间数据采集、处理、分析、可视化应用的完整产业体系。并非单一概念，而是两个完全独立、千亿级的黄金赛道，一个深耕地理科技，一个领跑AI流量，业务逻辑、应用场景、从业方向天差地别。GEO：AI生成式搜索时代

亚马逊云科技技术品牌专区

测试流量、测试粉丝

💎【行业认证·权威头衔】✔ 华为云天团核心成员：特约编辑/云享专家/开发者专家/产品云测专家✔ 开发者社区全满贯：CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主✔ 技术生态共建先锋：横跨鸿蒙、云计算、AI等前沿领域的技术布道者🏆【荣誉殿堂】🎖 连续三年蝉联"华为云十佳博主"（2022-2024）🎖 双冠加冕CSDN"年度博客之星TOP2"（