【Python】内存探秘：从变量到容器，用sys.getsizeof剖析内存占用真相

经雷

199人浏览 · 2026-06-29 09:47:48

经雷 · 2026-06-29 09:47:48 发布

1. 为什么需要关注Python内存占用？

刚开始学Python的时候，我总觉得内存管理是自动的，完全不用操心。直到有一次处理百万级数据时，程序突然卡死，才发现内存早已爆满。这时候才明白，理解内存占用对写出高效代码有多重要。

Python的内存分配机制其实挺有意思。它不像C语言那样需要手动分配和释放内存，但也不代表我们可以完全不管内存使用情况。举个例子，当你创建一个变量a = 42时，Python会在内存中分配空间存储这个整数。但具体占用了多少内存？这就是sys.getsizeof能告诉我们的。

我曾经做过一个实验：创建一个包含1000万个元素的列表和一个等价的生成器。列表直接占用了近800MB内存，而生成器只用了不到1KB。这种差异在大数据处理时尤为关键。想象一下，如果你在开发一个数据分析工具，选择合适的数据结构可能意味着程序能流畅运行还是直接崩溃。

2. sys.getsizeof的深入解析

2.1 基础用法与注意事项

sys.getsizeof是Python标准库中一个非常简单但强大的工具。它的基本用法就是传入一个对象，返回这个对象占用的内存字节数。比如：

import sys
num = 42
print(sys.getsizeof(num))  # 输出28

但这里有个坑我踩过：getsizeof返回的只是对象本身的大小，不包括它引用的其他对象。比如列表的大小只包括列表结构本身，不包括列表元素占用的内存。要计算完整的内存占用，需要递归计算所有元素。

def total_size(obj):
    size = sys.getsizeof(obj)
    if isinstance(obj, (list, tuple, set)):
        for item in obj:
            size += total_size(item)
    elif isinstance(obj, dict):
        for key, value in obj.items():
            size += total_size(key) + total_size(value)
    return size

2.2 常见数据类型的基准测试

我做了一系列测试，发现Python中不同类型的基础对象占用内存差异很大：

数据类型	示例	占用字节数
整数	42	28
浮点数	3.14	24
布尔值	True	28
空字符串	""	49
短字符串	"hello"	54
空列表	[]	56
空字典	{}	232

有趣的是，小整数（-5到256）在Python中是预分配的，它们的内存地址是固定的，这算是一个内存优化的小技巧。

3. 容器类型的内存特性

3.1 列表的内存增长模式

列表是Python中最常用的容器之一，但它的内存分配方式可能出乎意料。Python的列表实际上是一个动态数组，当空间不足时会自动扩容。但扩容不是一个个增加，而是按一定比例（通常是约1.125倍）增长。

import sys
lst = []
prev_size = sys.getsizeof(lst)
for i in range(100):
    lst.append(i)
    curr_size = sys.getsizeof(lst)
    if curr_size != prev_size:
        print(f"长度:{len(lst)}, 内存:{curr_size}字节")
        prev_size = curr_size

这个特性意味着，如果你知道最终列表的大小，预分配空间可以节省内存：

# 不好的做法
lst = []
for i in range(10000):
    lst.append(i)

# 更好的做法
lst = [None] * 10000
for i in range(10000):
    lst[i] = i

3.2 字典的内存优化技巧

字典的内存占用比列表大得多，这是因为它使用了哈希表实现。但字典有个有趣特性：当删除大量元素后，内存不会自动收缩。这时候可以创建一个新字典：

big_dict = {i: str(i) for i in range(100000)}
# 删除大量元素后
del big_dict[50000:100000]
# 内存未释放
optimized_dict = dict(big_dict)  # 创建新字典释放内存

Python 3.6+中字典保持了插入顺序，这带来了一些内存开销。如果不需要顺序，可以考虑使用collections.OrderedDict。

4. 高级内存优化策略

4.1 生成器的魔力

前面提到生成器比列表节省内存，但具体能省多少？来看一个实际案例：

import sys

# 列表推导式
list_comp = [x**2 for x in range(1000000)]
print(sys.getsizeof(list_comp))  # 约8448728字节

# 生成器表达式
gen_exp = (x**2 for x in range(1000000))
print(sys.getsizeof(gen_exp))  # 仅128字节

生成器的内存优势在于它是惰性计算的，一次只产生一个值。但要注意，生成器只能迭代一次，之后就会耗尽。

4.2 使用slots节省内存

对于自定义类，使用__slots__可以显著减少内存占用。它通过避免创建实例字典来实现：

class RegularUser:
    def __init__(self, user_id, name):
        self.user_id = user_id
        self.name = name

class SlotUser:
    __slots__ = ['user_id', 'name']
    def __init__(self, user_id, name):
        self.user_id = user_id
        self.name = name

# 测试内存占用
regular_users = [RegularUser(i, f"user{i}") for i in range(10000)]
slot_users = [SlotUser(i, f"user{i}") for i in range(10000)]

print(sys.getsizeof(regular_users))  # 约87616
print(sys.getsizeof(slot_users))     # 约87616
# 虽然列表大小相同，但每个实例大小不同

在我的测试中，使用__slots__的类实例比普通类实例节省了约40-50%的内存。但要注意，使用__slots__后不能再动态添加属性。

4.3 内存视图与数组

处理数值数据时，array模块和memoryview可以提供更好的内存效率：

import array
import sys

# 普通列表
lst = [float(i) for i in range(100000)]
print(sys.getsizeof(lst) + sum(sys.getsizeof(x) for x in lst))  # 约8640000

# 使用array
arr = array.array('d', [float(i) for i in range(100000)])
print(sys.getsizeof(arr) + sys.getsizeof(arr.buffer_info()))  # 约800072

array模块将数据存储在连续的存储单元中，比列表更紧凑。memoryview则允许你在不复制数据的情况下操作内存：

data = bytearray(b'abcdefg')
mv = memoryview(data)
print(mv[2:5].tobytes())  # 输出b'cde'

在处理大型二进制数据时，这种零拷贝操作可以节省大量内存。

5. 实战：内存泄漏检测与优化

5.1 常见内存泄漏场景

即使是有经验的Python开发者，也难免会遇到内存泄漏问题。以下是我遇到过的几种典型情况：

循环引用导致垃圾回收无法释放内存：

class Node:
    def __init__(self):
        self.parent = None
        self.children = []

# 创建循环引用
root = Node()
child = Node()
child.parent = root
root.children.append(child)

全局变量或缓存无限增长：

cache = {}

def process_data(data):
    if data not in cache:
        # 昂贵的计算
        result = expensive_computation(data)
        cache[data] = result
    return cache[data]

未及时关闭文件或数据库连接。

5.2 使用工具检测内存问题

除了sys.getsizeof，还有一些更强大的工具可以帮助分析内存使用：

objgraph：可视化对象引用关系

import objgraph
x = [1, 2, 3]
y = [x, x]
objgraph.show_refs([y], filename='ref_graph.png')

tracemalloc：跟踪内存分配

import tracemalloc

tracemalloc.start()
# 执行可能泄漏内存的代码
snapshot = tracemalloc.take_snapshot()
top_stats = snapshot.statistics('lineno')

for stat in top_stats[:10]:
    print(stat)

memory_profiler：逐行分析内存使用

from memory_profiler import profile

@profile
def my_func():
    a = [1] * (10 ** 6)
    b = [2] * (2 * 10 ** 7)
    del b
    return a

5.3 优化实践案例

我曾经优化过一个处理CSV文件的项目，原始版本将整个文件读入内存：

with open('large.csv') as f:
    lines = f.readlines()
    process(lines)

优化后使用逐行处理：

with open('large.csv') as f:
    for line in f:
        process_line(line)

对于1GB的CSV文件，内存使用从约1.2GB降到了不到50MB。另一个案例是使用生成器管道替代中间列表：

# 原始版本
results = []
for x in data:
    y = transform1(x)
    z = transform2(y)
    results.append(z)

# 优化版本
results = (transform2(transform1(x)) for x in data)

这些优化看似简单，但在处理大数据时效果非常显著。理解内存占用原理后，你会发现Python中处处都有优化的空间。

亚马逊云科技技术品牌专区

更多推荐

Kiro Editor 开发实战：使用 Cargo 构建、测试与性能优化指南

欢迎来到这篇终极指南，我们将深入探索如何使用Rust构建高性能的终端文本编辑器Kiro Editor。无论你是Rust新手还是经验丰富的开发者，这篇完整教程将带你了解如何利用Cargo工具链进行高效的开发、测试和性能优化，打造一款快速、轻量且功能强大的UTF-8文本编辑器。## 什么是Kiro Editor？Kiro Editor是一款使用Rust编写的极简终端文本编辑器，它最初是著名编辑