Python 列表内存存储本质：差异原因与优化建议

在 Python 中处理大量字符串或数字时，你可能会遇到意想不到的内存占用问题。比如需要存储一百万个短字符串或数字，按每个字符串平均 10 字节、每个 64 位整数 8 个字节计算，理论上只需约 8 到 10MB 内存，但实际用 Python 列表存储时，内存使用可能会飙升到几十 MB。这背后的原因是什么？又该如何优化？

问题引入：列表存储的内存'膨胀'

咱们先来看段代码，用普通列表分别存储一百万个不同的短字符串、相同的短字符串、不同的整数、相同的整数：

str_list = [f"item_{i}" for i in range(1000000)]
same_item_str_list = [f"item" for i in range(1000000)]
num_list = [i for i in range(1000000)]
same_item_num_list = [0 for i in range(1000000)]

直觉上，每个字符串'item_xxx'大约 8-10 字节，每个整数 8 个字节，一百万条数据应该在 8 到 10MB 左右。但实际内存使用如何呢？我们用 pympler 来精确测量。

先安装 pympler：

pip install pympler

修改代码，增加测量内存占用情况的打印：

from pympler import asizeof

print(f"str_list 列表内存：{asizeof.asizeof(str_list)/1024/1024:.2f} MB")
print(f"same_item_str_list 列表内存：{asizeof.asizeof(same_item_str_list)/1024/1024:.2f} MB")
print(f"num_list 列表内存：{asizeof.asizeof(num_list)/1024/1024:.2f} MB")
()

列表类型	指针数组内存（固定）	元素对象内存（变量）	总内存	内存差异原因
same_item_num_list	8MB	28 字节（1 个 0 对象）	8.06MB	小整数缓存复用，元素内存可忽略
num_list	8MB	≈27MB（约 99 万个大整数）	38.57MB	大整数无缓存，每个都是新对象
same_item_str_list	8MB	50 字节（1 个'item'对象）	8.06MB	字符串驻留复用，元素内存可忽略
str_list	8MB	≈48MB（100 万个不同字符串）	61.46MB	动态字符串无驻留，每个都是新对象

Python 列表内存存储本质：差异原因与优化建议

问题引入：列表存储的内存'膨胀'

更多推荐文章

相关免费在线工具

理论存储与实际存储的差异

64 位整数的存储差异

短字符串的存储差异

列表的内存存储本质

相同元素列表内存少的核心原因：对象复用

小整数的缓存复用机制

字符串的驻留（Intern）机制

不同元素列表内存高的原因：对象重复创建

不同整数的内存开销

不同字符串的内存开销

内存占用对比分析

优化建议：利用对象复用减少内存开销

总结

更多推荐文章

相关免费在线工具

Python 列表内存存储本质：差异原因与优化建议

问题引入：列表存储的内存'膨胀'

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

理论存储与实际存储的差异

64 位整数的存储差异

短字符串的存储差异

列表的内存存储本质

相同元素列表内存少的核心原因：对象复用

小整数的缓存复用机制

字符串的驻留（Intern）机制

不同元素列表内存高的原因：对象重复创建

不同整数的内存开销

不同字符串的内存开销

内存占用对比分析

优化建议：利用对象复用减少内存开销

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具