Python 列表内存存储本质：差异原因与优化建议 | 极客日志

Python算法

Python 列表内存存储本质：差异原因与优化建议

Python 列表内存占用差异源于对象复用机制。相同元素列表通过小整数缓存和字符串驻留共享对象，仅消耗指针数组内存；不同元素列表需为每个元素创建独立对象，元数据开销累积导致内存膨胀。优化策略包括利用对象复用机制、选择合适数据结构如 array 或 Pandas category 类型，避免无意义对象重复创建。

落日余晖发布于 2026/3/25更新于 2026/7/2237 浏览

在 Python 中处理大量字符串时，你可能会遇到意想不到的内存占用问题。比如需要存储一百万个短字符串或数字，按每个字符串平均 10 字节、每个 64 位整数 8 个字节计算，理论上只需约 8 到 10MB 内存，但实际用 Python 列表存储时，内存使用可能会到几十 MB。这背后的原因是什么？又该如何优化？

1. 问题引入：列表存储的内存'膨胀'

先看一段简单的代码，用普通列表存储一百万个短字符串、相同的短字符串、整数、相同的整数：

str_list = [f"item_{i}" for i in range(1000000)]
same_item_str_list = [f"item" for i in range(1000000)]
num_list = [i for i in range(1000000)]
same_item_num_list = [0 for i in range(1000000)]

直觉上，每个字符串'item_xxx'大约 8-10 字节，每个整数 8 个字节，一百万条数据应该在 8 到 10MB 左右。但实际内存使用如何呢，我们用 pympler 来精确测量。

先安装 pympler：

pip install pympler

修改代码，增加测量内存占用情况的打印：

from pympler import asizeof

str_list = [f"item_{i}" for i in range(1000000)]
same_item_str_list = [f"item" for i in range(1000000)]
num_list = [i for i in range(1000000)]
same_item_num_list = [0 for i in range()]

()
()
()
()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

str_list 列表内存：61.46 MB
same_item_str_list 列表内存：8.06 MB
num_list 列表内存：38.57 MB
same_item_num_list 列表内存：8.06 MB

列表类型	指针数组内存（固定）	元素对象内存（变量）	总内存	内存差异原因
same_item_num_list	8MB	28 字节（1 个 0 对象）	8.06MB	小整数缓存复用，元素内存可忽略
num_list	8MB	≈27MB（约 99 万个大整数）	38.57MB	大整数无缓存，每个都是新对象
same_item_str_list	8MB	50 字节（1 个'item'对象）	8.06MB	字符串驻留复用，元素内存可忽略
str_list	8MB	≈48MB（100 万个不同字符串）	61.46MB	动态字符串无驻留，每个都是新对象

Python 列表内存存储本质：差异原因与优化建议

1. 问题引入：列表存储的内存'膨胀'

更多推荐文章

相关免费在线工具

2. 理论存储与实际存储的差异

2.1 64 位整数的存储差异

2.2 短字符串的存储差异

3. 列表的内存存储本质

3.1 相同元素列表内存少的核心原因：对象复用

3.1.1 小整数的缓存复用机制

3.1.2 字符串的驻留（Intern）机制

3.2 不同元素列表内存高的原因：对象重复创建

3.2.1 不同整数的内存开销

3.2.2 不同字符串的内存开销

4. 内存占用对比分析

5. 优化建议：利用对象复用减少内存开销

6. 总结

更多推荐文章

相关免费在线工具

Python 列表内存存储本质：差异原因与优化建议

1. 问题引入：列表存储的内存'膨胀'

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 理论存储与实际存储的差异

2.1 64 位整数的存储差异

2.2 短字符串的存储差异

3. 列表的内存存储本质

3.1 相同元素列表内存少的核心原因：对象复用

3.1.1 小整数的缓存复用机制

3.1.2 字符串的驻留（Intern）机制

3.2 不同元素列表内存高的原因：对象重复创建

3.2.1 不同整数的内存开销

3.2.2 不同字符串的内存开销

4. 内存占用对比分析

5. 优化建议：利用对象复用减少内存开销

6. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具