Python 集合比列表快得多，对吗？

Ne0inhk

15 Mar 2026 — 7 min read

原文：towardsdatascience.com/python-set-is-way-faster-than-list-true-or-false-042c6f8975cd

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4b79e9e630ef9b8e2b14c7bc20892abe.png

由作者在 Canva 中创建

几周前，我写了一篇另一篇文章来解释一些流行的“Python 小技巧”背后的机制和逻辑。其中之一是在可能的情况下使用 Python 集合而不是列表。

许多文章告诉你 Python 小技巧，但很少告诉你为什么

在这篇文章变得流行之后，许多读者向我提问或争论说 Python 集合并不总是很快。这是绝对正确的。因此，我决定写这篇文章，深入探讨 Python 列表和集合的数据结构。

在这篇文章中，我将首先使用实际代码在不同场景下比较 Python 列表和集合的性能。然后，我将介绍它们使用的几种数据结构，即动态数组和哈希表。基于这些数据结构的特性，我将解释为什么 Python 列表或集合在某些场景下具有更好的性能。

1. 性能

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/923080f13f88cf877bdf17e4b364fd9f.png

由作者在 Canva 中创建

让我们从性能实验开始。不能说 Python 集合的性能总是比 Python 列表高。我们需要考虑不同的场景，例如创建、查找、追加和删除。

使用 Jupyter Notebook 进行这项测试要方便得多。因此，我们可以使用 %timeit 魔法命令来轻松评估经过的时间。

创建 – 列表胜出（快 2 倍）

要测试创建性能，我们可以简单地使用 range(10000) 来生成 10,000 个数字。请注意，这是一个生成器，但我们可以从这个生成器创建一个列表或一个集合。

# Create list for 100 times%timeit -n 100 my_list =list(range(10000))# Create set for 100 times%timeit -n 100 my_set =set(range(10000))

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/06ee37fe73a2bd810e951a222c6a822a.png

可以看到，创建集合所需的时间大约是创建列表的两倍。这是因为集合的数据结构比列表消耗更多的时间和空间。这一点将在下一节中讨论。

查找 – 集合胜出（快 1000 倍）

在我们能够测试查找性能和后续测试用例之前，我们需要正确地创建一个列表和一个集合。除此之外，我们还需要一些数字用于测试目的。例如，我们需要一个数字用于在列表和集合中查找。让我们生成 1,000 个这样的数字，这应该足够了。

import random # Creat a list and a set my_list =list(range(10000)) my_set =set(my_list)# Random 1000 numbers for testing purpose test_numbers = random.sample(range(10000),1000)

现在，我们可以使用以下代码在 Jupyter Notebook 中测试查找性能。

%timeit -n 100for num in test_numbers: num in my_list %timeit -n 100for num in test_numbers: num in my_set

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a09aab35f303ce777149e8fff8009264.png

由于 1ms = 1000μs，Python 集合的查找性能比 Python 列表快 1000 倍。

追加 – 列表胜出（快 0.2 倍）

现在，让我们测试追加。我们需要另一个测试数字数据集，因为我们的集合是从 1 到 10,000 的数字创建的。我们当前的测试数字是从同一范围内随机选择的，用于测试查找性能。然而，我们需要测试范围之外的数字。否则，我们对集合没有影响，因为我们不能在集合中追加重复的项。

# Random 1000 numbers from 10,000 to avoid duplicates in the set test_numbers = random.sample(range(10000,20000),1000)# Insertion into list%timeit -n 100for num in test_numbers: my_list_copy.append(num)# Insertion into set%timeit -n 100for num in test_numbers: my_set_copy.add(num)

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/14d78b86845e968b255639cc568a628b.png

这次列表赢了，但不是很多，只快了 0.2 倍。可以说性能即将相同。

删除 – 集合胜出（快 800 倍）

要测试删除性能，我们需要我们的原始测试数字，因为我们需要删除在列表和集合中存在的数字。

# Create the test numbers again test_numbers = random.sample(range(10000),1000)# Deletion from list%timeit -n 100for num in test_numbers: my_list.remove(num)if num in my_list elseNone# Deletion from set%timeit -n 100for num in test_numbers: my_set.discard(num)

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a1ac755e0b2c8befbe04d52ad52b7308.png

这次 Python 集合再次获胜，大约快 800 倍。这是因为删除操作与查找有点相似。数字需要在列表或集合中找到，然后才能删除。

然而，集合的性能并不像查找那样快，查找的速度快了 1000 倍。原因是从列表中删除一个项比从集合中删除要容易一些。

现在，我们已经清楚不同场景下的性能比较。让我们谈谈原因。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8030a8c7f4baf334b4ec1b585b4e08bb.png

由作者在 Canva 中创建