Python 数据分析库 Pandas 核心操作详解 | 极客日志

PythonAI算法

Python 数据分析库 Pandas 核心操作详解

Python 数据分析库 Pandas 提供了强大的数据处理功能，涵盖 Series 和 DataFrame 的核心操作。详细讲解了排序、分组、透视表、多索引（MultiIndex）等关键特性，对比了 NumPy 与 Pandas 的性能差异及缺失值处理机制。内容包括数据读写、索引对齐、算术运算、合并连接以及可视化展示技巧，旨在帮助开发者高效掌握 Pandas 在数据清洗、转换和分析中的应用场景。

月光旅人发布于 2025/2/6更新于 2026/7/1035 浏览

Python 数据分析库 Pandas 核心操作详解

在 Python 各个工具包中，最频繁使用的应该就是 Pandas 了。以下以图解的方式介绍 Pandas 中各种常用的操作。

第一部分：Pandas 展示

下表描述了一个在线商店的不同产品线，共有四种不同的产品。与前面的例子不同，它可以用 NumPy 数组或 Pandas DataFrame 表示。

1. 排序

使用 Pandas 按列排序更具可读性。这里 argsort(a[:, 1]) 计算使 a 的第二列按升序排序的排列，然后 a[...] 相应地对 a 的行重新排序。Pandas 可以一步完成。

2. 按多列排序

如果我们需要使用 weight 列来对价格列进行排序，情况会变得更糟。这里有几个例子来说明我们的观点：

在 NumPy 中，我们先按重量排序，然后再按价格排序。稳定排序算法保证第一次排序的结果不会在第二次排序期间丢失。NumPy 还有其他实现方法，但没有一种方法像 Pandas 那样简单优雅。

3. 添加一列

使用 Pandas 添加列在语法和架构上要好得多。下面的例子展示了如何操作：

Pandas 不需要像 NumPy 那样为整个数组重新分配内存；它只是添加了对新列的引用，并更新了列名的 registry。

4. 快速元素搜索

在 NumPy 数组中，即使你查找的是第一个元素，你仍然需要与数组大小成正比的时间来查找它。使用 Pandas，你可以索引你期望被查询最多的列，并将搜索时间减少到一个常量。

index 列有以下限制：

它需要内存和时间来构建。
它是只读的（需要在每次追加或删除操作后重新构建）。
这些值不需要是唯一的，但是只有当元素是唯一的时候加速才会发生。
它需要预热：第一次查询比 NumPy 稍慢，但后续查询明显快得多。

5. 按列连接（join）

如果你想从另一张表中获取基于同一列的信息，NumPy 几乎没有任何帮助。Pandas 更好，特别是对于 1:n 的关系。

Pandas join 具有所有熟悉的'内'、'左'、'右'和'全外部'连接模式。

6. 按列分组

数据分析中的另一个常见操作是按列分组。例如，要获得每种产品的总销量，你可以这样做：

除了 sum 之外，Pandas 还支持各种聚合函数：mean、max、min、count 等。

7. 数据透视表

Pandas 最强大的功能之一是'枢轴'表。这有点像将多维空间投影到二维平面上。

虽然用 NumPy 当然可以实现它，但这个功能没有开箱即用，尽管它存在于所有主要的关系数据库和电子表格应用程序 (Excel, WPS) 中。 Pandas 用 df.pivot_table 将分组和旋转结合在一个工具中。

简而言之，NumPy 和 Pandas 的两个主要区别如下：

现在，让我们看看这些功能是否以性能损失为代价。

8. Pandas 速度

我在 Pandas 的典型工作负载上对 NumPy 和 Pandas 进行了基准测试：5-100 列，10³- 10⁸行，整数和浮点数。下面是 1 行和 1 亿行的结果：

看起来在每一次操作中，Pandas 都比 NumPy 慢！

当列数增加时，情况不会改变 (可以预见)。至于行数，依赖关系 (在对数尺度下) 如下所示：

对于小数组 (少于 100 行)，Pandas 似乎比 NumPy 慢 30 倍，对于大数组 (超过 100 万行) 则慢 3 倍。

怎么可能呢？也许是时候提交一个功能请求，建议 Pandas 通过 df.column.values.sum() 重新实现 df.column.sum() 了？这里的 values 属性提供了访问底层 NumPy 数组的方法，性能提升了 3 ~ 30 倍。

答案是否定的。Pandas 在这些基本操作方面非常缓慢，因为它正确地处理了缺失值。Pandas 需要 NaNs (not-a-number) 来实现所有这些类似数据库的机制，比如分组和旋转，而且这在现实世界中是很常见的。在 Pandas 中，我们做了大量工作来统一所有支持的数据类型对 NaN 的使用。根据定义 (在 CPU 级别上强制执行)，nan+anything 会得到 nan。所以

>>> np.sum([, np.nan, ])  
nan

>>> pd.Series([1, np.nan, 2]).sum()  
3.0

pip install pandas-illustrated

>>> s = pd.Series(np.zeros(10**6))  
>>> s.index  
RangeIndex(start=0, stop=1000000, step=1)  
>>> s.index.memory_usage()       # in bytes  
128                    # the same as for Series([0.])

>>> s.drop(1, inplace=True)  
>>> s.index  
Int64Index([     0,      2,      3,      4,      5,      6,      7,  
            ...  
            999993, 999994, 999995, 999996, 999997, 999998, 999999],  
           dtype='int64', length=999999)  
>>> s.index.memory_usage()  
7999992

>>> s.reset_index(drop=True, inplace=True)  
>>> s.index  
RangeIndex(start=0, stop=999999, step=1)  
>>> s.index.memory_usage()  
128

s.index[s.tolist().find(x)]           # faster for len(s) < 1000  
s.index[np.where(s.values==x)[0][0]]  # faster for len(s) > 1000

>>> import pdi  
>>> pdi.find(s, 2)  
'penguin'  
>>> pdi.findall(s, 4)  
Index(['cat', 'dog'], dtype='object')

>>> np.all(pd.Series([1., None, 3.]) ==   
           pd.Series([1., None, 3.]))  
False  
>>> np.all(pd.Series([1, None, 3], dtype='Int64') ==   
           pd.Series([1, None, 3], dtype='Int64'))  
True  
>>> np.all(pd.Series(['a', None, 'c']) ==   
           pd.Series(['a', None, 'c']))  
False

>>> np.all(s1.fillna(np.inf) == s2.fillna(np.inf))   # works for all dtypes  
True

>>> s = pd.Series([1., None, 3.])  
>>> np.array_equal(s.values, s.values, equal_nan=True)  
True  
>>> len(s.compare(s)) == 0  
True

>>> df = pd.DataFrame({'a': [1., None, 3.], 'b': ['x', None, 'z']})  
>>> np.array_equal(df.values, df.values, equal_nan=True)  
TypeError  
<...>  
>>> len(df.compare(df)) == 0  
True

>>> pd.Series([1, 2]).std()  
0.7071067811865476  
>>> pd.Series([1, 2]).values.std()  
0.5

pdi.set_level(df.columns, 0, pdi.get_level(df.columns, 0).astype('int'))

df.columns = df.columns.set_levels(df.columns.levels[0].astype(int), level=0)

!pip install openpyxl  
df.to_excel('df3.xlsx')  
df.to_pd.read_excel('df3.xlsx', header=[0,1,2], index_col=[0,1,2,3])

Python 数据分析库 Pandas 核心操作详解

Python 数据分析库 Pandas 核心操作详解

第一部分：Pandas 展示

1. 排序

2. 按多列排序

3. 添加一列

4. 快速元素搜索

5. 按列连接（join）

6. 按列分组

7. 数据透视表

8. Pandas 速度

第二部分：Series 和 Index

索引 (Index)

按值查找元素

缺失值

比较

追加、插入、删除

统计数据

重复数据

分组

第三部分：DataFrames

读写 CSV 文件

构建 DataFrame

DataFrames 的基本操作

索引 DataFrames

DataFrame 算术

结合 DataFrames

垂直叠加

水平叠加

基于多指数的数据叠加

1:1 连接的关系

1:n 连接的关系

多个连接

插入和删除

分组

旋转和反旋转

第四部分：MultiIndex

分组

类型转换

使用多重索引构建一个 Dataframe

使用多重索引进行索引

叠加与拆分

如何防止叠加/分解排序

操作级别

将多索引转换为平面索引并恢复它

排序 MultiIndex

读写多索引 dataframe 到磁盘

MultiIndex 算术

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具