Python Pandas 数据处理核心指南
1. 简介与安装
Pandas 是 Python 语言中用于数据分析的核心库,基于 NumPy 构建。它提供了高性能、易用的数据结构和数据分析工具,广泛应用于数据清洗、转换、分析和可视化领域。
安装方法
使用 pip 进行安装:
pip install pandas
同时建议安装依赖库 numpy 和 matplotlib:
pip install numpy matplotlib
2. 核心数据结构
Pandas 主要提供两种数据结构:Series 和 DataFrame。
Series
Series 是一维带标签的数组,可以存储任何数据类型。
import pandas as pd
import numpy as np
# 创建 Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)
DataFrame
DataFrame 是二维表格型数据结构,由行索引和列索引组成,每一列可以是不同的数据类型。
# 创建 DataFrame
df = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': pd.to_datetime(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04']),
'C': pd.Series(1, index=list(range(4)), dtype='float32'),
'D': np.array([3] * 4, dtype='int32'),
'E': pd.Categorical(['test', 'train', , ]),
:
})
(df)


