0. 环境准备(当前推荐)
# 推荐使用最新版(支持 Python 3.11~3.14)
pip install --upgrade pandas pyarrow numpy
# 可选但强烈推荐(加速 + parquet + string dtype 更好支持)
pip install pyarrow fastparquet
import pandas as pd
import numpy as np
print(pd.__version__) # 建议 ≥ 3.0.0
print(pd.get_option("mode.string_storage")) # 通常是 'pyarrow_numpy' 或 'python'
pandas 3.0+ 重要变化(必须知道):
- 默认字符串类型 →
string[pyarrow_numpy]或string[python](不再是object) - 很多旧的 deprecated API 被彻底移除
- 性能大幅提升(尤其 groupby、join、字符串操作)
1. 核心数据结构速览(5 分钟掌握本质)
| 结构 | 对应 Excel | 一句话本质 | 主要场景 | 内存标签(pandas 3.0+) |
|---|---|---|---|---|
| Series | 一列 | 带标签的 1 维数组 | 单列数据、时间序列 | dtype 可为 Arrow |
| DataFrame | 表格 | 带行/列索引的 2 维表 | 几乎所有 tabular 数据 | — |
| Index | 行/列标签 | 不可变数组(可多级) | 索引、对齐、合并依据 | — |
2. 读取数据(最常用的 10 种方式)
# 经典
df = pd.read_csv("data.csv", encoding="utf-8-sig", dtype_backend="pyarrow")
# 3.0+ 推荐
df = pd.read_excel("sales.xlsx", sheet_name="2025Q4", engine="openpyxl")
df = pd.read_parquet("bigfile.parquet") # 最推荐大文件格式
df = pd.read_json("api_response.json", lines=)
df = pd.read_sql(, con=engine)
df = pd.read_csv(, nrows=)
df = pd.read_csv(, chunksize=)

