Python Pandas 高效读取 Excel 文件完整指南 | 极客日志

PythonAI

Python Pandas 高效读取 Excel 文件完整指南

介绍使用 Python Pandas 库读取 Excel 文件的方法，涵盖环境配置、基础读取、工作表选择、数据范围控制、类型处理及缺失值处理。通过实战案例展示销售数据汇总、多文件合并及复杂数据类型处理技巧，并提供常见错误解决方案与工具对比，帮助开发者高效完成结构化数据清洗与分析任务。

奇形怪状发布于 2026/2/21更新于 2026/6/626 浏览

Python 数据导入工具 Pandas：高效读取 Excel 文件的完整指南

工具概述

Pandas 是 Python 生态中功能强大的数据处理库，提供简单易用的 API 实现 Excel 文件 (.xls 和.xlsx) 的高效读取与数据转换，支持复杂数据清洗和分析操作，是数据科学家和分析师处理结构化数据的核心工具。

功能特性解析

多格式支持：同时兼容.xls 和.xlsx 格式文件，无需额外安装格式驱动
自动类型推断：智能识别数值、日期、文本等数据类型，减少手动转换工作
批量数据处理：支持读取超大文件和批量导入多个工作表
灵活数据筛选：提供丰富的参数控制数据读取范围和条件
无缝集成生态：与 NumPy、Matplotlib 等科学计算库完美协作

环境配置指南

基础安装

pip install pandas openpyxl xlrd

虚拟环境配置

# 创建虚拟环境
python -m venv pandas-env
# 激活环境（Windows）
pandas-env\Scripts\activate
# 激活环境（Mac/Linux）
source pandas-env/bin/activate
# 安装依赖
pip install pandas openpyxl xlrd

验证安装

import pandas as pd
print(f"Pandas 版本：{pd.__version__}")

实战操作手册

基础读取操作

import pandas as pd
# 读取 Excel 文件
df = pd.read_excel('data.xlsx')
# 查看数据基本信息
print(df.info())
# 显示前 5 行数据
print(df.head())

工作表选择

# 按名称选择工作表
df = pd.read_excel('data.xlsx', sheet_name='销售数据')
# 按索引选择工作表（从 0 开始）
df = pd.read_excel('data.xlsx', sheet_name=)

dfs = pd.read_excel(, sheet_name=[, ])

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

# 指定数据范围
df = pd.read_excel('data.xlsx', usecols='A:C', nrows=100)
# 使用行号范围
df = pd.read_excel('data.xlsx', skiprows=2, nrows=50)
# 自定义表头行
df = pd.read_excel('data.xlsx', header=2)

# 手动指定列数据类型
df = pd.read_excel('data.xlsx', dtype={ 'ID': str, '销售额': float, '日期': 'datetime64[ns]' })
# 处理日期格式
df = pd.read_excel('data.xlsx', parse_dates=['订单日期'])

# 指定缺失值标识
df = pd.read_excel('data.xlsx', na_values=['NA', '缺失', ''])
# 填充缺失值
df.fillna(method='ffill', inplace=True)

import pandas as pd
# 读取多个工作表数据
dfs = pd.read_excel('销售数据.xlsx', sheet_name=None)
# 合并所有工作表数据
all_data = pd.concat(dfs.values(), ignore_index=True)
# 数据清洗
all_data['销售日期'] = pd.to_datetime(all_data['销售日期'])
all_data['月份'] = all_data['销售日期'].dt.to_period('M')
# 月度销售汇总
monthly_sales = all_data.groupby('月份')['销售额'].sum()
print(monthly_sales)

import pandas as pd
import glob
# 获取所有 Excel 文件
file_paths = glob.glob('数据文件夹/*.xlsx')
# 批量读取并合并
dfs = []
for path in file_paths:
    df = pd.read_excel(path)
    df['来源文件'] = path.split('/')[-1] # 添加来源标识
    dfs.append(df)
combined_df = pd.concat(dfs, ignore_index=True)
combined_df.to_excel('合并结果.xlsx', index=False)

import pandas as pd
# 读取包含多种数据类型的 Excel
df = pd.read_excel('复杂数据.xlsx', parse_dates=['出生日期'], dtype={'工号': str, '部门': 'category'}, na_values=['N/A', '未知'])
# 数据转换
df['年龄'] = df['出生日期'].apply(lambda x: (pd.Timestamp.now() - x).days // 365)
df['入职年份'] = df['入职日期'].dt.year
# 按部门统计平均年龄
dept_age = df.groupby('部门')['年龄'].mean()
print(dept_age)

# 指定列数据类型
df = pd.read_excel('data.xlsx', dtype={'金额': str})
# 清洗数据后转换
df['金额'] = df['金额'].str.replace(',', '').astype(float)

# 分块读取大型文件
chunk_iter = pd.read_excel('large_file.xlsx', chunksize=10000)
for chunk in chunk_iter:
    process_chunk(chunk) # 处理每个数据块

# 指定日期列和格式
df = pd.read_excel('data.xlsx', parse_dates=['日期列'], date_parser=lambda x: pd.to_datetime(x, format='%Y年%m月%d日'))

功能特性	Pandas	openpyxl	xlrd	xlwt
读取.xlsx	✅	✅	❌	❌
读取.xls	✅	❌	✅	❌
写入 Excel	✅	✅	❌	✅
数据处理能力	强大	基础	基础	基础
内存占用	中	低	低	低
速度	快	中	快	中
易用性	高	中	中	中
依赖	openpyxl/xlrd	无	无	无

Python Pandas 高效读取 Excel 文件完整指南

Python 数据导入工具 Pandas：高效读取 Excel 文件的完整指南

工具概述

功能特性解析

环境配置指南

基础安装

虚拟环境配置

验证安装

实战操作手册

基础读取操作

工作表选择

更多推荐文章

相关免费在线工具

数据范围控制

数据类型处理

缺失值处理

场景化应用案例

案例 1：销售数据月度汇总分析

案例 2：多 Excel 文件数据合并

案例 3：复杂数据类型处理

问题解决方案

常见错误及处理

1. Excel 文件读取权限问题

2. 数据类型转换错误

3. 大型 Excel 文件内存问题

4. 日期格式识别错误

工具生态对比

学习资源导航

官方文档

进阶教程

社区资源

更多推荐文章

相关免费在线工具

Python Pandas 高效读取 Excel 文件完整指南

Python 数据导入工具 Pandas：高效读取 Excel 文件的完整指南

工具概述

功能特性解析

环境配置指南

基础安装

虚拟环境配置

验证安装

实战操作手册

基础读取操作

工作表选择

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

数据范围控制

数据类型处理

缺失值处理

场景化应用案例

案例 1：销售数据月度汇总分析

案例 2：多 Excel 文件数据合并

案例 3：复杂数据类型处理

问题解决方案

常见错误及处理

1. Excel 文件读取权限问题

2. 数据类型转换错误

3. 大型 Excel 文件内存问题

4. 日期格式识别错误

工具生态对比

学习资源导航

官方文档

进阶教程

社区资源

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具