Pandas 数据清理实用技巧速查 | 极客日志

Python

Pandas 数据清理实用技巧速查

数据清洗中，合并多个Excel文件、统计并填充缺失值、按索引批量删除列、用字符串方法清洗列名、去重和日期解析是高频任务。这份速查提供了对应的Pandas代码片段和操作说明，代码尽量短小，便于直接复用。

GRACE Grace发布于 2026/6/300 浏览

日常数据清理中，这些操作我用得最频繁。代码尽量短小，直接粘到项目里就能复用。

合并多个 Excel 文件

需要把当前目录下所有 xlsx 文件的所有工作表合并成一个 DataFrame 时，glob 配合 pd.concat 很顺手。

import pandas as pd
import glob

df = pd.DataFrame()
# 获取当前目录下所有 xlsx 文件路径并排序
dir_filenames = sorted(glob.glob('./*.xlsx'))

for dir_file in dir_filenames:
    # sheet_name=None 返回字典，key 是 sheet name，value 是工作表数据
    dict_xlsx = pd.read_excel(dir_file, sheet_name=None)
    # 为每个 sheet 添加来源列，然后纵向合并
    workbook = pd.concat(
        [v_df.assign(Sheet=k) for k, v_df in dict_xlsx.items()], 
        ignore_index=True
    )
    df = pd.concat([df, workbook], ignore_index=True)

print(f'merged files shape: {df.shape}')

glob.glob() 搜文件，sorted() 保持顺序。sheet_name=None 是关键，一次性读入所有工作表。最后用 assign 标记来源，合并后方便追溯数据从哪个 Sheet 来。

查看和处理缺失值

先看缺失情况再决定怎么补。统计每列的空值数量和占比，心里有数。

# 统计缺失值数量
count_null_series = df.isnull().sum()
count_null_df = pd.DataFrame(data=count_null_series, columns=['Num_Nulls'])

# 计算缺失值占比
pct_null_df = pd.DataFrame(data=count_null_series/len(df), columns=['Pct_Nulls'])

# 合并显示
null_stats = pd.concat([count_null_df, pct_null_df], axis=1)
print(null_stats)

补缺失值的方法按场景选：

时间序列常用前向填充：df[col_name].fillna(method='ffill', inplace=True)
不同列补不同值：df.fillna(value={'col1':50, 'col2':67}, inplace=True)

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

# 先看看列信息，确定要删的起始和终止索引
df.info()

# 假设要删除第 2 到第 4 列（索引 1 到 3），切片结束索引要加 1
df.drop(df.columns[1:5], axis=1, inplace=True)

# 再次检查
df.info()

# 重命名指定列
df.rename(columns={'Order_No_1': 'OrderID', 'ItemNo': 'ItemID'}, inplace=True)

# 移除特殊字符（正则里的括号需要转义）
df.columns = df.columns.str.replace('[&,#,@,\(,\)]', '')

# 去除首尾空格，中间空格替换为下划线
df.columns = df.columns.str.strip().str.replace(' ', '_')

for c in ['OrderID', 'ItemID', 'Class']:
    df[c] = df[c].astype('str')

len_df = len(df)
len_drop = len(df.drop_duplicates(subset=['subset_list']))
len_diff = len_df - len_drop
print(f'difference of length: {len_diff}')

if len_diff > 0:
    # keep=False 保证展示所有重复项，sort_values 让相同值挨着
    dups = df[df.duplicated(keep=False)].sort_values(by=['sort_list'])
    print(dups.head())
    
    # 保留最后一项
    df_drop = df.drop_duplicates(subset=['subset_list'], keep='last')

# 分割字符串，取第一部分
df['date_com'] = df['date_com'].str.split(',', expand=True)[0]

# 转换为 datetime 格式，返回 YYYY-MM-DD HH:MM:SS
df['date_com'] = pd.to_datetime(df['date_com'], format='%Y-%m-%d %H:%M:%S')

# 分离 Date, Time, Hour
df['Date'] = df['date_com'].dt.date
dt_lst = df['date_com'].str.split(' ', n=1, expand=True)
df['Time'] = dt_lst[1]
time_lst = df['date_com'].str.split(':', n=1, expand=True)
df['Hour'] = time_lst[0]

Pandas 数据清理实用技巧速查

合并多个 Excel 文件

查看和处理缺失值

更多推荐文章

相关免费在线工具

批量删除列

批量修改列名

统一数据格式

处理重复值

解析日期和时间

更多推荐文章

相关免费在线工具

Pandas 数据清理实用技巧速查

合并多个 Excel 文件

查看和处理缺失值

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

批量删除列

批量修改列名

统一数据格式

处理重复值

解析日期和时间

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具