机器学习：数据清洗与预处理（Python） | 极客日志

PythonAI算法

机器学习：数据清洗与预处理（Python）

机器学习项目中数据清洗与预处理至关重要。文章通过 Python 语言，结合 pandas 和 sklearn 库，详细演示了从环境配置到数据加载、缺失值填充、重复值删除、异常值检测及标准化处理的全流程。以鸢尾花数据集为例，展示了如何编写代码完成数据质量提升，确保后续建模分析的准确性与可靠性。

remedios发布于 2026/3/24更新于 2026/7/328 浏览

前言

我们不论在学习机器学习还是数据分析中，都会涉及很多数据。但原数据不可避免有很多杂质，为了确保结果的准确性，我们需要首先进行数据清洗和预处理。

了解数据清洗

数据清洗就像是一场数据的'大扫除'。它是从原始数据中找出并修正那些错误、不完整、重复或不一致的数据。通过数据清洗，能显著提升数据质量，为后续数据分析、挖掘和建模等工作提供准确、可靠、干净的数据基础，从而让基于数据得出的结论更具可信度和价值。

数据清洗的步骤

1. 环境准备与库导入

import pandas as pd # 数据处理核心库
import numpy as np # 数值计算库
import matplotlib.pyplot as plt # 基础可视化库
import seaborn as sns # 高级可视化库
# 设置显示参数，确保中文正常显示
plt.rcParams["font.family"]= ["SimHei","WenQuanYi Micro Hei","Heiti TC"]
pd.set_option('display.max_columns',None) # 显示所有列
pd.set_option('display.width',1000) # 显示宽度

函数 / 参数解释：

import pandas as pd：导入 pandas 库并简写为 pd。pandas 是数据处理的核心工具，提供了 DataFrame 数据结构和丰富的数据操作方法。
plt.rcParams：设置 matplotlib 的全局参数，这里用于配置中文字体，避免图表中中文显示为乱码。
pd.set_option：配置 pandas 的显示选项，确保查看数据时不会截断列或内容。

2. 数据加载

# 从 CSV 文件加载数据
df = pd.read_csv('data.csv')
# 从 Excel 文件加载数据（支持多工作表）
excel_file = pd.ExcelFile('data.xlsx')
df = excel_file.parse('Sheet1') # 读取名为 Sheet1 的工作表
# 查看数据规模
print(f"数据集规模：行，列")

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 查看数据基本信息
print("数据基本信息：")
df.info()
# 查看前 5 行数据
print("\n数据前 5 行：")
print(df.head())
# 查看数值型列的统计描述
print("\n数值型列统计描述：")
print(df.describe())
# 查看类别型列的取值分布
print("\n类别型列取值分布：")
for col in df.select_dtypes(include=['object','category']).columns:
    print(f"\n{col}列分布：")
    print(df[col].value_counts())

# 1. 检测缺失值
missing_count = df.isnull().sum() # 计算每列缺失值数量
missing_ratio = missing_count / len(df) # 计算缺失比例
missing_df = pd.DataFrame({'缺失值数量': missing_count,'缺失比例': missing_ratio })
print("缺失值统计：")
print(missing_df[missing_df['缺失值数量']>0]) # 只显示有缺失值的列
# 2. 处理缺失值
# 方法 1：删除缺失值（适用于缺失比例极低的情况）
df_drop = df.dropna(axis=0) # 按行删除，axis=1 按列删除
# 方法 2：填充缺失值
# 数值型列用均值/中位数填充
df['数值列 1']= df['数值列 1'].fillna(df['数值列 1'].mean()) # 均值填充
df['数值列 2']= df['数值列 2'].fillna(df['数值列 2'].median()) # 中位数填充
# 类别型列用众数填充
df['类别列 1']= df['类别列 1'].fillna(df['类别列 1'].mode()[0]) # 众数填充
# 方法 3：用前后值填充（适用于时间序列）
df['时间序列列']= df['时间序列列'].fillna(method='ffill') # 向前填充
# df['时间序列列'] = df['时间序列列'].fillna(method='bfill') # 向后填充

# 1. 检测重复行
duplicate_rows = df.duplicated() # 返回布尔型 Series，标记是否为重复行
print(f"重复行数量：{duplicate_rows.sum()}")
# 2. 查看重复行内容
if duplicate_rows.sum()>0:
    print("重复行内容：")
    print(df[duplicate_rows])
# 3. 删除重复行
df_clean = df.drop_duplicates(keep='first') # 保留第一次出现的行
# df_clean = df.drop_duplicates(keep='last') # 保留最后一次出现的行
# df_clean = df.drop_duplicates(keep=False) # 删除所有重复行
print(f"删除重复行后：{df_clean.shape[0]}行")

# 1. 绘制箱线图可视化异常值
plt.figure(figsize=(12,6))
sns.boxplot(data=df.select_dtypes(include=np.number)) # 只对数值列绘图
plt.title('数值列箱线图（用于检测异常值）')
plt.tight_layout()
plt.show()
# 2. 使用 IQR 方法检测异常值
def detect_outliers(df, col):
    """检测指定列的异常值"""
    Q1 = df[col].quantile(0.25) # 下四分位数
    Q3 = df[col].quantile(0.75) # 上四分位数
    IQR = Q3 - Q1 # 四分位距
    lower_bound = Q1 - 1.5 * IQR # 下界
    upper_bound = Q3 + 1.5 * IQR # 上界
    outliers = df[(df[col]< lower_bound)|(df[col]> upper_bound)]
    return outliers, lower_bound, upper_bound 
# 处理每个数值列的异常值
for col in df.select_dtypes(include=np.number).columns:
    outliers, lower, upper = detect_outliers(df, col)
    if not outliers.empty:
        print(f"{col}列异常值数量：{len(outliers)}")
        # 方法 1：删除异常值
        # df = df.drop(outliers.index)
        # 方法 2：截断异常值（替换为边界值）
        df.loc[df[col]< lower, col]= lower
        df.loc[df[col]> upper, col]= upper

# 查看当前数据类型
print("原始数据类型：")
print(df.dtypes)
# 1. 转换为数值类型（处理字符串格式的数值）
df['数值列']= pd.to_numeric(df['数值列'], errors='coerce') # 无法转换的值变为 NaN
# 2. 转换为日期类型
df['日期列']= pd.to_datetime(df['日期列'],format='%Y-%m-%d') # 指定格式加速转换
# 3. 转换为类别类型（适用于取值有限的字符串列）
df['类别列']= df['类别列'].astype('category')
# 查看转换后的数据类型
print("\n转换后数据类型：")
print(df.dtypes)

# 1. 标准化（Z-score 标准化，使均值为 0，标准差为 1）
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
numeric_cols = df.select_dtypes(include=np.number).columns
df[numeric_cols]= scaler.fit_transform(df[numeric_cols])
# 2. 归一化（Min-Max 归一化，将值缩放到 [0,1] 范围）
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df[numeric_cols]= scaler.fit_transform(df[numeric_cols])
# 查看处理后的统计描述
print("标准化/归一化后统计描述：")
print(df[numeric_cols].describe())

#导入库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#设置显示选项
pd.set_option('display.max_columns',None)
pd.set_option('display.max_rows',None)
# 使用原始字符串处理文件路径
excel_file =r'C:\Users\einsc\PycharmProjects\PythonProject\.venv\share\yuan\iris_dataset.xlsx'
#获取表名
sheet_names = pd.ExcelFile(excel_file).sheet_names
print(sheet_names)
#读取数据
df = pd.ExcelFile(excel_file).parse('Sheet1')
print("数据基本信息")
df.info()
rows, columns = df.shape
print(f"数据的行数：{rows}")
print(f"数据的列数：{columns}")
print("数据的前几行")
print(df.head())
# 处理缺失值
print("缺失值统计：")
print(df.isnull().sum())
# 若存在缺失值，这里选择用列均值填充数值型列，用众数填充类别型列
for col in df.columns:
    if df[col].dtype =='object':
        df[col]= df[col].fillna(df[col].mode()[0])
    else:
        df[col]= df[col].fillna(df[col].mean())
# 处理重复值
print("重复值数量：", df.duplicated().sum())
# 删除重复值
df = df.drop_duplicates()
# 处理异常值（使用 IQR 方法）
numerical_columns = df.select_dtypes(include=[np.number]).columns
for col in numerical_columns:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    df = df[(df[col]>= lower_bound)&(df[col]<= upper_bound)]
# 重置索引
df = df.reset_index(drop=True)
print("清洗后数据基本信息")
df.info()
print("清洗后数据行数：", df.shape[0])
print("清洗后数据列数：", df.shape[1])
# 定义保存路径
output_file =r'C:\Users\einsc\PycharmProjects\PythonProject\.venv\share\yuan\iris_dataset_cleaned.xlsx'
# 将清洗后的数据保存到新的 Excel 文件
df.to_excel(output_file, index=False, sheet_name='CleanedData')
print(f"清洗后的数据已保存到 {output_file}")
print("数据的前几行")

机器学习：数据清洗与预处理（Python）

前言

了解数据清洗

数据清洗的步骤

1. 环境准备与库导入

2. 数据加载

更多推荐文章

相关免费在线工具

3. 数据初探与理解

4. 缺失值处理

5. 重复值处理

6. 异常值处理

7. 数据类型转换

8. 数据标准化 / 归一化（预处理）

实例实践

总结

更多推荐文章

相关免费在线工具

机器学习：数据清洗与预处理（Python）

前言

了解数据清洗

数据清洗的步骤

1. 环境准备与库导入

2. 数据加载

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 数据初探与理解

4. 缺失值处理

5. 重复值处理

6. 异常值处理

7. 数据类型转换

8. 数据标准化 / 归一化（预处理）

实例实践

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具