前言
我们不论在学习机器学习还是数据分析中,都会涉及很多数据。但原数据不可避免有很多杂质,为了确保结果的准确性,我们需要首先进行数据清洗和预处理。
了解数据清洗
数据清洗就像是一场数据的'大扫除'。它是从原始数据中找出并修正那些错误、不完整、重复或不一致的数据。通过数据清洗,能显著提升数据质量,为后续数据分析、挖掘和建模等工作提供准确、可靠、干净的数据基础,从而让基于数据得出的结论更具可信度和价值。
数据清洗的步骤
1. 环境准备与库导入
import pandas as pd # 数据处理核心库
import numpy as np # 数值计算库
import matplotlib.pyplot as plt # 基础可视化库
import seaborn as sns # 高级可视化库
# 设置显示参数,确保中文正常显示
plt.rcParams["font.family"]= ["SimHei","WenQuanYi Micro Hei","Heiti TC"]
pd.set_option('display.max_columns',None) # 显示所有列
pd.set_option('display.width',1000) # 显示宽度
函数 / 参数解释:
import pandas as pd:导入 pandas 库并简写为 pd。pandas 是数据处理的核心工具,提供了DataFrame数据结构和丰富的数据操作方法。plt.rcParams:设置 matplotlib 的全局参数,这里用于配置中文字体,避免图表中中文显示为乱码。pd.set_option:配置 pandas 的显示选项,确保查看数据时不会截断列或内容。
2. 数据加载
# 从 CSV 文件加载数据
df = pd.read_csv('data.csv')
# 从 Excel 文件加载数据(支持多工作表)
excel_file = pd.ExcelFile('data.xlsx')
df = excel_file.parse('Sheet1') # 读取名为 Sheet1 的工作表
# 查看数据规模
print(f"数据集规模:行,列")




