Python 数据分析与可视化实战指南
Python 是数据分析与可视化领域最受欢迎的语言之一。凭借丰富的库和工具,它能帮助我们快速处理数据并生成高质量的图表。本文将详细介绍 Python 数据分析与可视化的核心知识,结合示例助你深入理解。
环境准备
开始前需安装必要的库:
pandas:数据处理与分析numpy:数值计算matplotlib:基础绘图seaborn:高级可视化scikit-learn:机器学习与预处理
使用以下命令安装:
pip install pandas numpy matplotlib seaborn scikit-learn
数据处理与清洗
数据清洗是分析的关键步骤,主要使用 pandas 完成。
导入数据
假设有一个 CSV 文件 data.csv,包含姓名、年龄和薪资信息:
| Name | Age | Salary |
|---|---|---|
| Alice | 30 | 70000 |
| Bob | 25 | 48000 |
| Carol | 27 | 52000 |
| Dave | NaN | 60000 |
| Eve | 22 | NaN |
使用 read_csv 导入:
import pandas as pd
data = pd.read_csv('data.csv')
print(data)
输出结果会显示包含缺失值(NaN)的 DataFrame。
数据清洗
处理缺失值
查看缺失值分布:
print(data.isnull().sum())
通常用均值或中位数填充。年龄可用均值,薪资可用中位数以减少极端值影响:
data['Age'].fillna(data['Age'].mean(), inplace=True)
data['Salary'].fillna(data['Salary'].median(), inplace=True)
print(data)
处理异常值
利用四分位距(IQR)识别异常值:


