Python 数据分析实战指南:从数据清洗到出报告
一、为什么使用 Python 进行数据分析
优势:
- 自动化处理大数据量
- 绘图无需手动调整格式
- 免费开源,社区资源丰富
常见误区:
- '不会编程学不会':Python 语法简洁,易上手
- '数据太大电脑卡死':Pandas 支持分批处理
二、环境准备与工具安装
推荐使用 Jupyter Notebook。
# 安装所需库
pip install pandas matplotlib seaborn plotly geopandas
验证安装:在 Notebook 中输入 import pandas,无报错即成功。
三、Pandas 数据处理
1. 读取数据
import pandas as pd
df = pd.read_csv('sales_data.csv')
print(df.head())
若为 Excel 文件:pd.read_excel('data.xlsx')。
2. 数据清洗
# 填充缺失值
df['price'].fillna(0, inplace=True)
# 删除重复行
df.drop_duplicates(inplace=True)
# 转换日期格式
df['date'] = pd.to_datetime(df['date'])
# 检查数据类型
print(df.info())
注意:价格列缺失值建议用平均值填充 df['price'].mean()。
3. 数据分析
# 分组聚合
grouped = df.groupby('category')['sales'].mean()
# 计算占比
df['ratio'] = df['sales'] / df['sales'].sum()
# 滚动平均
df['3day_avg'] = df['sales'].rolling(window=).mean()

