Python 数据分析与可视化实战指南 | 极客日志

PythonAI算法

Python 数据分析与可视化实战指南

Python 数据分析与可视化实战指南。涵盖环境配置、数据清洗（缺失值与异常值处理）、统计分析（描述性统计与分组）、时间序列分析及可视化技巧（Matplotlib 与 Seaborn）。通过销售数据案例演示完整流程，包括数据导入、预处理、计算总销售额及图表展示。掌握核心库 pandas、numpy 用法，实现从原始数据到洞察结果的转化，适合初学者快速入门数据分析工作流。

芝士奶盖发布于 2026/3/15更新于 2026/6/1621 浏览

Python 数据分析与可视化实战指南

Python 是数据分析与可视化领域最受欢迎的语言之一。凭借丰富的库和工具，它能帮助我们快速处理数据并生成高质量的图表。本文将详细介绍 Python 数据分析与可视化的核心知识，结合示例助你深入理解。

环境准备

开始前需安装必要的库：

pandas：数据处理与分析
numpy：数值计算
matplotlib：基础绘图
seaborn：高级可视化
scikit-learn：机器学习与预处理

使用以下命令安装：

pip install pandas numpy matplotlib seaborn scikit-learn

数据处理与清洗

数据清洗是分析的关键步骤，主要使用 pandas 完成。

导入数据

假设有一个 CSV 文件 data.csv，包含姓名、年龄和薪资信息：

Name	Age	Salary
Alice	30	70000
Bob	25	48000
Carol	27	52000
Dave	NaN	60000
Eve	22	NaN

使用 read_csv 导入：

import pandas as pd

data = pd.read_csv('data.csv')
print(data)

输出结果会显示包含缺失值（NaN）的 DataFrame。

数据清洗

处理缺失值

查看缺失值分布：

print(data.isnull().sum())

通常用均值或中位数填充。年龄可用均值，薪资可用中位数以减少极端值影响：

data['Age'].fillna(data['Age'].mean(), inplace=True)
data['Salary'].fillna(data['Salary'].median(), inplace=True)
print(data)

处理异常值

利用四分位距（IQR）识别异常值：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

q1 = data['Salary'].quantile(0.25)
q3 = data['Salary'].quantile(0.75)
iqr = q3 - q1

outliers = data[(data['Salary'] < (q1 - 1.5 * iqr)) | 
                (data['Salary'] > (q3 + 1.5 * iqr))]
print("异常值:\n", outliers)

# 移除异常值
data = data[~data['Salary'].isin(outliers['Salary'])]

data['Age'] = data['Age'].astype(int)

statistics = data.describe()
print(statistics)

grouped_data = data.groupby('Age')['Salary'].mean().reset_index()
print(grouped_data)

data['Date'] = pd.date_range(start='1/1/2020', periods=len(data), freq='M')
data.set_index('Date', inplace=True)
monthly_data = data.resample('M').sum()
print(monthly_data)

import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
plt.bar(data['Name'], data['Salary'], color='skyblue')
plt.title('Salary by Name')
plt.xlabel('Name')
plt.ylabel('Salary')
plt.show()

import seaborn as sns

plt.figure(figsize=(10, 6))
sns.boxplot(x='Age', y='Salary', data=data)
plt.title('Salary Distribution by Age')
plt.show()

correlation_matrix = data[['Age', 'Salary']].corr()
print(correlation_matrix)

plt.figure(figsize=(10, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Heatmap')
plt.show()

sales_data = pd.read_csv('sales_data.csv')
print(sales_data.isnull().sum())

# 填充缺失值
sales_data['Quantity'].fillna(0, inplace=True)
sales_data['Price'].fillna(sales_data['Price'].median(), inplace=True)

sales_data['TotalSales'] = sales_data['Quantity'] * sales_data['Price']
product_sales = sales_data.groupby('Product')['TotalSales'].sum().reset_index()

plt.figure(figsize=(12, 6))
sns.barplot(x='Product', y='TotalSales', data=product_sales)
plt.title('Total Sales by Product')
plt.xticks(rotation=45)
plt.show()

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 1. 生成示例销售数据
data = {
    'OrderID': range(1, 11),
    'Product': ['A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C', 'A'],
    'Quantity': [5, 2, 0, 3, 1, 4, 6, 7, 0, 2],
    'Price': [10.0, 20.0, 15.0, 10.0, 20.0, 15.0, 10.0, 20.0, 15.0, 10.0],
    'Date': pd.date_range(start='2023-01-01', periods=10, freq='D')
}
sales_data = pd.DataFrame(data)

# 2. 数据预处理
print(sales_data.isnull().sum())
sales_data['Quantity'].fillna(0, inplace=True)
sales_data['Price'].fillna(sales_data['Price'].median(), inplace=True)

# 3. 计算总销售额
sales_data['TotalSales'] = sales_data['Quantity'] * sales_data['Price']

# 4. 按产品分组汇总
product_sales = sales_data.groupby('Product')['TotalSales'].sum().reset_index()

# 5. 可视化
plt.figure(figsize=(10, 6))
sns.barplot(x='Product', y='TotalSales', data=product_sales)
plt.title('Total Sales by Product')
plt.xlabel('Product')
plt.ylabel('Total Sales ($)')
plt.xticks(rotation=45)
plt.show()

Python 数据分析与可视化实战指南

Python 数据分析与可视化实战指南

环境准备

数据处理与清洗

导入数据

数据清洗

处理缺失值

处理异常值

更多推荐文章

相关免费在线工具

数据转换

数据分析

描述性统计

分组分析

时间序列分析

数据可视化

基本绘图

Seaborn 高级图表

热力图

案例研究：销售数据分析

数据导入与预处理

数据分析

数据可视化

完整代码示例

更多推荐文章

相关免费在线工具

Python 数据分析与可视化实战指南

Python 数据分析与可视化实战指南

环境准备

数据处理与清洗

导入数据

数据清洗

处理缺失值

处理异常值

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

数据转换

数据分析

描述性统计

分组分析

时间序列分析

数据可视化

基本绘图

Seaborn 高级图表

热力图

案例研究：销售数据分析

数据导入与预处理

数据分析

数据可视化

完整代码示例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具