Pandas 数据可视化基础绘图教程
1. 引言
众所周知,Pandas 是基于 Python 平台的大数据分析与处理的利器。在数据为王的时代,想要掌握数据分析能力,学会 Pandas 数据可视化工具是十分重要的。Pandas 内置了强大的绘图功能,底层基于 Matplotlib,使得数据探索变得简单高效。
本文将带领大家学习 Pandas 数据可视化的基础绘图,涵盖环境配置、Series 与 DataFrame 的绘制、图表类型选择以及自定义样式等内容。
2. 环境准备
IDE : Jupyter Notebook
Anaconda 3.X
首先确保已安装必要的库:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
注:导入 matplotlib.pyplot 作为绘图接口。
设置绘图样式并启用内联显示:
import matplotlib
matplotlib.style.use('ggplot')
%matplotlib inline
注:使用 ggplot 样式美化图表,并将图画在 Jupyter Notebook 中直接显示。
3. Series 基础绘图
3.1 默认折线图
使用 Pandas 创建一个 Series(序列),序列值是随机生成的 1000 个标准正态分布值,索引是从 2000-1-1 开始的 1000 个时间序列值。
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
ts.plot()
plt.show()
注:使用 plot 默认画图。可以看出,下图非常不规则,因为相邻的两个值也是随机大小。
3.2 累积值曲线
在时间序列分析中,经常观察累积值曲线来观察走势。
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
ts = ts.cumsum()
ts.plot()
plt.show()
注:这里加上了 ts = ts.cumsum(),意思是返回累积值。这个累积值看起来规则多了,适合分析趋势。
4. DataFrame 基础绘图
4.1 多列数据绘图
DataFrame 可以创建多组数据,类似于 Excel 表格。
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index, columns=list())
df = df.cumsum()
plt.figure(figsize=(, ))
df.plot()
plt.title()
plt.legend(loc=)
plt.show()


