Python 数据可视化的 3 个核心步骤

在科研与数据分析中，Python 实现可视化的三个核心步骤为：

确定问题，选择图形
转换数据，应用函数
参数设置，一目了然

常用可视化库

Matplotlib

Python 中最基本的作图库是 Matplotlib，是一个最基础的 Python 可视化库。通常从 Matplotlib 上手 Python 数据可视化，然后开始做纵向与横向拓展。

Seaborn

Seaborn 是一个基于 Matplotlib 的高级可视化效果库，针对的点主要是数据挖掘和机器学习中的变量特征选取。Seaborn 可以用短小的代码去绘制描述更多维度数据的可视化效果图。

其他库

Bokeh：用于做浏览器端交互可视化的库，实现分析师与数据的交互。
Mapbox：处理地理数据引擎更强的可视化工具库。

本文主要使用 Matplotlib 进行案例分析。

第一步：确定问题，选择图形

业务可能很复杂，但是经过拆分，我们要找到我们想通过图形表达什么具体问题。分析思维的训练可以学习《麦肯锡方法》和《金字塔原理》中的方法。

这是关于图表类型选择的总结图。

Python 数据可视化示例

在 Python 中，我们可以总结为以下四种基本视觉元素来展现图形：

点：scatter plot 二维数据，适用于简单二维关系；
线：line plot 二维数据，适用于时间序列；
柱状：bar plot 二维数据，适用于类别统计；
颜色：heatmap 适用于展示第三维度；

数据间存在分布、构成、比较、联系以及变化趋势等关系。对应不一样的关系，选择相应的图形进行展示。

第二步：转换数据，应用函数

数据分析和建模方面的大量编程工作都是用在数据准备的基础上的：加载、清理、转换以及重塑。我们可视化步骤也需要对数据进行整理，转换成我们需要的格式再套用可视化方法完成作图。

常用的数据转换方法

合并：merge, concat, combine_first（类似于数据库中的全外连接）
重塑：reshape；轴向旋转：pivot（类似 Excel 数据透视表）
去重：drop_duplicates
映射：map
填充替换：fillna, replace
重命名轴索引：rename

将分类变量转换'哑变量矩阵'的 get_dummies 函数以及在 df 中对某列数据取限定值等等。

函数则根据第一步中选择好的图形，去找 Python 中对应的函数。

第三步：参数设置，一目了然

原始图形画完后，我们可以根据需求修改颜色（color），线型（linestyle），标记（marker）或者其他图表装饰项标题（Title），轴标签（xlabel, ylabel），轴刻度（set_xticks），还有图例（legend）等，让图形更加直观。

第三步是在第二步的基础上，为了使图形更加清晰明了，做的修饰工作。具体参数都可以在制图函数中找到。

Python 数据可视化的 3 个核心步骤