数据可视化笔记4 结构数据的可视化图形

数据可视化笔记4 结构数据的可视化图形

文章目录

基本数据图形

基本数据图形——基本数据图形类型
数据本身
柱形图、条形图
折线图
散点图
基本数据图形变体(Cleverland点图 面积图 气泡图)

基本数据图形——数据本身
数据本身 - 最直观的数据可视化
当只有很少的一两个数据需要分享时,直接展示数据本身是非常棒的沟通方法
只用数字和文字注释清晰表述观点,否则可能会产生误导
拥有数据并不代表一定要用图表展示,强行使用会让数字失去魅力

下图展示了从2001 年到2010 年全美共发生了363,839 起致命的公路交通事故。毫无疑问,这个总数是那么地沉重,它代表着逝去的生命。把所有的注意力放在这个数字上,能让读者深思。

在可视化元素 - 颜色的使用上,以黑色为背景和主要色调,黑色会唤起读者恐怖的联想,以产生更强烈的警示作用。而数字和注释用白色表示,与黑色的对比更强调了数字的含义。大小:用更大的字号显示重要的数字。
字体:无衬线字体,整个文字部分更整洁

在这里插入图片描述


(Ref: 数据之美/ 邱南森著;张伸译. 中国人民大学出版社,2013.12. ISBN: 978-7-300-18612-2.)

基本数据图形——柱形图
对于一维分类数据来说,常使用柱形图进行展示
柱形图使用的可视化元素为位置和高度(大小)

柱形图绘制要点:
柱形图的y轴基线一般要求为0点

在这里插入图片描述


柱形图绘制要点:
如果柱形图各个柱的高度差别不大,可以考虑绘制变化数据

在这里插入图片描述


柱形图绘制要点:
除非有特定的顺序(如时间顺序、等级顺序等),否则一般对柱形按从高到低降序排列

在这里插入图片描述


柱形图绘制要点:
出于美观考虑,柱形图的宽度一般设置为空白间隔的两倍

在这里插入图片描述


柱形图绘制要点:
不必要的颜色填充会分散读者注意力,造成信息传递的混乱

在这里插入图片描述


柱形图绘制要点:
使用3D柱形图会给读者带来误解

在这里插入图片描述


基本数据图形——条形图
条形图同样适用于一维分类数据
条形图使用的可视化元素为位置和长度(大小)
有研究表明,条形图在比较不同类别时的效果要比柱形图差一些
但整体上来讲,条形图和柱形图的差异不大

条形图绘制要点:
删除y轴、网格线等参考线,尽可能使得条形图的画面简洁,这里应用到了格式塔视觉原理中的闭合性

在这里插入图片描述


条形图绘制要点:
条形图适合数据类别较多,并且轴标签文字比较多的情况,能够提高可读性

在这里插入图片描述


基本数据图形——条形图(或柱形图)二维表示
前述条形图(或柱形图)的x轴(y轴)都是频数,而如果将一个数值变量映射在x轴(y轴),则条形图(或柱形图)可以表示二维数据
二维条形图(或柱形图)使用的可视化元素仍旧为位置和长度(高度)

在这里插入图片描述


基本数据图形——分组柱形图
如果我们再增加一个分类变量,即图形中有两个分类变量、一个数值变量,则可绘制分组柱形图,此时分组柱形图可用于展示三维数据
分组柱形图用到的可视化元素,除位置和长度之外,还有颜色

在这里插入图片描述


在指定分组颜色时,如无特别强调,一般可选用饱和度而不是色调进行区分,避免因颜色强烈对比而分散读者的注意力

在这里插入图片描述


基本数据图形——堆积柱形图
堆积柱形图与分组柱形图类似,只是以叠加柱形的形式进行展示,如果各子类之和有意义就可以使用堆积柱形图
主要用于分解整体,并用于局部比较
堆积柱形图使用的可视化元素与分组柱形图一致

在这里插入图片描述


在这里插入图片描述


堆积柱形图 vs 分组柱形图
分组柱形图更多强调分组对比,堆积柱形图更多强调累积对比
从视觉上来说,堆积柱形图除了贴近x轴的子类比较容易辨别之外,其他子类因为受下面一层的影响难以比较,因此在做同一层的分组对比时效果稍差,整体上来讲对位置的区分效果不如分组柱形图

在这里插入图片描述


基本数据图形——百分比堆积柱形图
百分比堆积柱形图是堆积柱形图的变体,多用于时间序列数据,每个柱形的长度均为1,各子类按百分比进行堆叠,用于可视化每一部分的占比。

在这里插入图片描述
在这里插入图片描述

基本数据图形——百分比堆积条形图
百分比堆积条形图是堆积条形图的变体,常用于问卷调查(如满意度调查)的结果展示,每个条形的长度均为1,各子类按百分比进行堆叠,用于可视化每一部分的占比。

在这里插入图片描述


基本数据图形——正负柱形图
正负柱形图,顾名思义,常用于表示数据与某个基线的差值的正负状态
可视化元素增加了色调和方向,此例以红色代表亏损,绿色代表盈利,符合人们对于颜色的常识

在这里插入图片描述


基本数据图形——正负条形图
相似的,正负条形图也用于表示数据与某个基线的差值的正负状态。
可视化元素同样增加了方向和色调,此例以绿色代表电脑设备行业中每股收益大于0的股票,以红色代表小于0的股票
红色表示损失,绿色表示收益,符合人们对于颜色的常识

在这里插入图片描述


基本数据图形——饼图
饼图:主要用于占比分析(结构分析),表示不同的分类占总体的百分比情况

在这里插入图片描述


在这里插入图片描述


基本数据图形——折线图
折线图常用于绘制二维连续型数据,尤其是以时间为横轴,数值变量为纵轴的数据,折线图在时间序列数据中的应用非常广泛
折线图的目标是展示数据的趋势
折线图使用的可视化元素是位置和方向

在这里插入图片描述


在这里插入图片描述


折线图绘制要点:
与柱形图不同,折线图y轴的基线不必要是0,因为折线图主要用来展示趋势。

在这里插入图片描述


折线图绘制要点:
折线图中,y轴的刻度选取非常重要,很大程度上能够影响可视化的效果。
一个经验法则是,折线所覆盖的y轴取值范围约为整个y轴取值范围的三分之二

在这里插入图片描述


基本数据图形——分组折线图
分组折线图除了x轴(一般是时间)、y轴(数值变量)之外,增加了一个分类变量,因此分组折线图可用来可视化三维数据
分组折线图的可视化元素增加了颜色(可以是色调也可以是饱和度)

在这里插入图片描述


分组折线图一般不添加节点,原因在于如果添加节点,会使得画面混乱,影响对趋势的判断,而且节点本身不代表任何含义。

在这里插入图片描述


分组折线图图例标签一般直接加在折线旁边,如果单独增加图例,读者还需要交叉对比,影响信息传递效率。

在这里插入图片描述


当分组折线图组数过多时,会影响信息的读取,因此需要对数据进行筛选。
一个经验法则是,分组折线图组数一般不超过4。

在这里插入图片描述


基本数据图形——散点图
散点图常用来展示两个数值变量之间的相关关系,在数据科学中的应用十分广泛
散点图使用的最重要可视化元素是位置,通过点的位置所反映的趋势判断两个变量之间的相关关系

在这里插入图片描述


散点图寻找相关关系

在这里插入图片描述


散点图用于识别离群值

在这里插入图片描述


针对大型数据集绘制散点图时,图中各个数据点会彼此遮盖,从而会妨碍我们准确的评估数据的位置信息,这就是数据点的图形重叠问题,解决方案有:
-透明化
-数据分箱
-随机扰动
-箱线图

透明化

在这里插入图片描述


数据分箱 - 正方形

在这里插入图片描述


数据分箱 - 六边形

在这里插入图片描述


有时,散点图可绘制一个坐标轴为离散数据的情况,此时也可能存在数据重叠,而这种重叠可通过随机扰动来解决
随机扰动的原理是:在某个方向上位置并非是重要的可视化元素,因此可将散点在某个方向上展开(或称扰动),以缓解数据重叠问题

在这里插入图片描述


但对于坐标轴分别是连续数据和离散数据的情况,更多时候采用箱线图进行表示

在这里插入图片描述


基本数据图形——分组散点图
分组散点图常用于识别群组,此时可展示三维数据,包括两个数值变量和一个分类变量
使用的可视化元素增加了颜色中的色调

在这里插入图片描述

使用的可视化元素增加了形状或形状与色调的结合

在这里插入图片描述


分组散点图也可以展示三个数值变量
可视化元素增加了颜色的饱和度色阶
将最想要研究的数值变量放在坐标轴上,次要数值变量放在颜色变量上

在这里插入图片描述

基本数据图形——散点图案例
通过辅助的图形元素来使数据更易于理解,比如在散点图中增加趋势线。

在这里插入图片描述


基本数据图形——变体 - Cleveland点图
Cleveland点图是条形图的一个变体,尤其在比较的类别较多,且取值接近的时候适用,可简化图形画面,提高信息传递效率,和条形图一样适用于Top排行榜数据
与条形图不同的是,Cleveland点图所应用的可视化元素是位置而不是长度

在这里插入图片描述


基本数据图形——变体 - 面积图
面积图是折线图的一个变体,因此也适用于时间序列数据
面积图的可视化元素增加了颜色,以颜色作为填充能够帮助读者对波动情况的识别

在这里插入图片描述
在这里插入图片描述

基本数据图形——变体 - 堆积面积图
堆积面积图既可视为是折线图的变体,也可视为是堆积柱形图的变体
将不同的面积堆叠起来,在总高度表示每个时间的总数的同时,以每个分组的高度表示每个子类的取值情况
堆积面积图可认为是按时间相连的一系列堆积柱形图
堆积面积图可用于展示横轴为时间、纵轴为数值变量、面积为分类变量的三维数据
堆积面积图使用的可视化元素有位置、方向、高度、颜色的色调、饱和度等

在这里插入图片描述


基本数据图形——变体 – 气泡图
气泡图是散点图的一个变体,以散点的面积大小来表示数值变量的大小,配合位置和颜色可用来展示三维甚至是四维数据
可视化元素增加了面积大小

在这里插入图片描述


气泡图展示四维数据,每个维度均为数值变量
视觉对于位置的判断要远远优于对面积和饱和度的判断,因此将最重要的变量放到坐标轴上

在这里插入图片描述


特别需要注意的是,气泡以面积大小作区分,而不是半径的大小
如下右图,第一个圆的半径是第二个圆的半径的2倍,这使得第一个圆的面积是第二个圆面积的四倍,而不是两倍

在这里插入图片描述

描述分布图形

描述分布图形——描述分布图形类型
直方图
核密度图
等高线图
箱线图
图形组合
(直方图+核密度图、小提琴图:箱线图+核密度图、等高线图+散点图、箱线图+散点图)

描述分布图形——描述数据分布
对于连续型数据来说,描述数据分布是可视化的重要工作之一,掌握数据分布,就意味着对连续型数据建立了初步的认识
数据科学或统计学的许多模型或算法都建立在正态分布假设上,因此对于数据分布的认识直接决定了是否需要对数据进行更多的处理,或采取更稳健的算法或模型
从数据科学角度讲,描述数据分布是探索性数据分析的重要组成部分
从统计学角度讲,描述数据分布是描述性统计分析的核心之一

描述分布图形类型——直方图
直方图是描述数据分布的最基本图形,应用了数据预处理中的数据离散化思想,即将x轴的连续型数据进行离散化处理,分成很多组,取值落到每组中的频数用柱形高度表示
描述一维数值型数据
可视化元素是大小(高度)和位置

直方图反映数据分布趋势

在这里插入图片描述

直方图绘制要点:
绘制直方图最重要的参数即是组数(或组距)

在这里插入图片描述


直方图绘制要点:
直方图的纵坐标有两种取值,一是count,二是density,二者反映的趋势是相同的

在这里插入图片描述

直方图绘制要点:
可在图上增加均值和中位数直线,根据均值和中位数的大小关系可判断数据分布的左右偏态

在这里插入图片描述

直方图vs 柱形图
直方图的x轴是连续数据,因此各柱形之间是没有间隙的;而柱形图的x轴是离散数据,因此各柱形之间一定存在间隙
直方图关注各个柱形的高度所反映的数据分布,而柱形图关注某一个柱形相较其他柱形的高度

在这里插入图片描述

描述分布图形类型——分组直方图
分组直方图增加了一个分类变量,可用于描述二维数据
以可视化元素颜色中的色调表示不同分组

在这里插入图片描述


分组直方图还可通过分面技术实现。分面指的是将画布根据某个分类变量切分成多个子图,每个子图表示一个子类的情况
对于分组直方图,按照行布局,子图以同一个横轴进行比较

在这里插入图片描述


更多子类的分组直方图,同时在每个子图中添加了对应子类的中位数

在这里插入图片描述


描述分布图形类型——核密度图
核密度图是基于样本数据对总体分布做出的一个非参数估计
用于展示一维连续型数据
可视化元素是线(形状)和位置,有时还借助面积增强可视化效果

在这里插入图片描述


核密度图反映数据分布趋势

在这里插入图片描述


核密度图绘制要点:
可在核密度图上增加均值和中位数,以帮助判断数据分布偏态

在这里插入图片描述

描述分布图形类型——分组核密度图
分组核密度图增加了一个分类变量,可描述二维数据
以填充面积的色调不同表示不同分组

在这里插入图片描述


当分组核密度图子类较多时,可绘制岭图(Ridge plot)
分面技术

在这里插入图片描述


描述分布图形类型——等高线图
当绘制二维连续型数据的核密度估计时,采用的可视化图形为等高线图
可视化元素为线(形状)和位置

在这里插入图片描述

还可使用饱和度色阶来强化视觉效果,此时绘制的图形实际上也可以认为是热图

在这里插入图片描述

描述分布图形类型——箱线图
箱线图是一种非常强大的统计图形,用于坐标轴分别为连续(Y)和离散型数据(X)的情形
箱线图使用的可视化元素为位置、高度(大小)

在这里插入图片描述


箱线图表达数据分布趋势和离群值
箱线图由箱和须和点三部分组成
箱的范围从下四分位数到上四分位数,也就是四分位距IQR,箱中间的线表示中位数
须是从箱边缘出发延伸至1.5倍四分位距内最远的点
如果有超出这个范围的数据点,则被视为离群值

在这里插入图片描述


箱线图绘制要点:
不必要使用不同颜色进行同一分类变量不同子类的区分,会造成视觉混乱

在这里插入图片描述


槽口箱线图
槽口用来帮助查看中位数的差异,如果各箱槽口互不重合,说明中位数有差异

在这里插入图片描述


可在箱线图上添加均值,通过中位数和均值的比较强化对数据分布偏态的判断

在这里插入图片描述


描述分布图形类型——分组箱线图
分组箱线图再增加一个分类变量,此时可用于描述两个分类变量和一个数值变量的三维数据
可视化元素增加了饱和度或色调以区分不同分组

在这里插入图片描述


描述分布图形类型——图形组合
直方图+核密度图
是最常见的描述数据分布的图形组合

在这里插入图片描述


分面直方图+核密度图
也可用来表示增加分类变量的二维数据

在这里插入图片描述


小提琴图
小提琴图是一种用来对一个分类变量多组数据的分布进行比较的方法,也采用了核密度估计方法,但绘图时对核密度曲线取了镜像使形状对称
使用普通的密度曲线对多组数据进行可视化时,图中各曲线会彼此干扰,因而不适宜用来对多组数据的分布进行比较
而小提琴图是并排排列的,用它对多组数据的分布进行比较会更容易一些

在这里插入图片描述


小提琴图:箱线图+核密度图
与箱线图类似,小提琴图如果使用不同颜色进行同一分类变量不同子类的区分,会造成视觉混乱

在这里插入图片描述


小提琴图:箱线图+核密度图
小提琴图内部还可再嵌套一个箱线图,图中白色的点为中位数

在这里插入图片描述


散点图+等高线图
可在散点图上叠加等高线图(或热图),更好的描述二维连续型数据的分布情况

在这里插入图片描述

箱线图+散点图
在箱线图上叠加散点图,并且对散点图增加随机扰动,以更好地展示分组数据的分布

在这里插入图片描述

多维数据图形

多维数据图形——多维数据图形分类
多维数据:指在信息可视化环境中的那些具有超过3个属性的信息
Keim和Kriegel将多维可视化技术按照显示方式分为四类:
-几何投影技术
适用于高维、小规模数据的可视化技术
示例:散点图矩阵、平行坐标图、雷达图、马赛克图、平行集合图
-基于图标技术
将每个观测映射到图标(icon)上进行展示的可视化技术
示例:切尔诺夫脸谱图、星图(star graph)、南丁格尔图
-面向像素技术
将每个数据点的取值映射到像素的可视化技术
示例:热图,相关系数图
-分层和图技术
以分层结构或大型图结构展示的可视化技术
示例:树图

多维数据图形——几何投影技术
散点图矩阵
散点图矩阵(Scatterplot matrix)就是将多幅散点图组成矩阵,探索多维数据两两配对之间的关系
主要展示多维数值型数据,可展示的维度受空间限制
在探索性数据分析中特别有用
可视化元素以位置为主

在这里插入图片描述


平行坐标图
平行坐标图(Parallel coordinates)1885年由Maurice d’ Ocagne发明,可用来描述群组或各变量之间的关系
基本思想是将每个特征维度对应于一个垂直坐标轴,各坐标轴间相互平行等距,在轴上标记每个观测值,并用折线连接,不同类别可用不同颜色区分
主要展示多维数值型数据,观测个数较少时效果较好,可展示的数据维度受展示空间限制
可视化元素包括位置、方向和颜色等

在这里插入图片描述


雷达图
雷达图也称蜘蛛网图,原本是财务分析报表的一种,现在广泛使用在多维定量指标评价中
雷达图在二维平面极坐标系下绘制,用于展示多维数值型数据
可展示的数据维度不宜过多(5-12维),否则会造成视觉混乱
可视化元素包括位置、大小(长度)和颜色等

在这里插入图片描述


马赛克图
马赛克图(Masaic plot)用于多维分类数据的可视化探索,图形效果就像马赛克瓷砖拼接一样,因此得名
展示多维分类或等级数据,每个方格面积大小表示频数统计,展示时对于观测个数无要求
可视化元素为位置、大小(长度、面积)、颜色

在这里插入图片描述


平行集合图
平行集合图(Parallel Sets)外观上与平行坐标图类似,但区别在于平行集合图用于多维或等级分类数据的可视化探索
平行区域的宽度表示频数,对观测个数无要求
可视化元素为位置、大小(宽度)、颜色等

在这里插入图片描述


桑基图
桑基图(Alluvial plot)因1898年Matthew Henry Phineas Riall Sankey绘制的“蒸汽机的能源效率图”而得名
与平行集合图类似,用于多维分类或等级数据的可视化探索
始末端的分支宽度总和相等,保持能量的平衡
可视化元素为位置、大小(面积)、颜色等

在这里插入图片描述


多维数据图形——基于图标技术
脸谱图
Chernoff于1973年发表的论文提出了简化的面部形状可视化图形,通过将数据映射到面部大小和曲线,眼睛位置,鼻子长度,嘴巴位置等来表示数据集中的多维变量,该方法据说可以显示多达18个数据维度,允许用户直观地聚类数据
展示多维数值型数据,观测个数受展示空间限制
可视化元素是形状、大小等

在这里插入图片描述


在这里插入图片描述


星图
星图(Star graph)从本质上讲就是前文中所介绍雷达图,但星图在绘制时并不在一个极坐标系下叠加,而是针对每个观测绘制一张图形,从图形的整体形状上探索观测之间的差别,而并不关心某个观测在某个变量上具体的取值大小
展示多维数值型数据,观测个数受展示空间限制
可视化元素是形状、大小和颜色等

在这里插入图片描述
在这里插入图片描述

南丁格尔图
南丁格尔图也称极坐标图
在极坐标系下展示多维数值型数据,观测个数受展示空间限制
可视化元素是形状、大小(面积)和颜色等

在这里插入图片描述


多维数据图形——面向像素技术
热图
热图将每个数值型数据的观测值转化为像素方格,并以色调或饱和度对像素方格填色
热图的大小一般与数据表格大小相同,一般来说颜色深代表高数值,颜色浅代表低数值,但根据场景不同可能发生变化,根据像素方格的颜色不同,很容易就能找到相对较高或较低的数值
展示多维数值型数据,而且一般对特征和观测个数没有要求
可视化元素为颜色和位置等

在这里插入图片描述


相关系数图
相关系数图将相关系数编码为视觉元素矩阵进行展示
展示多维数值型数据(一般使用皮尔逊相关系数)
运用的可视化元素包括:
色调 - 表示相关关系的方向,蓝色为正相关,红色为负相关
饱和度 - 饱和度越高相关系数绝对值越大,表示变量之间的相关性越强
面积(大小)- 圆形面积的大小表示相关系数绝对值的大小
面积和饱和度难以精确比较相关系数的具体取值

在这里插入图片描述


多维数据图形——分层和图技术
树图
树图(Treemap)有两种绘制形式,一是上下颠倒的树形态,在诸如决策树、层次聚类等机器学习算法有非常广泛的应用;二是嵌套长方形,直接展示数据的树(层次)结构
嵌套长方形树图与马赛克图长得类似,但马赛克图适用于多维分类或等级数据,树图用于多维数值型数据
可视化元素是大小(面积)和颜色等

在这里插入图片描述


小结

在这里插入图片描述