Python 数据分析入门：集中趋势与离散程度

集中趋势与离散程度

在做数据分析时，我们经常会遇到这样的问题：一组数据的'平均水平'到底是多少？为什么两组数据均值差不多，但实际情况完全不同？如何判断数据是否稳定，波动大不大？数据里有没有异常值？这些问题，本质上都离不开两个统计学基础概念：集中趋势和离散程度。

本文用一个非常简单的案例——班级成绩分析，带你从 0 到 1 学会这些统计指标，并用 Pandas 完成实战分析。

一、先看一个问题：平均分差不多，班级情况就一样吗？

假设现在有两个班级的数学成绩：

a_scores = [85, 82, 88, 84, 86, 83, 87, 85, 84, 86]
b_scores = [100, 60, 90, 70, 95, 65, 85, 85, 85, 85]

很多人拿到数据后，第一反应就是先看平均分。但问题是：平均分差不多，就说明两个班水平一样吗？哪个班更稳定？哪个班成绩差距更大？答案显然不是。A 班成绩比较集中，整体比较稳定；B 班虽然也有高分，但高低差距很大。这说明：分析数据时，不能只看平均值，还要看数据的分散程度。

二、什么是集中趋势？

集中趋势，就是描述一组数据'中心位置'的指标。你可以简单理解为：这组数据大多数值，整体上靠近哪里？常见的集中趋势指标有：均值（Mean）、中位数（Median）、众数（Mode）、中列数（Midrange）。

1. 均值（Mean）

均值就是我们平时说的'平均数'。计算公式：所有数据之和 / 数据个数。Pandas 写法：df['A 班'].mean()。特点：最常用，最直观。缺点是对异常值敏感。也就是说，如果一组数据里存在特别大或特别小的值，均值很容易被拉偏。

2. 中位数（Median）

中位数就是把数据排序后，位于中间位置的值。Pandas 写法：df['A 班'].median()。特点：不容易被极端值拉偏。在有异常值时，通常比均值更可靠。如果你分析的数据可能存在异常值，比如成绩异常、消费异常、销售爆发等，中位数往往比均值更能反映真实水平。

3. 众数（Mode）

众数就是一组数据中出现次数最多的值。Pandas 写法：df['A 班'].mode()。特点：适合看'最常见的水平'。可能有多个众数。如果每个值都只出现一次，就可能没有众数。比如一组成绩里，85 分出现次数最多，那么 85 就是众数。

4. 中列数（Midrange）

中列数是最大值和最小值的平均值。计算公式：(最大值 + 最小值)/2。特点：计算简单，但受极端值影响较大。一般了解即可，实际分析中不如均值和中位数常用。

三、什么是离散程度？

如果说集中趋势解决的是：'这组数据大概在什么水平？'那么离散程度解决的就是：'这组数据差距大不大？稳定不稳定？'常见指标有：极差（Range）、四分位数（Quartiles）、四分位数极差（IQR）、方差（Variance）、标准差（Standard Deviation）。

1. 极差（Range）

极差是最大值减去最小值。计算公式：max-min。Pandas 写法：df['A 班'].max()- df['A 班'].min()。特点：计算最简单，但只看最值，容易受极端值影响。如果一组数据里有异常值，极差可能会被放大。

Python 数据分析入门：集中趋势与离散程度

集中趋势与离散程度

一、先看一个问题：平均分差不多，班级情况就一样吗？

二、什么是集中趋势？

1. 均值（Mean）

2. 中位数（Median）

3. 众数（Mode）

4. 中列数（Midrange）

三、什么是离散程度？

1. 极差（Range）

更多推荐文章

相关免费在线工具

2. 四分位数（Quartiles）

3. 四分位数极差（IQR）

4. 方差（Variance）与标准差（Standard Deviation）

四、Pandas 实战：完整代码直接运行

五、重点来了：describe() 到底看什么？

六、结合案例解释结果

七、异常值为什么重要？

八、学习这部分内容，最容易踩的坑

九、这部分知识在数据分析里有什么用？

十、给初学者的一个记忆口诀

十一、课后练习（适合自学）

十二、总结

更多推荐文章

相关免费在线工具

Python 数据分析入门：集中趋势与离散程度

集中趋势与离散程度

一、先看一个问题：平均分差不多，班级情况就一样吗？

二、什么是集中趋势？

1. 均值（Mean）

2. 中位数（Median）

3. 众数（Mode）

4. 中列数（Midrange）

三、什么是离散程度？

1. 极差（Range）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 四分位数（Quartiles）

3. 四分位数极差（IQR）

4. 方差（Variance）与标准差（Standard Deviation）

四、Pandas 实战：完整代码直接运行

五、重点来了：describe() 到底看什么？

六、结合案例解释结果

七、异常值为什么重要？

八、学习这部分内容，最容易踩的坑

九、这部分知识在数据分析里有什么用？

十、给初学者的一个记忆口诀

十一、课后练习（适合自学）

十二、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具