PythonAI算法

Python 数据分析入门：集中趋势与离散程度

Python 数据分析中，集中趋势与离散程度是理解数据分布的基础。文章通过班级成绩案例，演示了均值、中位数、众数等集中趋势指标，以及极差、方差、标准差、四分位数等离散程度指标的计算方法。结合 Pandas 库的 describe() 函数及代码实战，帮助初学者掌握如何识别异常值、评估数据稳定性，并总结常见分析误区与记忆口诀，为后续数据清洗与建模打下基础。

2177283801发布于 2026/3/26更新于 2026/7/2540 浏览

Python 数据分析入门：集中趋势与离散程度

一、先看一个问题：平均分差不多，班级情况就一样吗？

假设现在有两个班级的数学成绩：

A班成绩 = [85, 82, 88, 84, 86, 83, 87, 85, 84, 86]
B班成绩 = [100, 60, 90, 70, 95, 65, 85, 85, 85, 85]

很多人拿到数据后，第一反应就是先看平均分。

但问题是：

平均分差不多，就说明两个班水平一样吗？
哪个班更稳定？
哪个班成绩差距更大？

答案显然不是。

A 班成绩比较集中，整体比较稳定；B 班虽然也有高分，但高低差距很大。

这说明：

分析数据时，不能只看平均值，还要看数据的分散程度。

二、什么是集中趋势？

集中趋势，就是描述一组数据'中心位置'的指标。

你可以简单理解为：

这组数据大多数值，整体上靠近哪里？

常见的集中趋势指标有：

均值（Mean）
中位数（Median）
众数（Mode）
中列数（Midrange）

1）均值（Mean）

均值就是我们平时说的'平均数'。

计算公式

均值 = 所有数据之和 / 数据个数

Pandas 写法

df['A 班'].mean()

特点

优点：最常用，最直观
缺点：对异常值敏感

也就是说，如果一组数据里存在特别大或特别小的值，均值很容易被拉偏。

2）中位数（Median）

中位数就是把数据排序后，位于中间位置的值。

Pandas 写法

df['A 班'].median()

df['A 班'].mode()

中列数 = (最大值 + 最小值) / 2

极差 = max - min

df['A 班'].max() - df['A 班'].min()

df['A 班'].quantile([0.25, 0.5, 0.75])

IQR = Q3 - Q1

df['A 班'].var() # 方差
df['A 班'].std() # 标准差

import pandas as pd
import matplotlib.pyplot as plt

# 1. 构造数据
a_scores = [85, 82, 88, 84, 86, 83, 87, 85, 84, 86]
b_scores = [100, 60, 90, 70, 95, 65, 85, 85, 85, 85]
df = pd.DataFrame({'A 班': a_scores, 'B 班': b_scores})

# 2. 查看原始数据
print("=== 原始数据 ===")
print(df)

# 3. 一键统计描述
print("\n=== describe() 统计结果 ===")
print(df.describe())

# 4. 集中趋势
print("\n=== 集中趋势 ===")
print("A 班均值：", df['A 班'].mean())
print("B 班均值：", df['B 班'].mean())
print("A 班中位数：", df['A 班'].median())
print("B 班中位数：", df['B 班'].median())
print("A 班众数：", df['A 班'].mode().tolist())
print("B 班众数：", df['B 班'].mode().tolist())
print("A 班中列数：", (df['A 班'].max() + df['A 班'].min()) / 2)
print("B 班中列数：", (df['B 班'].max() + df['B 班'].min()) / 2)

# 5. 离散程度
print("\n=== 离散程度 ===")
print("A 班极差：", df['A 班'].max() - df['A 班'].min())
print("B 班极差：", df['B 班'].max() - df['B 班'].min())
print("A 班方差：", df['A 班'].var())
print("B 班方差：", df['B 班'].var())
print("A 班标准差：", df['A 班'].std())
print("B 班标准差：", df['B 班'].std())

# 6. 四分位数和 IQR
a_q1 = df['A 班'].quantile(0.25)
a_q2 = df['A 班'].quantile(0.5)
a_q3 = df['A 班'].quantile(0.75)
a_iqr = a_q3 - a_q1
b_q1 = df['B 班'].quantile(0.25)
b_q2 = df['B 班'].quantile(0.5)
b_q3 = df['B 班'].quantile(0.75)
b_iqr = b_q3 - b_q1

print("\n=== 四分位数与 IQR ===")
print(f"A 班：Q1={a_q1}, Q2={a_q2}, Q3={a_q3}, IQR={a_iqr}")
print(f"B 班：Q1={b_q1}, Q2={b_q2}, Q3={b_q3}, IQR={b_iqr}")

# 7. 盒图可视化
df.boxplot()
plt.title("A 班与 B 班成绩盒图")
plt.ylabel("分数")
plt.show()

=== 原始数据 ===
   A 班  B 班
0    85  100
1    82   60
2    88   90
3    84   70
4    86   95
5    83   65
6    87   85
7    85   85
8    84   85
9    86   85

=== describe() 统计结果 ===
          A 班        B 班
count  10.000000  10.000000
mean   85.000000  82.000000
std     1.825742  12.952906
min     82.000000  60.000000
25%    84.000000  73.750000
50%    85.000000  85.000000
75%    86.000000  88.750000
max     88.000000  100.000000

=== 集中趋势 ===
A 班均值： 85.0
B 班均值： 82.0
A 班中位数： 85.0
B 班中位数： 85.0
A 班众数： [84, 85, 86]
B 班众数： [85]
A 班中列数： 85.0
B 班中列数： 80.0

=== 离散程度 ===
A 班极差： 6
B 班极差： 40
A 班方差： 3.3333333333333335
B 班方差： 167.77777777777777
A 班标准差： 1.8257418583505538
B 班标准差： 12.952906151816965

=== 四分位数与 IQR ===
A 班：Q1=84.0, Q2=85.0, Q3=86.0, IQR=2.0
B 班：Q1=73.75, Q2=85.0, Q3=88.75, IQR=15.0

下界 = Q1 - 1.5 * IQR
上界 = Q3 + 1.5 * IQR

print(df['A 班'].mode())

scores = [72, 75, 78, 80, 85, 85, 86, 90, 92, 95]

scores = [72, 75, 78, 80, 85, 85, 86, 90, 92, 150]

Python 数据分析入门：集中趋势与离散程度

Python 数据分析入门：集中趋势与离散程度

一、先看一个问题：平均分差不多，班级情况就一样吗？

二、什么是集中趋势？

1）均值（Mean）

计算公式

Pandas 写法

特点

2）中位数（Median）

Pandas 写法

Python 数据分析入门：集中趋势与离散程度

Python 数据分析入门：集中趋势与离散程度

一、先看一个问题：平均分差不多，班级情况就一样吗？

二、什么是集中趋势？

1）均值（Mean）

计算公式

Pandas 写法

特点

2）中位数（Median）

Pandas 写法

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

特点

3）众数（Mode）

Pandas 写法

特点

4）中列数（Midrange）

计算公式

特点

三、什么是离散程度？

1）极差（Range）

计算公式

Pandas 写法

特点

2）四分位数（Quartiles）

Pandas 写法

3）四分位数极差（IQR）

特点

4）方差（Variance）与标准差（Standard Deviation）

Pandas 写法

怎么理解？

四、Pandas 实战：完整代码直接运行

五、重点来了：describe() 到底看什么？

一个简单经验

1. 看中心

2. 看波动

3. 看分布

六、结合案例解释结果

A 班

B 班

七、异常值为什么重要？

八、学习这部分内容，最容易踩的坑

坑 1：只看均值，不看标准差

坑 2：看到中位数和均值差不多，就觉得数据没问题

坑 3：不会解读 mode()

坑 4：把方差和标准差混为一谈

九、这部分知识在数据分析里有什么用？

十、给初学者的一个记忆口诀

记忆版总结

十一、课后练习（适合课堂 / 自学）

练习 1：基础题

练习 2：提高题

练习 3：迁移题

十二、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具