Python 数据分析入门：集中趋势与离散程度 | 极客日志

PythonAI算法

Python 数据分析入门：集中趋势与离散程度

集中趋势与离散程度是数据分析的核心基础。通过均值、中位数、众数等指标可判断数据整体水平，而极差、标准差、IQR 等则反映数据波动与稳定性。实战中需结合 Pandas 的 describe() 方法综合查看，避免仅依赖单一指标导致误判。异常值检测与正确解读统计量对于数据清洗及后续建模至关重要，初学者应掌握中心与离散指标的综合分析方法。

板砖工程师发布于 2026/3/30更新于 2026/7/1927 浏览

Python 数据分析入门：集中趋势与离散程度

做数据分析时，常遇到几个核心问题：一组数据的'平均水平'到底是多少？为什么两组数据均值差不多，实际情况却完全不同？如何判断数据是否稳定？有没有异常值？

这些问题都离不开两个统计学基础概念：集中趋势和离散程度。咱们用一个简单的班级成绩案例，从 0 到 1 学会这些指标，并用 Pandas 完成实战。

先看一个问题：平均分差不多，班级情况就一样吗？

假设有两个班级的数学成绩：

a_scores = [85, 82, 88, 84, 86, 83, 87, 85, 84, 86]
b_scores = [100, 60, 90, 70, 95, 65, 85, 85, 85, 85]

很多人第一反应是看平均分。但问题来了：

平均分差不多，水平就一样吗？
哪个班更稳定？
哪个班差距更大？

答案显然不是。A 班成绩比较集中，整体稳定；B 班虽然也有高分，但高低差距很大。

这说明分析数据时，不能只看平均值，还要看数据的分散程度。

什么是集中趋势？

集中趋势描述的是数据的'中心位置'。简单理解就是：这组数据大多数值，整体上靠近哪里？

均值（Mean）

平时说的'平均数'。

公式：所有数据之和 / 数据个数
Pandas 写法：df['列名'].mean()
特点：最常用、直观，但对异常值敏感。如果数据里有特别大或特别小的值，均值容易被拉偏。

中位数（Median）

排序后位于中间位置的值。

Pandas 写法：df['列名'].median()
特点：不容易被极端值拉偏。如果有异常值（如成绩异常、消费爆发），中位数通常比均值更可靠。

众数（Mode）

出现次数最多的值。

Pandas 写法：df['列名'].mode()
特点：适合看'最常见的水平'。可能有多个众数，也可能没有（如果每个值只出现一次）。

中列数（Midrange）

最大值和最小值的平均值。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import pandas as pd
import matplotlib.pyplot as plt

# 1. 构造数据
a_scores = [85, 82, 88, 84, 86, 83, 87, 85, 84, 86]
b_scores = [100, 60, 90, 70, 95, 65, 85, 85, 85, 85]
df = pd.DataFrame({'A 班': a_scores, 'B 班': b_scores})

# 2. 查看原始数据
print("=== 原始数据 ===")
print(df)

# 3. 一键统计描述
print("\n=== describe() 统计结果 ===")
print(df.describe())

# 4. 集中趋势
print("\n=== 集中趋势 ===")
print("A 班均值：", df['A 班'].mean())
print("B 班均值：", df['B 班'].mean())
print("A 班中位数：", df['A 班'].median())
print("B 班中位数：", df['B 班'].median())
print("A 班众数：", df['A 班'].mode().tolist())
print("B 班众数：", df['B 班'].mode().tolist())
print("A 班中列数：", (df['A 班'].max() + df['A 班'].min()) / 2)
print("B 班中列数：", (df['B 班'].max() + df['B 班'].min()) / 2)

# 5. 离散程度
print("\n=== 离散程度 ===")
print("A 班极差：", df['A 班'].max() - df['A 班'].min())
print("B 班极差：", df['B 班'].max() - df['B 班'].min())
print("A 班方差：", df['A 班'].var())
print("B 班方差：", df['B 班'].var())
print("A 班标准差：", df['A 班'].std())
print("B 班标准差：", df['B 班'].std())

# 6. 四分位数和 IQR
a_q1 = df['A 班'].quantile(0.25)
a_q2 = df['A 班'].quantile(0.5)
a_q3 = df['A 班'].quantile(0.75)
a_iqr = a_q3 - a_q1
b_q1 = df['B 班'].quantile(0.25)
b_q2 = df['B 班'].quantile(0.5)
b_q3 = df['B 班'].quantile(0.75)
b_iqr = b_q3 - b_q1

print("\n=== 四分位数与 IQR ===")
print(f"A 班：Q1={a_q1}, Q2={a_q2}, Q3={a_q3}, IQR={a_iqr}")
print(f"B 班：Q1={b_q1}, Q2={b_q2}, Q3={b_q3}, IQR={b_iqr}")

# 7. 盒图可视化
df.boxplot()
plt.title("A 班与 B 班成绩盒图")
plt.ylabel("分数")
plt.show()

下界 = Q1 - 1.5 * IQR
上界 = Q3 + 1.5 * IQR

Python 数据分析入门：集中趋势与离散程度

Python 数据分析入门：集中趋势与离散程度

先看一个问题：平均分差不多，班级情况就一样吗？

什么是集中趋势？

均值（Mean）

中位数（Median）

众数（Mode）

中列数（Midrange）

更多推荐文章

相关免费在线工具

什么是离散程度？

极差（Range）

四分位数（Quartiles）

四分位数极差（IQR）

方差（Variance）与标准差（Standard Deviation）

Pandas 实战：完整代码直接运行

重点来了：describe() 到底看什么？

结合案例解释结果

异常值为什么重要？

学习这部分内容，最容易踩的坑

这部分知识在数据分析里有什么用？

给初学者的一个记忆口诀

课后练习

总结

更多推荐文章

相关免费在线工具

Python 数据分析入门：集中趋势与离散程度

Python 数据分析入门：集中趋势与离散程度

先看一个问题：平均分差不多，班级情况就一样吗？

什么是集中趋势？

均值（Mean）

中位数（Median）

众数（Mode）

中列数（Midrange）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

什么是离散程度？

极差（Range）

四分位数（Quartiles）

四分位数极差（IQR）

方差（Variance）与标准差（Standard Deviation）

Pandas 实战：完整代码直接运行

重点来了：describe() 到底看什么？

结合案例解释结果

异常值为什么重要？

学习这部分内容，最容易踩的坑

这部分知识在数据分析里有什么用？

给初学者的一个记忆口诀

课后练习

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具