06 Python 数据分析入门:集中趋势与离散程度

Python 数据分析入门:一文搞懂集中趋势与离散程度(附 Pandas 实战)

适合人群:Python 初学者 / 数据分析入门 / 统计学基础学习者 / 教学案例分享

在做数据分析时,我们经常会遇到这样的问题:

  • 一组数据的“平均水平”到底是多少?
  • 为什么两组数据均值差不多,但实际情况完全不同?
  • 如何判断数据是否稳定,波动大不大?
  • 数据里有没有异常值?

这些问题,本质上都离不开两个统计学基础概念:

  • 集中趋势
  • 离散程度

本文用一个非常简单的案例——班级成绩分析,带你从 0 到 1 学会这些统计指标,并用 Pandas 完成实战分析。


一、先看一个问题:平均分差不多,班级情况就一样吗?

假设现在有两个班级的数学成绩:

A班成绩 =[85,82,88,84,86,83,87,85,84,86] B班成绩 =[100,60,90,70,95,65,85,85,85,85]

很多人拿到数据后,第一反应就是先看平均分。

但问题是:

  • 平均分差不多,就说明两个班水平一样吗?
  • 哪个班更稳定?
  • 哪个班成绩差距更大?

答案显然不是。

A班成绩比较集中,整体比较稳定;B班虽然也有高分,但高低差距很大。

这说明:

分析数据时,不能只看平均值,还要看数据的分散程度。

二、什么是集中趋势?

集中趋势,就是描述一组数据“中心位置”的指标。

你可以简单理解为:

这组数据大多数值,整体上靠近哪里?

常见的集中趋势指标有:

  • 均值(Mean)
  • 中位数(Median)
  • 众数(Mode)
  • 中列数(Midrange)

1)均值(Mean)

均值就是我们平时说的“平均数”。

计算公式
均值 = 所有数据之和 / 数据个数 
Pandas 写法
df['A班'].mean()
特点
  • 优点:最常用,最直观
  • 缺点:对异常值敏感

也就是说,如果一组数据里存在特别大或特别小的值,均值很容易被拉偏。


2)中位数(Median)

中位数就是把数据排序后,位于中间位置的值。

Pandas 写法
df['A班'].median()
特点
  • 不容易被极端值拉偏
  • 在有异常值时,通常比均值更可靠

如果你分析的数据可能存在异常值,比如成绩异常、消费异常、销售爆发等,中位数往往比均值更能反映真实水平。


3)众数(Mode)

众数就是一组数据中出现次数最多的值。

Pandas 写法
df['A班'].mode()
特点
  • 适合看“最常见的水平”
  • 可能有多个众数
  • 如果每个值都只出现一次,就可能没有众数

比如一组成绩里,85 分出现次数最多,那么 85 就是众数。


4)中列数(Midrange)

中列数是最大值和最小值的平均值。

计算公式
中列数 =(最大值 + 最小值)/2
特点
  • 计算简单
  • 但受极端值影响较大
  • 一般了解即可,实际分析中不如均值和中位数常用

三、什么是离散程度?

如果说集中趋势解决的是:

“这组数据大概在什么水平?”

那么离散程度解决的就是:

“这组数据差距大不大?稳定不稳定?”

常见指标有:

  • 极差(Range)
  • 四分位数(Quartiles)
  • 四分位数极差(IQR)
  • 方差(Variance)
  • 标准差(Standard Deviation)

1)极差(Range)

极差是最大值减去最小值。

计算公式
极差 =max-min
Pandas 写法
df['A班'].max()- df['A班'].min()
特点
  • 计算最简单
  • 但只看最值,容易受极端值影响

如果一组数据里有异常值,极差可能会被放大。


2)四分位数(Quartiles)

四分位数是把数据从小到大排序后,分成四份得到的几个关键位置:

  • Q1:25%位置
  • Q2:50%位置,也就是中位数
  • Q3:75%位置
Pandas 写法
df['A班'].quantile([0.25,0.5,0.75])

四分位数非常适合用来观察数据分布情况。


3)四分位数极差(IQR)

IQR 的公式是:

IQR = Q3 - Q1 

它表示中间 50% 数据的离散程度。

特点
  • 比极差更稳定
  • 常用于异常值判断
  • 对极端值不那么敏感

所以在实际分析中,IQR 是一个非常实用的指标。


4)方差(Variance)与标准差(Standard Deviation)

这两个指标是分析“波动大小”的经典工具。

Pandas 写法
df['A班'].var()# 方差 df['A班'].std()# 标准差
怎么理解?

你可以简单理解为:

  • 标准差越小:数据越集中,越稳定
  • 标准差越大:数据越分散,差异越明显

在实际工作中,标准差通常比方差更常用,因为它更容易解释。


四、Pandas 实战:完整代码直接运行

下面直接上完整代码,复制即可运行。

import pandas as pd import matplotlib.pyplot as plt # 1. 构造数据 a_scores =[85,82,88,84,86,83,87,85,84,86] b_scores =[100,60,90,70,95,65,85,85,85,85] df = pd.DataFrame({'A班': a_scores,'B班': b_scores })# 2. 查看原始数据print("=== 原始数据 ===")print(df)# 3. 一键统计描述print("\n=== describe() 统计结果 ===")print(df.describe())# 4. 集中趋势print("\n=== 集中趋势 ===")print("A班均值:", df['A班'].mean())print("B班均值:", df['B班'].mean())print("A班中位数:", df['A班'].median())print("B班中位数:", df['B班'].median())print("A班众数:", df['A班'].mode().tolist())print("B班众数:", df['B班'].mode().tolist())print("A班中列数:",(df['A班'].max()+ df['A班'].min())/2)print("B班中列数:",(df['B班'].max()+ df['B班'].min())/2)# 5. 离散程度print("\n=== 离散程度 ===")print("A班极差:", df['A班'].max()- df['A班'].min())print("B班极差:", df['B班'].max()- df['B班'].min())print("A班方差:", df['A班'].var())print("B班方差:", df['B班'].var())print("A班标准差:", df['A班'].std())print("B班标准差:", df['B班'].std())# 6. 四分位数和IQR a_q1 = df['A班'].quantile(0.25) a_q2 = df['A班'].quantile(0.5) a_q3 = df['A班'].quantile(0.75) a_iqr = a_q3 - a_q1 b_q1 = df['B班'].quantile(0.25) b_q2 = df['B班'].quantile(0.5) b_q3 = df['B班'].quantile(0.75) b_iqr = b_q3 - b_q1 print("\n=== 四分位数与 IQR ===")print(f"A班: Q1={a_q1}, Q2={a_q2}, Q3={a_q3}, IQR={a_iqr}")print(f"B班: Q1={b_q1}, Q2={b_q2}, Q3={b_q3}, IQR={b_iqr}")# 7. 盒图可视化 df.boxplot() plt.title("A班与B班成绩盒图") plt.ylabel("分数") plt.show()

输出

=== 原始数据 === A班 B班 0 85 100 1 82 60 2 88 90 3 84 70 4 86 95 5 83 65 6 87 85 7 85 85 8 84 85 9 86 85 === describe() 统计结果 === A班 B班 count 10.000000 10.000000 mean 85.000000 82.000000 std 1.825742 12.952906 min 82.000000 60.000000 25% 84.000000 73.750000 50% 85.000000 85.000000 75% 86.000000 88.750000 max 88.000000 100.000000 === 集中趋势 === A班均值: 85.0 B班均值: 82.0 A班中位数: 85.0 B班中位数: 85.0 A班众数: [84, 85, 86] B班众数: [85] A班中列数: 85.0 B班中列数: 80.0 === 离散程度 === A班极差: 6 B班极差: 40 A班方差: 3.3333333333333335 B班方差: 167.77777777777777 A班标准差: 1.8257418583505538 B班标准差: 12.952906151816965 === 四分位数与 IQR === A班: Q1=84.0, Q2=85.0, Q3=86.0, IQR=2.0 B班: Q1=73.75, Q2=85.0, Q3=88.75, IQR=15.0 
在这里插入图片描述

五、重点来了:describe() 到底看什么?

很多初学者第一次用 describe(),会觉得输出一堆数字,不知道重点看哪里。

其实重点就盯住这几个字段:

  • mean:均值
  • 50%:中位数
  • std:标准差
  • min / max:最小值和最大值
  • 25% / 75%:Q1 和 Q3

一个简单经验

如果你刚开始学数据分析,看到 describe(),优先看这三类信息:

1. 看中心
  • mean
  • 50%
2. 看波动
  • std
  • max - min
3. 看分布
  • 25%
  • 75%

这几个值,已经足够完成一轮基础分析。


六、结合案例解释结果

运行完代码后,你通常会发现:

  • A班成绩集中在 80 多分附近
  • B班虽然也有多个 85,但整体差距更大
  • B班的极差和标准差通常会更大

这说明:

A班

  • 整体稳定
  • 学生成绩差异不大
  • 班级表现比较均衡

B班

  • 两极分化更明显
  • 有高分,也有低分
  • 平均值不能完全说明问题

这也是为什么在实际分析中,不能只看平均分


七、异常值为什么重要?

在真实数据中,经常会遇到一些“看起来不太正常”的值,比如:

  • 成绩里突然出现一个特别高或特别低的数
  • 销售数据里某一天异常爆发
  • 用户消费数据里出现极端金额

这些值可能是:

  • 真实异常
  • 录入错误
  • 特殊情况

因此,分析数据时一定要关注异常值,因为它会直接影响均值、极差、标准差等指标。

对于异常值,常见的一种判断方式是利用四分位数极差 IQR:

下界 = Q1 -1.5* IQR 上界 = Q3 +1.5* IQR 

超出这个范围的数据,通常可以视为异常值。


八、学习这部分内容,最容易踩的坑

坑1:只看均值,不看标准差

这是初学者最常见的问题。

均值只能说明平均水平,不能说明稳定性。


坑2:看到中位数和均值差不多,就觉得数据没问题

不一定。

有时候数据虽然中位数和均值接近,但极差、IQR、标准差可能已经说明波动很大。


坑3:不会解读 mode()

mode() 返回的是一个序列,不一定只有一个值。

比如:

print(df['A班'].mode())

可能返回多个众数,这是正常现象。


坑4:把方差和标准差混为一谈

记住一句话:

  • 方差是“平方后的离散程度”
  • 标准差是方差开根号后得到的,更容易解释

实际分析中,标准差更常用


九、这部分知识在数据分析里有什么用?

别看它只是“统计描述”,其实它是后面很多内容的基础。

比如:

  • 数据清洗
  • 异常值检测
  • 数据可视化
  • 聚类分析
  • 建模前的数据理解

也就是说:

如果你连均值、中位数、标准差都看不懂,后面做更复杂的数据分析会非常吃力。

十、给初学者的一个记忆口诀

这部分我建议直接记成下面这 4 句话:

记忆版总结

  1. 均值看平均,但怕异常值。
  2. 中位数更稳,适合有极端值的数据。
  3. 标准差越大,波动越大。
  4. 分析数据时,中心和离散要一起看。

十一、课后练习(适合课堂 / 自学)

练习 1:基础题

已知一组成绩数据:

scores =[72,75,78,80,85,85,86,90,92,95]

请完成:

  1. 计算均值、中位数、众数
  2. 计算极差、方差、标准差
  3. 计算 Q1、Q2、Q3 和 IQR
  4. 用一句话描述这组数据的特点

练习 2:提高题

加入一个异常值:

scores =[72,75,78,80,85,85,86,90,92,150]

请思考:

  1. 均值变化大吗?
  2. 中位数变化大吗?
  3. 哪个指标更适合描述这组数据?
  4. 能否认为 150 是异常值?

练习 3:迁移题

请把“成绩数据”换成你熟悉的业务数据,例如:

  • 某店铺近 10 天销售额
  • 某班学生 10 次上机时长
  • 某宿舍 10 天用电量

要求:

  • 使用 Pandas 完成统计描述
  • 输出 describe()
  • 分析集中趋势和离散程度
  • 尝试绘制盒图

十二、总结

这篇文章我们解决了一个非常基础但非常重要的问题:

一组数据到底该怎么快速读懂?

答案就是两步:

  • 看集中趋势:判断整体水平
  • 看离散程度:判断波动大小

本文重点讲了这些常用指标:

  • 均值
  • 中位数
  • 众数
  • 中列数
  • 极差
  • 四分位数
  • IQR
  • 方差
  • 标准差

这些内容是数据分析中的基础能力,也是后续数据清洗、异常值识别和可视化分析的起点。


十三、写在最后

如果这篇文章对你有帮助,欢迎点赞、收藏、评论支持一下。
如果你也在学习 Python 数据分析,建议把 describe()mean()median()mode()std() 这几个方法先练熟,它们真的非常高频。

你在学习数据分析时,最开始卡在哪个统计指标上?
欢迎在评论区交流。


Read more

【Python 初级函数详解】—— 参数沙漠与作用域丛林的求生指南

【Python 初级函数详解】—— 参数沙漠与作用域丛林的求生指南

欢迎来到ZyyOvO的博客✨,一个关于探索技术的角落,记录学习的点滴📖,分享实用的技巧🛠️,偶尔还有一些奇思妙想💡 本文由ZyyOvO原创✍️,感谢支持❤️!请尊重原创📩!欢迎评论区留言交流🌟 个人主页 👉 ZyyOvO 本文专栏➡️Python 算法研究所 快速复习👉【Python 速览 】 —— 课前甜点,打开你的味蕾 课前导入 我们知道数学中的函数,我们输入一个数,在通过对应的映射关系得到另一个数,如下图给出了两个简单的数学函数: 什么是函数 那在Python编程中函数是什么呢? 在编程中,函数(Function) 是一段被命名、可重复使用的代码块,用于执行特定任务,它通过接收输入(参数),处理逻辑,并返回输出(结果),将复杂的程序拆分为模块化的组件,让代码更简洁、高效且易于维护。 函数的优势 在 Python 中,函数是编程的核心工具之一,它通过将代码逻辑封装为可重复使用的模块,显著提升了代码的可维护性、复用性和可读性。 避免代码重复:DRY

By Ne0inhk
Python——Windows11环境安装配置Python 3.12.5

Python——Windows11环境安装配置Python 3.12.5

目录 * 一、下载Python * 二、下载Python步骤 * 三、安装Python * 四、验证Python * 4.1、验证Python环境 * 4.2、验证pip * 4.3、更新pip * 4.4、pip镜像源切换(永久切换,全局生效,清华镜像源和阿里云镜像源二选一即可) * 4.4.1、清华镜像源 * 4.4.2、阿里云镜像源 * 4.5、安装依赖包(检验是否成功) * 五、配置环境变量(可选) 一、下载Python 或者百度网盘下载 链接: https://pan.baidu.com/s/1Rc8g1mZrfDtOexev2JK7NA?pwd=

By Ne0inhk
Python从0到100(九十七):VisionTransformer(ViT)在时间序列行为识别中的应用

Python从0到100(九十七):VisionTransformer(ViT)在时间序列行为识别中的应用

前言:零基础学Python:Python从0到100最新最全教程。 想做这件事情很久了,这次我更新了自己所写过的所有博客,汇集成了Python从0到100,共一百节课,帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、 计算机视觉、机器学习、神经网络以及人工智能相关知识,成为学业升学和工作就业的先行者! 【优惠信息】 • 新专栏订阅前500名享9.9元优惠 • 订阅量破500后价格上涨至19.9元 • 订阅本专栏可免费加入粉丝福利群,享受: - 所有问题解答 -专属福利领取 欢迎大家订阅专栏:零基础学Python:Python从0到100最新最全教程! 本文目录: * 一、VisionTransformer的基础原理 * 1. 传统卷积的瓶颈与挑战 * 2. VisionTransformer的核心机制 * 3. VisionTransformer的技术优势 * 二、VisionTransformer架构设计 * 1. 架构总览 * 2. 核心模块 * 2.1 Patch嵌入层 * 2

By Ne0inhk
rsl_rl——人形运控部署框架汇总:从经典RL框架rsl_rl到宇树开源的unitree_rl_gym(含unitree_sdk2_python)

rsl_rl——人形运控部署框架汇总:从经典RL框架rsl_rl到宇树开源的unitree_rl_gym(含unitree_sdk2_python)

前言 现在人形运控基本都避不开RL了,而对于人形运控本身的部署则是一个完整的工程,而作为经典RL框架rsl_rl,则在本博客里的多篇文章反复被提及,比如 1. 比如Humanplus一文中提到 对于humanplus的整个代码框架,总计包含以下五个部分 Humanoid Shadowing Transformer (HST),此所谓low-level,属于机器人小脑 这个部分的代码是基于仿真的强化学习实现,使用了legged_gym和rsl_rl .. ———— 顺带,该文『详见此文《斯坦福人形HumanPlus的代码解读与复现关键:从HST(含rsl_rl)到HIT、HardWare》』,曾分析过rsl_rl中对PPO的实现 既然本文专门解读rsl_rl,故可以把那部分中对rsl_rl的介绍 也综合到本文之中了 2. 比如NaVILA一文中提到 第二部分 NaVILA/legged-loco中isaaclab_exts/模块的解析:侧重H1人形机器人配置 整体代码库主要分为以下几个部分: isaa

By Ne0inhk