Min-Max 归一化实例解析
Min-Max 归一化(也称为离差标准化)是数据预处理中常用的线性归一化方法,其核心作用是将原始数据映射到指定的固定区间(最常用区间为 [0,1],也可根据需求调整为 [1,5]、[-1,1] 等),消除不同特征间的量纲和尺度差异。
核心公式
以目标区间 [0,1] 为例,公式如下:
$$X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}$$
其中各参数含义:
- X:原始数据样本的值
- X_min:该特征维度下所有原始数据的最小值
- X_max:该特征维度下所有原始数据的最大值
- X_norm:归一化后的数据值
若需映射到其他区间 [a,b],公式可调整为:
$$X_{norm} = a + \frac{(X - X_{min}) \times (b - a)}{X_{max} - X_{min}}$$
实际案例演算(映射到 [0,1] 区间)
案例背景:学生成绩标准化
某班级 5 名学生的数学成绩(满分 150 分)和语文成绩(满分 120 分)原始数据如下表,由于两科满分不同,尺度存在差异,需通过 Min-Max 归一化消除差异,便于后续综合评价。
| 学生编号 | 数学成绩(原始) | 语文成绩(原始) |
|---|---|---|
| 1 | 120 | 96 |
| 2 | 90 | 60 |
| 3 | 150 | 120 |
| 4 | 60 | 48 |
| 5 | 105 | 84 |
步骤 1:计算各特征维度的最值
分别针对'数学成绩'和'语文成绩'两个维度,计算各自的最小值(X_min)和最大值(X_max):
-
数学成绩维度:原始数据为 [120, 90, 150, 60, 105]
- X_min = 60(学生 4 的成绩)
- X_max = 150(学生 3 的成绩)
- 范围 = 150 - 60 = 90
-
语文成绩维度:原始数据为 [96, 60, 120, 48, 84]
- X_min = 48(学生 4 的成绩)
- X_max = 120(学生 3 的成绩)
- 范围 = 120 - 48 = 72
步骤 2:逐样本逐维度计算归一化值
以学生 1 为例,演示计算过程:
- 数学成绩归一化:X=120,代入公式得 (120-60)/90 = 60/90 ≈ 0.67
- 语文成绩归一化:X=96,代入公式得 (96-48)/72 = 48/72 ≈ 0.67
按此方法计算所有学生的归一化成绩,结果如下表:
| 学生编号 | 数学成绩(归一化) | 语文成绩(归一化) | 综合成绩(两科均值) |
|---|---|---|---|
| 1 | ≈0.67 | ≈0.67 | 0.67 |

