Python Z-Score 标准化实战指南：原理、代码与应用 | 极客日志

PythonAI算法

Python Z-Score 标准化实战指南：原理、代码与应用

综述由AI生成Python Z-Score 标准化是数据预处理的关键步骤，用于消除特征量纲差异。其核心原理（均值 0 标准差 1），提供了基于 NumPy 的手动实现和 Scikit-Learn 的推荐实现。通过鸢尾花数据集演示了标准化前后的分布对比（直方图、箱线图），并验证了其对 K-Means 聚类效果的提升。内容涵盖环境配置、避坑指南（训练测试集一致性、零方差处理）及 Pipeline 集成方案，适合数据分析与机器学习初学者参考。

PentesterX发布于 2026/3/27更新于 2026/5/3123 浏览

在数据分析与机器学习中，数据预处理是提升模型效果的关键步骤。Z-Score 标准化（又称标准差标准化）作为最常用的特征缩放方法之一，能将数据转换为均值为 0、标准差 1 的标准正态分布，有效消除特征量纲差异带来的影响。本文将手把手教你用 Python 实现 Z-Score 标准化，结合原理讲解、代码演示、效果验证与实战应用。

一、核心原理与应用场景

1. 核心原理

Z-Score 标准化的核心是将每个特征值减去该特征的均值，再除以该特征的标准差，公式如下：

$z = \frac{x - \mu}{\sigma}$

$x$：原始特征值；
$\mu$：该特征的均值；
$\sigma$：该特征的标准差；
$z$：标准化后的特征值（Z 分数）。

核心效果：标准化后的数据均值为 0、标准差为 1，所有特征处于同一量级，避免因量纲差异导致模型偏向某一特征（如 K-Means、SVM、线性回归等对特征尺度敏感的算法）。

2. 适用场景

模型对特征尺度敏感时（如 K-Means、SVM、逻辑回归、神经网络等）；
特征间量纲差异较大时（如'年龄（0-100）'与'收入（0-100000）'）；
需要保留特征分布趋势（如正态分布）时（区别于 Min-Max 归一化的 [0,1] 缩放）。

3. 不适用场景

数据分布非正态时（可考虑 Min-Max 归一化或其他方法）；
需保留原始数据极值意义时（如电商订单金额的绝对大小）。

二、环境准备与数据集选择

1. 环境准备

工具 / 依赖	版本要求	作用描述
Python	3.7+	核心运行环境
pandas	1.0+	数据处理与加载
numpy	1.18+	数值计算（手动实现标准化）
scikit-learn	0.23+	快捷实现标准化（推荐）
matplotlib/seaborn	3.0+/0.10+	标准化效果可视化
pip	20.0+	Python 包管理工具

2. 依赖安装命令

打开终端执行以下命令，一键安装所需依赖：

pip install pandas numpy scikit-learn matplotlib seaborn

3. 数据集选择

选用 scikit-learn 内置的鸢尾花数据集（Iris），该数据集包含 4 个数值型特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度），特征量纲一致但数值范围不同，适合演示标准化效果：

# 加载数据集
from sklearn.datasets  load_iris
 pandas  pd


iris = load_iris()
X = iris.data 
feature_names = iris.feature_names 
data = pd.DataFrame(X, columns=feature_names)


()
(data.head())
() 
()
(data.describe().())

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 设置中文字体（避免中文乱码）
plt.rcParams['font.sans-serif'] = ['SimHei'] # Windows 系统
# plt.rcParams['font.sans-serif'] = ['Arial Unicode MS'] # Mac 系统
plt.rcParams['axes.unicode_minus'] = False

def zscore_manual(data):
    """
    手动实现 Z-Score 标准化
    :param data: 输入数据（DataFrame 或 numpy 数组）
    :return: 标准化后的数据
    """
    # 计算每个特征的均值和标准差
    mean = np.mean(data, axis=0) # 按列计算均值
    std = np.std(data, axis=0) # 按列计算标准差（ddof=0，总体标准差）
    # 避免标准差为 0 导致除零错误
    std = np.where(std == 0, 1e-8, std)
    # 套用 Z-Score 公式
    data_standardized = (data - mean) / std
    return data_standardized, mean, std

# 执行手动标准化
data_manual_std, mean_manual, std_manual = zscore_manual(data.values)
data_manual_std_df = pd.DataFrame(data_manual_std, columns=feature_names)

# 查看标准化后结果
print("\n手动标准化后数据预览：")
print(data_manual_std_df.head().round(4))
print("\n手动标准化后特征统计信息（均值≈0，标准差≈1）：")
print(data_manual_std_df.describe().round(4))

from sklearn.preprocessing import StandardScaler

def zscore_sklearn(data):
    """
    用 Scikit-Learn 实现 Z-Score 标准化
    :param data: 输入数据（DataFrame 或 numpy 数组）
    :return: 标准化后的数据、StandardScaler 实例（含均值和标准差）
    """
    scaler = StandardScaler() # 初始化标准化器
    data_standardized = scaler.fit_transform(data) # 拟合 + 转换
    return data_standardized, scaler

# 执行 Sklearn 标准化
data_sklearn_std, scaler = zscore_sklearn(data)
data_sklearn_std_df = pd.DataFrame(data_sklearn_std, columns=feature_names)

# 查看标准化后结果
print("\nSklearn 标准化后数据预览：")
print(data_sklearn_std_df.head().round(4))
print("\nSklearn 标准化后特征统计信息（均值≈0，标准差≈1）：")
print(data_sklearn_std_df.describe().round(4))

# 查看 Scikit-Learn 计算的均值和标准差
print("\nScikit-Learn 计算的特征均值：")
print(pd.Series(scaler.mean_, index=feature_names).round(4))
print("\nScikit-Learn 计算的特征标准差：")
print(pd.Series(scaler.scale_, index=feature_names).round(4))

# 验证两种方法结果一致性（误差在 1e-10 以内）
diff = np.abs(data_manual_std - data_sklearn_std).max()
print(f"\n两种方法结果最大误差：{diff:.10f}")
print("结论：两种方法结果一致，Scikit-Learn 更高效且支持后续复用")

# 创建子图（2 行 4 列，对比 4 个特征）
fig, axes = plt.subplots(2, 4, figsize=(16, 8))
fig.suptitle('Z-Score 标准化前后特征分布对比（直方图）', fontsize=16, fontweight='bold')

# 绘制标准化前直方图
for i, feature in enumerate(feature_names):
    sns.histplot(data[feature], ax=axes[0, i], bins=15, color='#2E86AB', alpha=0.7)
    axes[0, i].set_title(f'标准化前：{feature}', fontsize=11)
    axes[0, i].set_xlabel('')
    axes[0, i].grid(alpha=0.3)

# 绘制标准化后直方图
for i, feature in enumerate(feature_names):
    sns.histplot(data_sklearn_std_df[feature], ax=axes[1, i], bins=15, color='#E74C3C', alpha=0.7)
    axes[1, i].set_title(f'标准化后：{feature}', fontsize=11)
    axes[1, i].set_xlabel('')
    axes[1, i].grid(alpha=0.3)

plt.tight_layout()
plt.savefig('Z-Score 标准化前后直方图对比.png', dpi=300)
plt.show()

# 合并标准化前后数据，便于绘制箱线图
data_combined = pd.concat([
    data.assign(类型='标准化前'),
    data_sklearn_std_df.assign(类型='标准化后')
], ignore_index=True)

# 绘制箱线图
plt.figure(figsize=(14, 7))
sns.boxplot(x='变量', y='值', hue='类型',
            data=pd.melt(data_combined, id_vars=['类型'], var_name='变量', value_name='值'),
            palette=['#2E86AB', '#E74C3C'])
plt.title('Z-Score 标准化前后特征箱线图对比（尺度统一）', fontsize=14, fontweight='bold')
plt.xlabel('特征名称', fontsize=12)
plt.ylabel('特征值', fontsize=12)
plt.grid(axis='y', alpha=0.3)
plt.legend(title='数据类型')
plt.tight_layout()
plt.savefig('Z-Score 标准化前后箱线图对比.png', dpi=300)
plt.show()

from sklearn.cluster import KMeans

# 1. 原始数据直接聚类
kmeans_raw = KMeans(n_clusters=3, random_state=42, n_init=10)
labels_raw = kmeans_raw.fit_predict(data)

# 2. 标准化后数据聚类
kmeans_std = KMeans(n_clusters=3, random_state=42, n_init=10)
labels_std = kmeans_std.fit_predict(data_sklearn_std)

# 3. 可视化聚类效果（用 PCA 降维到 2D）
from sklearn.decomposition import PCA

# PCA 降维
pca = PCA(n_components=2)
data_pca_raw = pca.fit_transform(data)
data_pca_std = pca.fit_transform(data_sklearn_std)

# 绘制聚类对比图
fig, axes = plt.subplots(1, 2, figsize=(16, 6))
fig.suptitle('Z-Score 标准化对 K-Means 聚类效果的影响', fontsize=16, fontweight='bold')

# 原始数据聚类结果
sns.scatterplot(x=data_pca_raw[:, 0], y=data_pca_raw[:, 1], hue=labels_raw,
                palette='viridis', s=60, alpha=0.8, ax=axes[0])
axes[0].set_title('原始数据聚类结果（尺度不一致）', fontsize=12)
axes[0].set_xlabel('PCA 特征 1', fontsize=11)
axes[0].set_ylabel('PCA 特征 2', fontsize=11)
axes[0].grid(alpha=0.3)
axes[0].legend(title='聚类编号')

# 标准化后数据聚类结果
sns.scatterplot(x=data_pca_std[:, 0], y=data_pca_std[:, 1], hue=labels_std,
                palette='viridis', s=60, alpha=0.8, ax=axes[1])
axes[1].set_title('标准化后数据聚类结果（尺度统一）', fontsize=12)
axes[1].set_xlabel('PCA 特征 1', fontsize=11)
axes[1].set_ylabel('PCA 特征 2', fontsize=11)
axes[1].grid(alpha=0.3)
axes[1].legend(title='聚类编号')

plt.tight_layout()
plt.savefig('Z-Score 标准化对 K-Means 聚类影响.png', dpi=300)
plt.show()

# 4. 定量评估聚类效果（轮廓系数）
from sklearn.metrics import silhouette_score
silhouette_raw = silhouette_score(data, labels_raw)
silhouette_std = silhouette_score(data_sklearn_std, labels_std)
print(f"\n原始数据聚类轮廓系数：{silhouette_raw:.4f}")
print(f"标准化后数据聚类轮廓系数：{silhouette_std:.4f}")
print("结论：标准化后聚类轮廓系数更高，聚类效果更优")

# 示例：训练集与测试集拆分后的标准化
from sklearn.model_selection import train_test_split

# 拆分训练集（80%）和测试集（20%）
X_train, X_test = train_test_split(data, test_size=0.2, random_state=42)

# 正确做法：用训练集拟合，同时转换训练集和测试集
scaler = StandardScaler()
X_train_std = scaler.fit_transform(X_train) # 训练集：拟合 + 转换
X_test_std = scaler.transform(X_test) # 测试集：仅转换（复用训练集的均值/标准差）

print("训练集标准化后均值：", np.mean(X_train_std, axis=0).round(4))
print("测试集标准化后均值：", np.mean(X_test_std, axis=0).round(4)) # 接近 0 但非严格 0，正常现象

# 检查标准差为 0 的特征
std_zero_features = data.columns[data.std(axis=0) < 1e-8]
if len(std_zero_features) > 0:
    print(f"需删除的无区分度特征：{list(std_zero_features)}")
    data = data.drop(columns=std_zero_features) # 删除特征

# 读取 CSV 文件并标准化
def zscore_csv(input_path, output_path):
    """
    读取 CSV 文件，对数值型特征进行 Z-Score 标准化，保存结果
    :param input_path: 输入 CSV 文件路径
    :param output_path: 输出 CSV 文件路径
    """
    # 读取数据
    data = pd.read_csv(input_path)
    # 筛选数值型特征
    numeric_features = data.select_dtypes(include=[np.number]).columns
    # 标准化数值型特征
    scaler = StandardScaler()
    data[numeric_features] = scaler.fit_transform(data[numeric_features])
    # 保存结果
    data.to_csv(output_path, index=False, encoding='utf-8-sig')
    print(f"标准化完成，结果保存至：{output_path}")
    return scaler

# 调用函数（替换为实际文件路径）
# scaler = zscore_csv('原始数据.csv', '标准化后数据.csv')

# 用 Pipeline 将标准化与模型训练串联（避免数据泄露）
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 准备分类任务数据（鸢尾花数据集标签）
y = iris.target

# 拆分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(data, y, test_size=0.2, random_state=42)

# 构建 Pipeline（标准化 + 逻辑回归）
pipeline = Pipeline([
    ('zscore', StandardScaler()), # 第一步：标准化
    ('classifier', LogisticRegression(random_state=42)) # 第二步：分类模型
])

# 训练模型（自动先对训练集标准化，再训练）
pipeline.fit(X_train, y_train)

# 预测（自动对测试集标准化，再预测）
y_pred = pipeline.predict(X_test)

# 评估效果
accuracy = accuracy_score(y_test, y_pred)
print(f"\nPipeline 端到端流程准确率：{accuracy:.4f}")

Python Z-Score 标准化实战指南：原理、代码与应用

一、核心原理与应用场景

1. 核心原理

2. 适用场景

3. 不适用场景

二、环境准备与数据集选择

1. 环境准备

2. 依赖安装命令

3. 数据集选择

更多推荐文章

相关免费在线工具

三、Python 实现 Z-Score 标准化（两种方法）

方法 1：手动实现（基于公式，理解原理）

方法 2：Scikit-Learn 实现（推荐，高效快捷）

两种方法结果对比

四、标准化效果可视化（直观验证）

1. 直方图对比（分布趋势保留）

2. 箱线图对比（尺度统一）

可视化结果解读

五、实战应用：标准化后的数据用于 K-Means 聚类

六、避坑指南（新手必看）

1. 训练集与测试集标准化一致性

2. 处理标准差为 0 的特征

3. 数据分布对标准化的影响

4. 中文乱码问题

七、进阶扩展（按需优化）

1. 批量处理 CSV 文件数据

2. 结合 Pipeline 实现端到端流程

总结

更多推荐文章

相关免费在线工具

Python Z-Score 标准化实战指南：原理、代码与应用

一、核心原理与应用场景

1. 核心原理

2. 适用场景

3. 不适用场景

二、环境准备与数据集选择

1. 环境准备

2. 依赖安装命令

3. 数据集选择

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、Python 实现 Z-Score 标准化（两种方法）

方法 1：手动实现（基于公式，理解原理）

方法 2：Scikit-Learn 实现（推荐，高效快捷）

两种方法结果对比

四、标准化效果可视化（直观验证）

1. 直方图对比（分布趋势保留）

2. 箱线图对比（尺度统一）

可视化结果解读

五、实战应用：标准化后的数据用于 K-Means 聚类

六、避坑指南（新手必看）

1. 训练集与测试集标准化一致性

2. 处理标准差为 0 的特征

3. 数据分布对标准化的影响

4. 中文乱码问题

七、进阶扩展（按需优化）

1. 批量处理 CSV 文件数据

2. 结合 Pipeline 实现端到端流程

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具