Python 聚类实战：OPTICS 算法原理与可视化全流程

介绍 OPTICS 聚类算法的 Python 实现流程。通过生成环形与球形混合数据模拟非线性分布场景，演示了核心概念如可达距离与核心距离的计算。文章包含环境配置、数据生成、模型训练、可达距离曲线分析及聚类结果可视化。对比了 OPTICS 与 K-Means、DBSCAN 的效果差异，并提供了参数调优指南及常见问题解决方案，适用于用户行为分析、异常检测等复杂密度结构场景。

利刃发布于 2026/3/24更新于 2026/7/2414K 浏览

一、引言：聚类算法中的'密度层次专家'

在无监督学习领域，聚类算法是挖掘数据内在结构的核心工具。传统聚类方法中，K-Means 依赖'球形簇'假设、DBSCAN 对参数敏感，而 OPTICS（Ordering Points To Identify the Clustering Structure，基于密度的层次聚类算法）凭借'任意形状簇识别''密度分布可视化'的特性，成为非线性数据聚类的优选方案。

本文以环形与球形混合数据为实验对象，从环境配置、数据生成、算法实现、结果解析、问题解决五个维度，完整复现 OPTICS 算法的实战流程。

二、环境准备与依赖库安装

2.1 核心库说明

本次实验需用到以下 Python 库：

numpy：数据处理；
matplotlib：可视化；
sklearn：数据生成、OPTICS 算法实现。

在终端执行以下代码安装依赖（若已安装可跳过）：

!pip install numpy matplotlib scikit-learn

2.2 库导入与中文配置

导入库并解决 Matplotlib 中文显示问题（避免后续可视化出现乱码）：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_circles, make_blobs
from sklearn.cluster import OPTICS

# 配置 Matplotlib 中文显示
plt.rcParams["font.sans-serif"] = ["SimHei"] # Windows 系统
# plt.rcParams["font.sans-serif"] = ["Arial Unicode MS"] # Mac 系统
plt.rcParams["axes.unicode_minus"] = False # 解决负号显示异常

三、实验数据生成：模拟非线性分布场景

为体现 OPTICS 处理'非球形簇'的优势，我们生成'环形 + 球形混合数据'（模拟真实场景中不规则分布的数据集）。

3.1 数据生成代码

# 1. 生成内外环形数据（非线性分布，模拟复杂结构）
X1, _ = make_circles(
    n_samples=1000,      # 样本数
    factor=0.2,          # 内外环半径比例
    noise=0.05,          # 噪声比例
    random_state=5       # 随机种子（保证结果可复现）
)

# 2. 生成 2 个独立球形簇（模拟局部密集结构）
X2, _ = make_blobs(
    n_samples=,
    n_features=,
    centers=[[, ]],
    cluster_std=[],
    random_state=
)
X3, _ = make_blobs(
    n_samples=,
    n_features=,
    centers=[[-, -]],
    cluster_std=[],
    random_state=
)


X = np.concatenate((X1, X2, X3))


plt.figure(figsize=(, ))
plt.scatter(X[:, ], X[:, ], marker=, c=)
plt.title()
plt.xlabel()
plt.ylabel()
plt.show()

一、引言：聚类算法中的'密度层次专家'

本文以环形与球形混合数据为实验对象，从环境配置、数据生成、算法实现、结果解析、问题解决五个维度，完整复现 OPTICS 算法的实战流程。

二、环境准备与依赖库安装

2.1 核心库说明

本次实验需用到以下 Python 库：

numpy：数据处理；
matplotlib：可视化；
sklearn：数据生成、OPTICS 算法实现。

在终端执行以下代码安装依赖（若已安装可跳过）：

!pip install numpy matplotlib scikit-learn

2.2 库导入与中文配置

导入库并解决 Matplotlib 中文显示问题（避免后续可视化出现乱码）：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_circles, make_blobs
from sklearn.cluster import OPTICS

# 配置 Matplotlib 中文显示
plt.rcParams["font.sans-serif"] = ["SimHei"] # Windows 系统
# plt.rcParams["font.sans-serif"] = ["Arial Unicode MS"] # Mac 系统
plt.rcParams["axes.unicode_minus"] = False # 解决负号显示异常

三、实验数据生成：模拟非线性分布场景

为体现 OPTICS 处理'非球形簇'的优势，我们生成'环形 + 球形混合数据'（模拟真实场景中不规则分布的数据集）。

3.1 数据生成代码

# 1. 生成内外环形数据（非线性分布，模拟复杂结构）
X1, _ = make_circles(
    n_samples=1000,      # 样本数
    factor=0.2,          # 内外环半径比例
    noise=0.05,          # 噪声比例
    random_state=5       # 随机种子（保证结果可复现）
)

# 2. 生成 2 个独立球形簇（模拟局部密集结构）
X2, _ = make_blobs(
    n_samples=,
    n_features=,
    centers=[[, ]],
    cluster_std=[],
    random_state=
)
X3, _ = make_blobs(
    n_samples=,
    n_features=,
    centers=[[-, -]],
    cluster_std=[],
    random_state=
)


X = np.concatenate((X1, X2, X3))


plt.figure(figsize=(, ))
plt.scatter(X[:, ], X[:, ], marker=, c=)
plt.title()
plt.xlabel()
plt.ylabel()
plt.show()

算法	优势	劣势	本次数据效果
OPTICS	识别任意形状簇、展示密度分布	参数较多、训练时间较长	优秀（区分环形）
K-Means	速度快、实现简单	仅支持球形簇、依赖 K 值	差（无法区分环形）
DBSCAN	抗噪声、无需指定簇数	对 eps 和 min_samples 敏感	较好（需精细调参）

# 环境配置 import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import make_circles, make_blobs from sklearn.cluster import OPTICS # 中文显示配置 plt.rcParams["font.sans-serif"] = ["SimHei"] plt.rcParams["axes.unicode_minus"] = False # 1. 生成数据 X1, _ = make_circles(n_samples=1000, factor=0.2, noise=0.05, random_state=5) X2, _ = make_blobs(n_samples=200, n_features=2, centers=[[1,2]], cluster_std=[0.1], random_state=5) X3, _ = make_blobs(n_samples=300, n_features=2, centers=[[-0.5,-1.2]], cluster_std=[0.1], random_state=5) X = np.concatenate((X1, X2, X3)) # 2. 原始数据可视化 plt.figure(figsize=(8,6)) plt.scatter(X[:,0], X[:,1], marker="*", c="gray") plt.title("原始数据分布：环形 + 球形混合结构") plt.xlabel("特征 1") plt.ylabel("特征 2") plt.show() # 3. OPTICS 模型训练 model = OPTICS(min_samples=15, xi=0.05, min_cluster_size=0.05, cluster_method="xi") model.fit(X) # 4. 可达距离曲线可视化 ordering = model.ordering_ reachability = model.reachability_[ordering] plt.figure(figsize=(10,4)) plt.plot(reachability, marker=".", linestyle="none", color="#1f77b4") plt.xlabel("样本排序（密度从高到低）") plt.ylabel("可达距离") plt.title("OPTICS 可达距离曲线") plt.grid(alpha=0.3) plt.show() # 5. 聚类结果可视化 labels = model.labels_[ordering] plt.figure(figsize=(8,6)) plt.scatter(X[:,0], X[:,1], c=labels, cmap="tab10", s=50, alpha=0.8) plt.title("OPTICS 聚类结果：环形 + 球形簇区分") plt.xlabel("特征 1") plt.ylabel("特征 2") plt.colorbar(label="簇标签") plt.show() # 6. 参数调优 model_tuned = OPTICS(min_samples=10, xi=0.05, min_cluster_size=0.05, cluster_method="xi") model_tuned.fit(X) labels_tuned = model_tuned.labels_ plt.figure(figsize=(8,6)) plt.scatter(X[:,0], X[:,1], c=labels_tuned, cmap="tab10", s=50, alpha=0.8) plt.title("OPTICS 调优后结果（min_samples=10）") plt.xlabel("特征 1") plt.ylabel("特征 2") plt.colorbar(label="簇标签") plt.show()

Python 聚类实战：OPTICS 算法原理与可视化全流程

一、引言：聚类算法中的'密度层次专家'

二、环境准备与依赖库安装

2.1 核心库说明

2.2 库导入与中文配置

三、实验数据生成：模拟非线性分布场景

3.1 数据生成代码

Python 聚类实战：OPTICS 算法原理与可视化全流程

一、引言：聚类算法中的'密度层次专家'

二、环境准备与依赖库安装

2.1 核心库说明

2.2 库导入与中文配置

三、实验数据生成：模拟非线性分布场景

3.1 数据生成代码

更多推荐文章

相关免费在线工具

四、OPTICS 算法核心原理与实现

4.1 OPTICS 核心概念

4.2 OPTICS 模型训练代码

4.3 可达距离曲线可视化

4.4 聚类结果可视化

五、参数调优：优化 OPTICS 聚类效果

5.1 调优后模型训练代码

5.2 调优后聚类结果

5.3 OPTICS 参数选择指南

六、实战问题解决：Jupyter 可视化报错处理

6.1 解决方法

七、OPTICS 与其他聚类算法的对比实验

7.1 对比实验代码

7.2 对比结论

八、总结与应用场景

8.1 实验总结

8.2 OPTICS 应用场景

九、完整代码附录

更多推荐文章

相关免费在线工具

Python 聚类实战：OPTICS 算法原理与可视化全流程

一、引言：聚类算法中的'密度层次专家'

二、环境准备与依赖库安装

2.1 核心库说明

2.2 库导入与中文配置

三、实验数据生成：模拟非线性分布场景

3.1 数据生成代码

Python 聚类实战：OPTICS 算法原理与可视化全流程

一、引言：聚类算法中的'密度层次专家'

二、环境准备与依赖库安装

2.1 核心库说明

2.2 库导入与中文配置

三、实验数据生成：模拟非线性分布场景

3.1 数据生成代码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、OPTICS 算法核心原理与实现

4.1 OPTICS 核心概念

4.2 OPTICS 模型训练代码

4.3 可达距离曲线可视化

4.4 聚类结果可视化

五、参数调优：优化 OPTICS 聚类效果

5.1 调优后模型训练代码

5.2 调优后聚类结果

5.3 OPTICS 参数选择指南

六、实战问题解决：Jupyter 可视化报错处理

6.1 解决方法

七、OPTICS 与其他聚类算法的对比实验

7.1 对比实验代码

7.2 对比结论

八、总结与应用场景

8.1 实验总结

8.2 OPTICS 应用场景

九、完整代码附录

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具