高斯混合模型（GMM）原理、流程与 Python 实现详解

高斯混合模型（GMM）三大核心内容

高斯混合模型（GMM）包含三大核心组成部分，并非三种独立的聚类算法，而是 GMM 数学实现的三个模块：

混合模型概率密度函数：描述整体数据分布，表达为多个高斯分布的加权和。
多元高斯分布概率密度函数：计算每个点在每个簇下的概率。
期望最大化（EM）算法：用于参数估计的优化算法，分为 E 步和 M 步。

GMM 聚类的简化实际流程：

用混合模型概率密度函数描述整体分布
用多元高斯分布概率密度函数计算每个点的概率
用 EM 算法迭代优化参数
最终得到聚类结果

一、混合模型概率密度函数

GMM 假设数据分布为多个高斯分布的加权和：

$$p(x) = \sum_{k=1}^{K} \pi_k \mathcal{N}(x | \mu_k, \Sigma_k)$$

其中 $\mathcal{N}(x | \mu_k, \Sigma_k)$ 是第 $k$ 个高斯分布的概率密度，$\pi_k$ 是第 $k$ 个分量的权重（满足 $\sum_{k=1}^K \pi_k = 1$），$K$ 为簇数。

案例解释 假设有 2 个簇（$K=2$），每个簇的均值、协方差和权重分别为 $\mu_2 = (10,2)$, $\Sigma_2 = [1,1]$, $\pi_2=0.5$ 以及 $\mu_1 = (1,2)$, $\Sigma_1 = [1,1]$, $\pi_1=0.5$，则任意点 $x$ 的概率密度就是两个高斯分布的加权和。

二、多元高斯分布概率密度函数

单个高斯分布的概率密度为：

$$\mathcal{N}(x | \mu, \Sigma) = \frac{1}{(2\pi)^{D/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x - \mu)^\top \Sigma^{-1} (x - \mu)\right)$$

其中 $|\Sigma|$ 为协方差矩阵的行列式，$D$ 为数据维度。

案例解释 对于二维点 $x=(x_1, x_2)$，可直接代入公式计算。

三、期望最大化（EM）算法

GMM 的参数用 EM 算法迭代估计：

1. 初始化

随机设定 $\mu_k$、$\Sigma_k$、$\pi_k$。

2. E 步（Expectation）

计算每个点属于每个簇的后验概率（责任度）：

$$\gamma_{ik} = \frac{\pi_k \mathcal{N}(x_i | \mu_k, \Sigma_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(x_i | \mu_j, \Sigma_j)}$$

其中 $\gamma_{ik}$ 表示第 $i$ 个样本属于第 $k$ 个簇的概率。

3. M 步（Maximization）

根据 $\gamma_{ik}$ 更新参数：

$$N_k = \sum_{i=1}^N \gamma_{ik}$$ $$\mu_k = \frac{1}{N_k} \sum_{i=1}^N \gamma_{ik} x_i$$ $$\Sigma_k = \frac{1}{N_k} \sum_{i=1}^N \gamma_{ik} (x_i - \mu_k)(x_i - \mu_k)^\top$$ $$\pi_k = \frac{N_k}{N}$$

4. 重复 E 步和 M 步，直到参数收敛

四、完整案例流程

数据

点	x	y
A	1	2
B	2	1
C	1

高斯混合模型（GMM）原理、流程与 Python 实现详解

高斯混合模型（GMM）三大核心内容

一、混合模型概率密度函数

二、多元高斯分布概率密度函数

三、期望最大化（EM）算法

1. 初始化

2. E 步（Expectation）

3. M 步（Maximization）

4. 重复 E 步和 M 步，直到参数收敛

四、完整案例流程

数据

更多推荐文章

相关免费在线工具

步骤

五、Python 代码实现

六、模型选择指标（BIC、AIC）确定簇数

1. AIC（Akaike 信息准则）

2. BIC（贝叶斯信息准则）

3. 实际用法

七、GMM 的优缺点

优点

缺点

八、总结

更多推荐文章

相关免费在线工具

高斯混合模型（GMM）原理、流程与 Python 实现详解

高斯混合模型（GMM）三大核心内容

一、混合模型概率密度函数

二、多元高斯分布概率密度函数

三、期望最大化（EM）算法

1. 初始化

2. E 步（Expectation）

3. M 步（Maximization）

4. 重复 E 步和 M 步，直到参数收敛

四、完整案例流程

数据

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

步骤

五、Python 代码实现

六、模型选择指标（BIC、AIC）确定簇数

1. AIC（Akaike 信息准则）

2. BIC（贝叶斯信息准则）

3. 实际用法

七、GMM 的优缺点

优点

缺点

八、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具