高斯混合模型(GMM)三大核心内容
高斯混合模型(GMM)包含三大核心组成部分,并非三种独立的聚类算法,而是 GMM 数学实现的三个模块:
- 混合模型概率密度函数:描述整体数据分布,表达为多个高斯分布的加权和。
- 多元高斯分布概率密度函数:计算每个点在每个簇下的概率。
- 期望最大化(EM)算法:用于参数估计的优化算法,分为 E 步和 M 步。
GMM 聚类的简化实际流程:
- 用混合模型概率密度函数描述整体分布
- 用多元高斯分布概率密度函数计算每个点的概率
- 用 EM 算法迭代优化参数
- 最终得到聚类结果
一、混合模型概率密度函数
GMM 假设数据分布为多个高斯分布的加权和:
$$p(x) = \sum_{k=1}^{K} \pi_k \mathcal{N}(x | \mu_k, \Sigma_k)$$
其中 $\mathcal{N}(x | \mu_k, \Sigma_k)$ 是第 $k$ 个高斯分布的概率密度,$\pi_k$ 是第 $k$ 个分量的权重(满足 $\sum_{k=1}^K \pi_k = 1$),$K$ 为簇数。
案例解释 假设有 2 个簇($K=2$),每个簇的均值、协方差和权重分别为 $\mu_2 = (10,2)$, $\Sigma_2 = [1,1]$, $\pi_2=0.5$ 以及 $\mu_1 = (1,2)$, $\Sigma_1 = [1,1]$, $\pi_1=0.5$,则任意点 $x$ 的概率密度就是两个高斯分布的加权和。
二、多元高斯分布概率密度函数
单个高斯分布的概率密度为:
$$\mathcal{N}(x | \mu, \Sigma) = \frac{1}{(2\pi)^{D/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x - \mu)^\top \Sigma^{-1} (x - \mu)\right)$$
其中 $|\Sigma|$ 为协方差矩阵的行列式,$D$ 为数据维度。
案例解释 对于二维点 $x=(x_1, x_2)$,可直接代入公式计算。
三、期望最大化(EM)算法
GMM 的参数用 EM 算法迭代估计:
1. 初始化
随机设定 $\mu_k$、$\Sigma_k$、$\pi_k$。
2. E 步(Expectation)
计算每个点属于每个簇的后验概率(责任度):
$$\gamma_{ik} = \frac{\pi_k \mathcal{N}(x_i | \mu_k, \Sigma_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(x_i | \mu_j, \Sigma_j)}$$
其中 $\gamma_{ik}$ 表示第 $i$ 个样本属于第 $k$ 个簇的概率。
3. M 步(Maximization)
根据 $\gamma_{ik}$ 更新参数:
$$N_k = \sum_{i=1}^N \gamma_{ik}$$ $$\mu_k = \frac{1}{N_k} \sum_{i=1}^N \gamma_{ik} x_i$$ $$\Sigma_k = \frac{1}{N_k} \sum_{i=1}^N \gamma_{ik} (x_i - \mu_k)(x_i - \mu_k)^\top$$ $$\pi_k = \frac{N_k}{N}$$
4. 重复 E 步和 M 步,直到参数收敛
四、完整案例流程
数据
| 点 | x | y |
|---|---|---|
| A | 1 | 2 |
| B | 2 | 1 |
| C | 1 |


