医疗 AI 场景下的模型融合与集成策略深度解析

模型融合示意图

第 15 章模型融合与集成策略

在机器学习竞赛和实际落地中，模型融合（Model Ensemble）往往是提升预测性能的关键手段。简单来说，就是组合多个不同的基模型，让它们综合各自的优势，抵消单个模型的偏差和方差，从而得到比任何单一模型更稳定、更准确的预测结果。

特别是在医疗 AI 领域，面对复杂的多模态数据，单一模型很难全面捕捉所有信息。融合多个异质模型能显著提升诊断的鲁棒性和准确性。本章我们从集成学习的基本思想出发，系统介绍常见的融合方法，并通过实战案例展示如何构建融合模型来提升疾病预测性能。

15.1 集成学习的基本思想

集成学习的核心逻辑很朴素："三个臭皮匠，顶个诸葛亮"。通过结合多个学习器来完成学习任务，通常能获得比单一学习器更优越的泛化性能。根据个体学习器的生成方式，主要分为两大类：

Bagging：并行训练多个独立的基学习器，然后通过平均或投票进行结合。典型代表是随机森林。它主要用来降低方差。
Boosting：串行训练基学习器，每个新学习器关注前一个学习器的错误，从而降低偏差。典型代表是 AdaBoost、XGBoost。

模型融合通常指将多个已经训练好的、可能异质的基模型（如逻辑回归、SVM、XGBoost 等）进行组合。融合可以在不同层面进行：

数据层面：通过不同的数据采样或变换训练多个模型。
模型层面：使用不同的算法、不同的超参数训练模型。
特征层面：使用不同的特征子集训练模型。

15.2 常见的模型融合方法

15.2.1 简单投票法（Voting）

对于分类任务，最简单的融合方法是投票法。每个基模型对样本进行预测，然后统计所有模型的预测结果，选择得票最多的类别作为最终输出。

硬投票（Hard Voting）：直接统计类别票数，多数胜出。适用于模型性能相近且独立的情况。
软投票（Soft Voting）：对每个类别的预测概率进行平均（或加权平均），选择平均概率最高的类别。软投票通常优于硬投票，因为它考虑了模型的不确定性。

需要注意的是，投票法要求基模型之间相关性较低。如果所有模型都倾向于犯相同的错误，投票也无法纠正。

15.2.2 简单平均法（Averaging）

对于回归任务，通常采用平均法。计算所有基模型预测值的算术平均或加权平均作为最终输出。加权平均需要根据验证集性能确定权重，通常性能好的模型赋予更高权重。

15.2.3 Bagging 集成（Bootstrap Aggregating）

Bagging 通过对训练数据进行有放回采样，生成多个不同的训练子集，分别训练基模型，然后平均或投票。随机森林就是 Bagging 与决策树的结合。它能有效降低方差，防止过拟合。

15.2.4 Boosting 集成

Boosting 通过串行训练，不断调整样本权重，使后续模型关注前序模型预测错误的样本。常见的 Boosting 算法包括 AdaBoost、Gradient Boosting、XGBoost、LightGBM、CatBoost 等。Boosting 主要降低偏差，但也容易过拟合，需配合正则化。

15.2.5 Stacking（堆叠泛化）

Stacking 是一种层次化的融合方法。它使用一个次级学习器（也称为元学习器）来组合多个基模型的预测结果。具体步骤如下：

基模型训练：将训练集划分为 K 折（例如 5 折），对每个基模型进行 K 折交叉训练。对于每一折，用其余 K-1 折数据训练基模型，然后预测该折的样本（生成折叠外预测）。最终，每个基模型对训练集生成一组预测值（称为元特征），对测试集生成 K 个预测值，取平均作为测试集的元特征。
元特征构建：将所有基模型对训练集的预测值作为新的特征，连同真实标签，构成元训练集。

医疗 AI 场景下的模型融合与集成策略深度解析

第 15 章模型融合与集成策略

15.1 集成学习的基本思想

15.2 常见的模型融合方法

15.2.1 简单投票法（Voting）

15.2.2 简单平均法（Averaging）

15.2.3 Bagging 集成（Bootstrap Aggregating）

15.2.4 Boosting 集成

15.2.5 Stacking（堆叠泛化）

更多推荐文章

相关免费在线工具

15.2.6 Blending

15.2.7 加权融合

15.3 医疗场景中的应用

15.3.1 多模态数据融合

15.3.2 异质算法融合

15.3.3 多时间点模型融合

15.3.4 多中心数据融合

15.4 案例实战：基于 Stacking 的败血症预测融合模型

15.4.1 数据集回顾

15.4.2 基模型选择

15.4.3 实现 Stacking

方法一：使用 `StackingClassifier`

方法二：手动实现 Stacking（便于理解）

更多推荐文章

相关免费在线工具

医疗 AI 场景下的模型融合与集成策略深度解析

第 15 章 模型融合与集成策略

15.1 集成学习的基本思想

15.2 常见的模型融合方法

15.2.1 简单投票法（Voting）

15.2.2 简单平均法（Averaging）

15.2.3 Bagging 集成（Bootstrap Aggregating）

15.2.4 Boosting 集成

15.2.5 Stacking（堆叠泛化）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

15.2.6 Blending

15.2.7 加权融合

15.3 医疗场景中的应用

15.3.1 多模态数据融合

15.3.2 异质算法融合

15.3.3 多时间点模型融合

15.3.4 多中心数据融合

15.4 案例实战：基于 Stacking 的败血症预测融合模型

15.4.1 数据集回顾

15.4.2 基模型选择

15.4.3 实现 Stacking

方法一：使用 StackingClassifier

方法二：手动实现 Stacking（便于理解）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

第 15 章模型融合与集成策略

方法一：使用 `StackingClassifier`