跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

多实例学习 (MIL) 综述:问题特性与应用

综述由AI生成综述了多实例学习(MIL)的核心概念,指出其数据以“包”为单位,仅知包标签而不知实例标签。文章归纳了影响算法性能的四大关键特性:预测级别、包组成、数据分布和标签歧义性。现有方法分为实例空间、包空间和嵌入空间三类。实验表明,不同任务目标(包分类 vs 实例分类)及数据特性(如见证率、噪声)对算法选择至关重要,没有通用最优解。未来需关注回归、聚类及深度学习表征等方向。

GitMaster发布于 2026/4/5更新于 2026/5/2332 浏览

一、用一个例子直观理解 MIL

考虑一个药物研发场景:我们的目标是判断一种分子是否能对某种疾病产生疗效(即'有效'或'无效')。

  • 包:一个分子。
  • 实例:该分子在现实世界中可能呈现的多种三维空间构象。一个分子可以有成千上万种不同的构象。
  • 标签:我们通过实验只能知道整个分子(即所有构象的集合)是否有效,而无法精确测量每一个单一构象是否有效。

根据生物学知识,我们做出一个关键假设(标准 MIL 假设):

  • 如果一个分子是'无效'的(负包),那么它的所有构象都是无效的。
  • 如果一个分子是'有效'的(正包),那么它至少存在一个或多个构象是有效的(这些构象被称为'见证实例')。

我们的任务就是通过大量已知标签的分子(包)来学习一个模型,它既能预测新分子的活性(包分类),又能识别出哪些构象最可能是有效的(实例分类)。这就是典型的 MIL 问题。

二、研究背景

1. 多示例学习(MIL)

MIL 是一种弱监督学习范式。与传统监督学习(每个样本都有标签)或半监督学习(部分样本有标签)不同,MIL 的监督信号只在'包'的级别提供。

形式化定义: 设有一个包 $X = {x_1, x_2, ..., x_N}$,其中每个实例 $x_i$ 是一个特征向量。包的标签 $Y$ 与实例的隐藏标签 $y_i$ 通过某种机制相关联。

2. 核心假设

MIL 算法通常基于某种假设来建立包标签与实例标签之间的联系。

  • 标准 MIL 假设:这是最经典的假设。
    • 负包中所有实例均为负类。
    • 正包中至少有一个实例为正类(见证实例,称为"witness")。
    • 此时,包分类器 $g(X)$ 可以定义为: $$ g(X) = \begin{cases} 1, & \text{if } \exists x \in X : f(x) = 1; \ 0, & \text{otherwise}, \end{cases} $$ 其中 $f(x)$ 是一个假设的实例级分类器,$g$ 是包分类器,只要包中任一示例被 $f$ 判定为正,则包为正。
    • 例子:在"患癌"CT 图像中,只要找到一个肿瘤区域,整幅图像就判定为癌症。算法不需要识别所有肿瘤区域。
  • 集体假设:该假设认为,包的标签不是由单个实例决定的,而是由包内所有实例通过某种组合方式(如分布、交互、累积)共同决定的。
    • 基于数量的集体假设:需要至少 $\theta$ 个正实例才能判定一个包为正。 $$ g(X) = \begin{cases} 1, & \text{if } \theta \leq \sum_{x \in X} f(x); \ 0, & \text{otherwise}. \end{cases} $$ 例如,判断'交通拥堵'需要图像中有足够多的汽车。
    • 基于多概念的集体假设:包的标签取决于多个概念的共同出现。 $$ g(X) = \begin{cases} 1, & \text{if } \forall c \in C^+ : \theta_c \leq \sum_{x \in X} f_c(x); \ 0, & \text{otherwise}, \end{cases} $$ 其中 $C^+$ 是正类所需的概念集合(正包需包含所有预设概念集合 $C^+$),$f_c(x)$ 判断实例 $x$ 是否属于概念 $c$。 例如,判断一张图片是否为'海滩',需要同时出现'沙'和'水'两种概念的实例。
    • 基于分布的集体假设:将每个包视为实例空间上的一个概率分布 $P(x|X)$,包分类器则是学习一个从分布到标签的映射。
3. 为什么 MIL 重要且具有挑战性?
  • 重要性:
    1. 自然拟合现实问题:如药物活性预测、图像分类(图像=包,图像区域=实例)、文档分类(文档=包,段落=实例)等,数据天然以集合形式存在。
    2. 减轻标注负担:获取包级标签(如一张图片是否包含猫)远比获取实例级标签(如精确标注猫在图片中的位置)要容易和廉价。
  • 难点与挑战:
    1. 标签歧义性:我们不知道正包中具体哪个或哪些实例是真正的'元凶',这是 MIL 最根本的挑战。
    2. 包构成的复杂性:包内实例的数量、正负实例的比例(见证率)、实例间的关系(相似性、共现性、结构)千变万化。
    3. 数据分布的多样性:正类实例的分布可能是多模态的(如'猫'有各种品种、姿态),负类分布可能在训练集中无法被完全代表。
    4. 任务目标的差异性:最终目标是进行包分类还是实例分类?这两种任务的优化目标和损失函数是不同的。

三、MIL 问题的关键特性分类

这篇综述的核心贡献是将 MIL 问题的特性系统地归纳为四大类(如原文中图 1 所示):

  1. 预测级别:任务是进行包级分类还是实例级分类?这是选择算法的首要决定因素。
  2. 包组成:
    • 见证率:正包中正实例的比例。低见证率问题极具挑战。
    • 实例间关系:
      • 包内相似性:同一包内的实例可能非常相似(如来自同一分子的构象、同一张图片的相邻 patches)。
      • 实例共现:某些实例倾向于同时出现(如'鸟'和'天空')。
      • 包/实例结构:实例间存在时空或语义上的结构(如视频中的时间序列、网页间的超链接)。
  3. 数据分布:
    • 多模态正类分布:正类概念可能对应特征空间中的多个簇(如不同样子的'蚂蚁')。
    • 非代表性负类分布:训练集中的负实例无法涵盖测试时可能遇到的所有负类模式(如一张'猫'的图片,背景可以是任何东西)。
  4. 标签歧义性:
    • 标签噪声:bag-level 的标签可能存在错误,例如,一个被标记为'无猫'的图片可能实际上包含一个很小的、被忽略的猫。
    • 不同的标签空间:实例的语义标签可能与包的标签完全不同。例如,一个'斑马'包(bag-label)中的实例可能是一些无明确语义的纹理 patch(instance-label)。

以下对这四类关键特性分别讨论

特征 1:预测级别(Prediction Level)

本质区别:你要分类的是包还是示例?

任务类型目标优化目标差异典型应用
包分类判断整幅 CT 是否患癌误分类代价不对称:正包中误分类少量负示例不影响包标签医学诊断、图像检索
示例分类精确定位肿瘤区域所有示例误分类代价相等目标检测、图像分割

关键发现:在正包中,只要找到一个正例,包标签就正确,因此包分类算法会主动"忽略"难以识别的正例,导致其示例分类性能极差。实验表明,包分类最优算法在示例任务上可能表现最差。

公式化代价差异:

  • 包级 FN(假负):漏检一个正例 → 若包中还有其他正例,可能不影响包判断
  • 包级 FP(假正):误检一个负例为正 → 整个负包被错误分类
  • 示例级 FN/FP:每个示例的误判都直接计入损失
特征 2:包组成(Bag Composition)
2.1 见证率(Witness Rate, WR)

定义:正包中正例所占比例

  • 高 WR(>50%):正包几乎全是正例 → 退化为带噪声的监督学习
  • 低 WR(<10%):正包中仅 1-2 个正例 → 算法极易"迷失"

影响:当 WR 极低时,将包标签赋给所有实例(如 SI-SVM)会导致99% 的假正标签,严重污染训练集。专门处理低 WR 的方法包括:

  • stMIL:修改 SVM 约束,只需找到一个正例即可
  • miGraph:构建图结构,相似示例共享权重,降低稀有正例的影响
2.2 示例间关系

真实数据很少满足 i.i.d.假设,存在三类相关性:

a) 包内相似性:同一图像的 patch 因共享光照、背景而相似。若算法过度拟合这种相似性,可能学会"区分图像"而非"区分目标"。

  • 缓解方法:特征选择(Relief-MI)或学习新表示空间,使同类示例距离近,而非同包示例距离近。

b) 共现关系:某些概念常一起出现(如"鸟"和"天空")。这对包分类是机会(sky 提供上下文),对示例分类是干扰(天空被误认为鸟)。

c) 结构信息:视频帧有时序,网页有链接关系。图模型(miGraph)和 CRF 可捕捉此类结构。

特征 3:数据分布(Data Distribution)
3.1 正例多模态分布

传统方法(如 APR、Diverse Density)假设正例在特征空间单簇分布,但现实中同一概念可能有多个外观(如"蚂蚁"有红黑黄、有翅无翅等多种形态)。

解决方案:

  • 原型法:MILES、DD-SVM 用多个原型点表示不同模态
  • 分布法:BoW、miFV 将包编码为实例分布,天然处理多模态
3.2 负分布不可代表

在开放世界问题中(如网络图片背景无限多样),训练集无法覆盖所有负例分布。

建模正例区域而非负分布的方法更健壮,如:

  • 单类 SVM:将正例作为目标类,其余全判负
  • 距离法:APR、Citation-kNN 基于到正例中心的距离决策

实验显示,当测试负分布与训练差异>30% 时,包空间方法(如 EMD-SVM)显著优于实例空间方法。

特征 4:标签歧义(Label Ambiguity)
4.1 标签噪声

标准假设下,负包被错误标记为正会导致灾难:正概念区域被迫包含负例,模型崩溃。

鲁棒方法:

  • 分布表示:EMD-SVM、miGraph 将包编码为直方图,单个噪声点影响有限
  • 阈值假设:要求正包中至少有θ个正例,而非至少 1 个

实验表明,当 30% 包标签错误时,嵌入空间方法性能稳定,而实例空间方法(mi-SVM)迅速降至随机水平。

4.2 不同标签空间

包标签"汽车" vs. 示例标签"轮胎/车窗/大灯",两者语义层次不同。此时标准假设失效,因为无法为示例分配明确类别。

解决方案:必须使用集体假设,将实例映射到无监督发现的"词汇"(如 BoW 模型),在词汇分布层面分类。

四、现有方法分类与典型算法

根据算法在何种空间进行操作,MIL 方法可分为三大类:

1. 实例空间方法(Instance-Space)

这类方法的核心是先学习一个实例级分类器 $f(x)$,然后通过聚合策略(如取最大概率)得到包标签。

  • 思想:直接求解实例标签的歧义性问题。
  • 特点:
    • 天然适合实例分类任务。
    • 对于包分类,当见证率较低时,容易因关注单个实例而忽略其他有用信息。
    • 适合用于 WR 较高、标签干净的实例分类任务
  • 典型方法:
    • APR:寻找特征空间中的一个轴平行矩形,使其包含每个正包至少一个实例,且不包含任何负包实例。
    • Diverse Density (DD) & EM-DD:在特征空间中寻找一个点,该点距离至少一个正包实例'近',而距离所有负包实例'远'。EM-DD 使用期望最大化算法来优化这个过程。
    • MI-SVM 和 mi-SVM:基于 SVM 的转换方法。
      • mi-SVM:将所有实例初始化为其包标签,然后迭代地训练 SVM 并根据 SVM 的输出更新实例标签,同时约束正包中必须至少有一个正实例。
      • MI-SVM:在每次迭代中,只将每个正包中'最像正例'的那个实例(如 SVM 得分最高的)视为正实例用于下一次训练。
    • MIL-Boost:将 Boosting 框架与 MIL 损失函数结合,通过梯度提升来训练一个强大的实例分类器。
2. 包空间方法(Bag-Space)

这类方法不显式地对单个实例进行分类,而是将每个包视为一个整体,通过度量包与包之间的距离或相似性来进行分类。

  • 思想:绕过实例标签的歧义,在更高层次上比较包的整体特性。
  • 特点:
    • 通常在包分类任务上表现优异。
    • 善于处理集体假设和包内实例复杂的关系。
    • 大多数方法无法直接进行实例分类。
  • 典型方法:
    • Citation-kNN:使用 Hausdorff 距离等度量来计算包之间的距离,并借鉴'引用'和'参考文献'的思想进行 kNN 分类。
    • MInD:将每个包表示为一个向量,其元素是该包与训练集中所有其他包的(不)相似度,然后使用标准分类器(如 SVM)对该向量进行分类。
    • NSK-SVM:使用归一化集核,计算两个包之间所有实例对相似度的平均值,并将其作为 SVM 的核函数。
3. 嵌入空间方法

这类方法将每个包映射成一个固定长度的特征向量,这个向量是对包内容的总结。然后,任何标准的监督学习算法都可以应用于这些嵌入向量。

  • 思想:将 MIL 问题转化为标准的监督学习问题。
  • 特点:
    • 计算效率高,尤其适用于大规模数据。
    • 嵌入向量的设计至关重要,它决定了方法能否捕捉到包的关键信息。
  • 典型方法:
    • MILES:从训练集中选择一组原型实例。每个包被表示为一个向量,向量中的每个元素是该包与一个原型实例的最大相似度。然后使用 1-范数 SVM 进行分类和原型选择。
    • CCE:首先对实例空间进行聚类。每个包被表示为一个二进制向量,指示哪些聚类中心至少被该包中的一个实例所覆盖。通过使用不同数量的聚类来构建分类器集成。
    • BoW-SVM:与文本处理中的词袋模型类似。首先通过聚类(如 k-means)在实例空间构建一个'视觉词典'。然后,每个实例被分配给最近的词,包被表示为词频直方图,最后用 SVM 分类。
    • EMD-SVM:将包视为分布,使用推土机距离来衡量两个包(分布)之间的差异,并基于此构造 SVM 核。
    • miGraph:考虑实例间的非独立同分布关系。为每个包构建一个图,节点是实例,边表示实例相似性。通过图核来比较包的相似性,并降低大簇中实例的权重。

五、实验与关键结论

该综述通过大量实验比较了 16 种代表性算法,得出了一些重要结论:

  1. 实例分类 vs. 包分类:
    • 一个算法在包分类上表现好,绝不意味着它在实例分类上也表现好。这是两种不同的任务。
    • 对于实例分类,当见证率不是极低时,简单地将包标签分配给所有实例(如 SI-SVM)然后使用标准监督学习,其效果可能与复杂的 MIL 方法相当甚至更好。
    • 对于包分类,包空间和嵌入方法通常在较高见证率下表现更好。
    • 对于包含 N 个示例的包,包分类的 FN 代价为 $1/N$,FP 代价为 1。这种代价不对称性导致优化包损失的算法天然偏向高召回、低精度,不适合示例任务。
  2. 见证率的影响:
    • 所有方法的性能都随见证率的降低而下降。
    • 在低见证率下,MI-SVM(只关注每个包中最正实例)等策略相对更有效。
  3. 负类分布的变化:
    • 当测试集的负类分布与训练集不同时,包空间方法(特别是基于距离的如 C-kNN)通常更具鲁棒性。因为它们的决策更多依赖于正包之间的内在相似性,而非负类的绝对特征。
  4. 标签噪声:
    • 嵌入方法(如 EMD-SVM, MInD)对标签噪声最不敏感。因为它们将包编码为特征向量,本质上是在学习包的总体统计特性,对个别异常实例不敏感。
    • 实例空间方法(如 mi-SVM, MIL-Boost)对标签噪声非常敏感,因为它们严重依赖正确的包标签来识别'纯净'的正类概念。
  5. 评估指标:
    • 仅使用 AUC 评估是不够的。一些方法能学习到好的排序函数(高 AUC),但决策阈值选择不佳,导致准确率很低。应同时报告 AUC 和基于准确性的指标(如 F1 分数)。

六、未来研究方向与挑战

基于对现状的分析,文章指出了以下有前景的未来研究方向:

  1. 拓展任务边界:目前研究主要集中在分类任务上,MIL 回归(如预测疾病严重程度)和MIL 聚类(如发现视频中的重复动作模式)探索不足。
  2. 专注于实例分类的方法:需要设计真正为实例分类目标优化的新算法,而不是将其作为包分类的副产品。
  3. 处理正包与未标注包:在许多推荐系统等场景中,我们只有用户喜欢的物品(正包)和大量未标注的物品包。如何在这种设定下进行 MIL 学习是一个挑战。
  4. 深入利用包内结构:当前大多数方法忽略了实例间的复杂结构(时空、语义)。图神经网络等新技术为建模这种结构提供了可能。
  5. 解决类不平衡问题:MIL 问题中实例级别的类不平衡通常非常严重,需要专门的研究。
  6. 主动学习:如何智能地选择最具信息量的实例请专家标注,以高效提升模型性能。
  7. 表征学习:如何为 MIL 设计端到端的深度学习模型,自动学习对包和实例分类最有效的特征表示,是一个热门且重要的方向。
  8. 多模态 MIL:当包内的实例来自不同模态(如图像、音频、文本)时,如何有效地进行融合和学习。

七、总结

这篇关于多实例学习的综述为我们提供了一个清晰的路线图。它告诉我们,MIL 不是一个单一的问题,而是一个由预测级别、包组成、数据分布和标签歧义性四个维度的特性所定义的问题谱系。没有一种方法能在所有情况下都表现最佳。选择或设计 MIL 算法时,必须首先考虑手头问题所具有的具体特性。这项工作为未来 MIL 的研究奠定了坚实的基础,有望推动该领域从'什么算法在某个数据集上效果好'的经验主义,走向'为什么这个算法对这类问题有效'的原理性理解。

目录

  1. 一、用一个例子直观理解 MIL
  2. 二、研究背景
  3. 1. 多示例学习(MIL)
  4. 2. 核心假设
  5. 3. 为什么 MIL 重要且具有挑战性?
  6. 三、MIL 问题的关键特性分类
  7. 特征 1:预测级别(Prediction Level)
  8. 特征 2:包组成(Bag Composition)
  9. 2.1 见证率(Witness Rate, WR)
  10. 2.2 示例间关系
  11. 特征 3:数据分布(Data Distribution)
  12. 3.1 正例多模态分布
  13. 3.2 负分布不可代表
  14. 特征 4:标签歧义(Label Ambiguity)
  15. 4.1 标签噪声
  16. 4.2 不同标签空间
  17. 四、现有方法分类与典型算法
  18. 1. 实例空间方法(Instance-Space)
  19. 2. 包空间方法(Bag-Space)
  20. 3. 嵌入空间方法
  21. 五、实验与关键结论
  22. 六、未来研究方向与挑战
  23. 七、总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 医疗多模态大模型概述:医学影像分析与核心算法总结
  • 6 款主流免费 AI 写作工具实测:网文创作避坑指南
  • C++ STL 详解:String 类的从零实现
  • RoboBrain2.0 具身大脑模型复现:统一感知、推理和规划能力
  • 2025 年 AI 产品经理转行指南:职业前景与能力准备
  • OpenClaw 助手 20 个精选 Skills 配置与实战指南
  • TypeTale 字字动画:免费 AIGC 视频创作工具
  • 通义千问 DeepSeek Kimi 三大模型降 AI 指令实战:15 个实用 Prompt
  • OpenClaw 本地部署与飞书机器人接入实战指南
  • Apache SeaTunnel Web 可视化数据集成平台搭建指南
  • 2025 年 AI 工程师 RAG 面试核心问题与解答
  • 10 家程序员接单平台横向对比
  • AI 驱动游戏:鸿蒙生态的机会在哪里?
  • Deep-Live-Cam 模型配置指南:GFPGAN 与 inswapper 安装步骤
  • Windows 下 Codex 代理配置与一键切换脚本方案
  • Python 深浅拷贝详解
  • FPGA 实现 MIPI 协议详解与时序规范
  • cann-recipes-train 仓库深度解读:昇腾平台下 DeepSeek-R1 与 Qwen2.5 强化学习训练优化实践
  • 简单的解压缩算法实现
  • 使用文心一言为智能体设计稳定调用工作流的提示词

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online