跳到主要内容 多实例学习 (MIL) 综述:问题特性与应用 | 极客日志
编程语言 AI 算法
多实例学习 (MIL) 综述:问题特性与应用 综述了多实例学习(MIL)的核心概念,指出其数据以“包”为单位,仅知包标签而不知实例标签。文章归纳了影响算法性能的四大关键特性:预测级别、包组成、数据分布和标签歧义性。现有方法分为实例空间、包空间和嵌入空间三类。实验表明,不同任务目标(包分类 vs 实例分类)及数据特性(如见证率、噪声)对算法选择至关重要,没有通用最优解。未来需关注回归、聚类及深度学习表征等方向。
GitMaster 发布于 2026/4/5 更新于 2026/4/13 1 浏览一、用一个例子直观理解 MIL
考虑一个药物研发场景:我们的目标是判断一种分子 是否能对某种疾病产生疗效(即'有效'或'无效')。
包 :一个分子。
实例 :该分子在现实世界中可能呈现的多种三维空间构象 。一个分子可以有成千上万种不同的构象。
标签 :我们通过实验只能知道整个分子 (即所有构象的集合)是否有效,而无法精确测量每一个单一构象 是否有效。根据生物学知识,我们做出一个关键假设(标准 MIL 假设 ):
如果一个分子是'无效'的(负包),那么它的所有 构象都是无效的。
如果一个分子是'有效'的(正包),那么它至少存在一个或多个 构象是有效的(这些构象被称为'见证实例')。
我们的任务就是通过大量已知标签的分子(包)来学习一个模型,它既能预测新分子的活性(包分类),又能识别出哪些构象最可能是有效的(实例分类)。这就是典型的 MIL 问题。
二、研究背景
1. 多示例学习(MIL) MIL 是一种弱监督学习 范式。与传统监督学习(每个样本都有标签)或半监督学习(部分样本有标签)不同,MIL 的监督信号只在'包'的级别提供。
形式化定义 :
设有一个包 $X = {x_1, x_2, ..., x_N}$,其中每个实例 $x_i$ 是一个特征向量。包的标签 $Y$ 与实例的隐藏标签 $y_i$ 通过某种机制相关联。
2. 核心假设 MIL 算法通常基于某种假设来建立包标签与实例标签之间的联系。
标准 MIL 假设 :这是最经典的假设。
负包中所有实例均为负类。
正包中至少有一个实例为正类(见证实例,称为"witness")。
此时,包分类器 $g(X)$ 可以定义为:
$$ g(X) = \begin{cases} 1, & \text{if } \exists x \in X : f(x) = 1; \ 0, & \text{otherwise}, \end{cases} $$
其中 $f(x)$ 是一个假设的实例级分类器,$g$ 是包分类器,只要包中任一 示例被 $f$ 判定为正,则包为正。
例子 :在"患癌"CT 图像中,只要找到一个肿瘤区域,整幅图像就判定为癌症。算法不需要识别所有肿瘤区域。
集体假设 :该假设认为,包的标签不是由单个实例决定的,而是由包内所有实例通过某种组合方式(如分布、交互、累积)共同决定的。
基于数量的集体假设 :需要至少 $\theta$ 个正实例才能判定一个包为正。
$$ g(X) = \begin{cases} 1, & \text{if } \theta \leq \sum_{x \in X} f(x); \ 0, & \text{otherwise}. \end{cases} $$
例如,判断'交通拥堵'需要图像中有足够多的汽车。
基于多概念的集体假设 :包的标签取决于多个概念的共同出现。
$$ g(X) = \begin{cases} 1, & \text{if } \forall c \in C^+ : \theta_c \leq \sum_{x \in X} f_c(x); \ 0, & \text{otherwise}, \end{cases} $$
其中 $C^+$ 是正类所需的概念集合(正包需包含所有预设概念集合 $C^+$),$f_c(x)$ 判断实例 $x$ 是否属于概念 $c$。
例如,判断一张图片是否为'海滩',需要同时出现'沙'和'水'两种概念的实例。
基于分布的集体假设 :将每个包视为实例空间上的一个概率分布 $P(x|X)$,包分类器则是学习一个从分布到标签的映射。
3. 为什么 MIL 重要且具有挑战性?
重要性 :
自然拟合现实问题 :如药物活性预测、图像分类(图像=包,图像区域=实例)、文档分类(文档=包,段落=实例)等,数据天然以集合形式存在。
减轻标注负担 :获取包级标签(如一张图片是否包含猫)远比获取实例级标签(如精确标注猫在图片中的位置)要容易和廉价。
难点与挑战 :
标签歧义性 :我们不知道正包中具体哪个或哪些实例是真正的'元凶',这是 MIL 最根本的挑战。
包构成的复杂性 :包内实例的数量、正负实例的比例(见证率)、实例间的关系(相似性、共现性、结构)千变万化。
数据分布的多样性 :正类实例的分布可能是多模态的(如'猫'有各种品种、姿态),负类分布可能在训练集中无法被完全代表。
任务目标的差异性 :最终目标是进行包分类还是实例分类?这两种任务的优化目标和损失函数是不同的。
三、MIL 问题的关键特性分类 这篇综述的核心贡献是将 MIL 问题的特性系统地归纳为四大类(如原文中图 1 所示):
预测级别 :任务是进行包级分类 还是实例级分类 ?这是选择算法的首要决定因素。
包组成 :
见证率 :正包中正实例的比例。低见证率问题极具挑战。
实例间关系 :
包内相似性 :同一包内的实例可能非常相似(如来自同一分子的构象、同一张图片的相邻 patches)。
实例共现 :某些实例倾向于同时出现(如'鸟'和'天空')。
包/实例结构 :实例间存在时空或语义上的结构(如视频中的时间序列、网页间的超链接)。
数据分布 :
多模态正类分布 :正类概念可能对应特征空间中的多个簇(如不同样子的'蚂蚁')。
非代表性负类分布 :训练集中的负实例无法涵盖测试时可能遇到的所有负类模式(如一张'猫'的图片,背景可以是任何东西)。
标签歧义性 :
标签噪声 :bag-level 的标签可能存在错误,例如,一个被标记为'无猫'的图片可能实际上包含一个很小的、被忽略的猫。
不同的标签空间 :实例的语义标签可能与包的标签完全不同。例如,一个'斑马'包(bag-label)中的实例可能是一些无明确语义的纹理 patch(instance-label)。
特征 1:预测级别(Prediction Level) 任务类型 目标 优化目标差异 典型应用 包分类 判断整幅 CT 是否患癌 误分类代价不对称:正包中误分类少量负示例不影响包标签 医学诊断、图像检索 示例分类 精确定位肿瘤区域 所有示例误分类代价相等 目标检测、图像分割
关键发现 :在正包中,只要找到一个正例,包标签就正确,因此包分类算法会主动"忽略"难以识别的正例 ,导致其示例分类性能极差。实验表明,包分类最优算法在示例任务上可能表现最差。
包级 FN(假负):漏检一个正例 → 若包中还有其他正例,可能不影响包判断
包级 FP(假正):误检一个负例为正 → 整个负包被错误分类
示例级 FN/FP:每个示例的误判都直接计入损失
特征 2:包组成(Bag Composition)
2.1 见证率(Witness Rate, WR)
高 WR (>50%):正包几乎全是正例 → 退化为带噪声的监督学习
低 WR (<10%):正包中仅 1-2 个正例 → 算法极易"迷失"
影响 :当 WR 极低时,将包标签赋给所有实例(如 SI-SVM)会导致99% 的假正标签 ,严重污染训练集。专门处理低 WR 的方法包括:
stMIL :修改 SVM 约束,只需找到一个正例即可
miGraph :构建图结构,相似示例共享权重,降低稀有正例的影响
2.2 示例间关系 真实数据很少满足 i.i.d.假设,存在三类相关性:
a) 包内相似性 :同一图像的 patch 因共享光照、背景而相似。若算法过度拟合这种相似性,可能学会"区分图像"而非"区分目标"。
缓解方法 :特征选择(Relief-MI)或学习新表示空间,使同类示例距离近,而非同包示例距离近。
b) 共现关系 :某些概念常一起出现(如"鸟"和"天空")。这对包分类是机会 (sky 提供上下文),对示例分类是干扰 (天空被误认为鸟)。
c) 结构信息 :视频帧有时序,网页有链接关系。图模型(miGraph)和 CRF 可捕捉此类结构。
特征 3:数据分布(Data Distribution)
3.1 正例多模态分布 传统方法(如 APR、Diverse Density)假设正例在特征空间单簇分布 ,但现实中同一概念可能有多个外观(如"蚂蚁"有红黑黄、有翅无翅等多种形态)。
原型法 :MILES、DD-SVM 用多个原型点表示不同模态
分布法 :BoW、miFV 将包编码为实例分布,天然处理多模态
3.2 负分布不可代表 在开放世界问题中(如网络图片背景无限多样),训练集无法覆盖所有负例分布。
单类 SVM :将正例作为目标类,其余全判负
距离法 :APR、Citation-kNN 基于到正例中心的距离决策
实验显示,当测试负分布与训练差异>30% 时,包空间方法 (如 EMD-SVM)显著优于实例空间方法。
特征 4:标签歧义(Label Ambiguity)
4.1 标签噪声 标准假设下,负包被错误标记为正会导致灾难:正概念区域被迫包含负例,模型崩溃。
分布表示 :EMD-SVM、miGraph 将包编码为直方图,单个噪声点影响有限
阈值假设 :要求正包中至少有θ个正例,而非至少 1 个
实验表明,当 30% 包标签错误时,嵌入空间方法性能稳定,而实例空间方法(mi-SVM)迅速降至随机水平。
4.2 不同标签空间 包标签"汽车" vs. 示例标签"轮胎/车窗/大灯",两者语义层次不同。此时标准假设失效 ,因为无法为示例分配明确类别。
解决方案 :必须使用集体假设,将实例映射到无监督发现的"词汇"(如 BoW 模型),在词汇分布层面分类。
四、现有方法分类与典型算法 根据算法在何种空间进行操作,MIL 方法可分为三大类:
1. 实例空间方法(Instance-Space) 这类方法的核心是先学习一个实例级分类器 $f(x)$ ,然后通过聚合策略(如取最大概率)得到包标签。
思想 :直接求解实例标签的歧义性问题。
特点 :
天然适合实例分类任务。
对于包分类,当见证率较低时,容易因关注单个实例而忽略其他有用信息。
适合用于 WR 较高、标签干净的实例分类任务
典型方法 :
APR :寻找特征空间中的一个轴平行矩形,使其包含每个正包至少一个实例,且不包含任何负包实例。
Diverse Density (DD) & EM-DD :在特征空间中寻找一个点,该点距离至少一个正包实例'近',而距离所有负包实例'远'。EM-DD 使用期望最大化算法来优化这个过程。
MI-SVM 和 mi-SVM :基于 SVM 的转换方法。
mi-SVM :将所有实例初始化为其包标签,然后迭代地训练 SVM 并根据 SVM 的输出更新实例标签,同时约束正包中必须至少有一个正实例。
MI-SVM :在每次迭代中,只将每个正包中'最像正例'的那个实例(如 SVM 得分最高的)视为正实例用于下一次训练。
MIL-Boost :将 Boosting 框架与 MIL 损失函数结合,通过梯度提升来训练一个强大的实例分类器。
2. 包空间方法(Bag-Space) 这类方法不显式地对单个实例进行分类 ,而是将每个包视为一个整体,通过度量包与包之间的距离或相似性来进行分类。
思想 :绕过实例标签的歧义,在更高层次上比较包的整体特性。
特点 :
通常在包分类任务上表现优异。
善于处理集体假设和包内实例复杂的关系。
大多数方法无法直接进行实例分类。
典型方法 :
Citation-kNN :使用 Hausdorff 距离等度量来计算包之间的距离,并借鉴'引用'和'参考文献'的思想进行 kNN 分类。
MInD :将每个包表示为一个向量,其元素是该包与训练集中所有其他包的(不)相似度,然后使用标准分类器(如 SVM)对该向量进行分类。
NSK-SVM :使用归一化集核,计算两个包之间所有实例对相似度的平均值,并将其作为 SVM 的核函数。
3. 嵌入空间方法 这类方法将每个包映射成一个固定长度的特征向量 ,这个向量是对包内容的总结。然后,任何标准的监督学习算法 都可以应用于这些嵌入向量。
思想 :将 MIL 问题转化为标准的监督学习问题。
特点 :
计算效率高,尤其适用于大规模数据。
嵌入向量的设计至关重要,它决定了方法能否捕捉到包的关键信息。
典型方法 :
MILES :从训练集中选择一组原型实例。每个包被表示为一个向量,向量中的每个元素是该包与一个原型实例的最大相似度。然后使用 1-范数 SVM 进行分类和原型选择。
CCE :首先对实例空间进行聚类。每个包被表示为一个二进制向量,指示哪些聚类中心至少被该包中的一个实例所覆盖。通过使用不同数量的聚类来构建分类器集成。
BoW-SVM :与文本处理中的词袋模型类似。首先通过聚类(如 k-means)在实例空间构建一个'视觉词典'。然后,每个实例被分配给最近的词,包被表示为词频直方图,最后用 SVM 分类。
EMD-SVM :将包视为分布,使用推土机距离来衡量两个包(分布)之间的差异,并基于此构造 SVM 核。
miGraph :考虑实例间的非独立同分布关系。为每个包构建一个图,节点是实例,边表示实例相似性。通过图核来比较包的相似性,并降低大簇中实例的权重。
五、实验与关键结论 该综述通过大量实验比较了 16 种代表性算法,得出了一些重要结论:
实例分类 vs. 包分类 :
一个算法在包分类上表现好,绝不意味着 它在实例分类上也表现好。这是两种不同的任务。
对于实例分类 ,当见证率不是极低时,简单地将包标签分配给所有实例(如 SI-SVM)然后使用标准监督学习 ,其效果可能与复杂的 MIL 方法相当甚至更好。
对于包分类 ,包空间和嵌入方法 通常在较高见证率下表现更好。
对于包含 N 个示例的包,包分类的 FN 代价为 $1/N$,FP 代价为 1。这种代价不对称性 导致优化包损失的算法天然偏向高召回、低精度,不适合示例任务。
见证率的影响 :
所有方法的性能都随见证率的降低而下降。
在低见证率下,MI-SVM (只关注每个包中最正实例)等策略相对更有效。
负类分布的变化 :
当测试集的负类分布与训练集不同时,包空间方法(特别是基于距离的如 C-kNN)通常更具鲁棒性 。因为它们的决策更多依赖于正包之间的内在相似性,而非负类的绝对特征。
标签噪声 :
嵌入方法(如 EMD-SVM, MInD)对标签噪声最不敏感 。因为它们将包编码为特征向量,本质上是在学习包的总体统计特性,对个别异常实例不敏感。
实例空间方法(如 mi-SVM, MIL-Boost)对标签噪声非常敏感 ,因为它们严重依赖正确的包标签来识别'纯净'的正类概念。
评估指标 :
仅使用 AUC 评估是不够的。一些方法能学习到好的排序函数(高 AUC),但决策阈值选择不佳,导致准确率很低。应同时报告 AUC 和基于准确性的指标(如 F1 分数) 。
六、未来研究方向与挑战 基于对现状的分析,文章指出了以下有前景的未来研究方向:
拓展任务边界 :目前研究主要集中在分类任务上,MIL 回归 (如预测疾病严重程度)和MIL 聚类 (如发现视频中的重复动作模式)探索不足。
专注于实例分类的方法 :需要设计真正为实例分类目标优化的新算法,而不是将其作为包分类的副产品。
处理正包与未标注包 :在许多推荐系统等场景中,我们只有用户喜欢的物品(正包)和大量未标注的物品包。如何在这种设定下进行 MIL 学习是一个挑战。
深入利用包内结构 :当前大多数方法忽略了实例间的复杂结构(时空、语义)。图神经网络等新技术为建模这种结构提供了可能。
解决类不平衡问题 :MIL 问题中实例级别的类不平衡通常非常严重,需要专门的研究。
主动学习 :如何智能地选择最具信息量的实例请专家标注,以高效提升模型性能。
表征学习 :如何为 MIL 设计端到端的深度学习模型,自动学习对包和实例分类最有效的特征表示,是一个热门且重要的方向。
多模态 MIL :当包内的实例来自不同模态(如图像、音频、文本)时,如何有效地进行融合和学习。
七、总结 这篇关于多实例学习的综述为我们提供了一个清晰的路线图。它告诉我们,MIL 不是一个单一的问题,而是一个由预测级别、包组成、数据分布和标签歧义性 四个维度的特性所定义的问题谱系。没有一种方法能在所有情况下都表现最佳 。选择或设计 MIL 算法时,必须首先考虑手头问题所具有的具体特性。这项工作为未来 MIL 的研究奠定了坚实的基础,有望推动该领域从'什么算法在某个数据集上效果好'的经验主义,走向'为什么这个算法对这类问题有效'的原理性理解。
微信扫一扫,关注极客日志 微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
Markdown 转 HTML 将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online