一、用一个例子直观理解 MIL
考虑一个药物研发场景:我们的目标是判断一种分子是否能对某种疾病产生疗效(即'有效'或'无效')。
- 包:一个分子。
- 实例:该分子在现实世界中可能呈现的多种三维空间构象。一个分子可以有成千上万种不同的构象。
- 标签:我们通过实验只能知道整个分子(即所有构象的集合)是否有效,而无法精确测量每一个单一构象是否有效。
根据生物学知识,我们做出一个关键假设(标准 MIL 假设):
- 如果一个分子是'无效'的(负包),那么它的所有构象都是无效的。
- 如果一个分子是'有效'的(正包),那么它至少存在一个或多个构象是有效的(这些构象被称为'见证实例')。
我们的任务就是通过大量已知标签的分子(包)来学习一个模型,它既能预测新分子的活性(包分类),又能识别出哪些构象最可能是有效的(实例分类)。这就是典型的 MIL 问题。
二、研究背景
1. 多示例学习(MIL)
MIL 是一种弱监督学习范式。与传统监督学习(每个样本都有标签)或半监督学习(部分样本有标签)不同,MIL 的监督信号只在'包'的级别提供。
形式化定义: 设有一个包 $X = {x_1, x_2, ..., x_N}$,其中每个实例 $x_i$ 是一个特征向量。包的标签 $Y$ 与实例的隐藏标签 $y_i$ 通过某种机制相关联。
2. 核心假设
MIL 算法通常基于某种假设来建立包标签与实例标签之间的联系。
- 标准 MIL 假设:这是最经典的假设。
- 负包中所有实例均为负类。
- 正包中至少有一个实例为正类(见证实例,称为"witness")。
- 此时,包分类器 $g(X)$ 可以定义为: $$ g(X) = \begin{cases} 1, & \text{if } \exists x \in X : f(x) = 1; \ 0, & \text{otherwise}, \end{cases} $$ 其中 $f(x)$ 是一个假设的实例级分类器,$g$ 是包分类器,只要包中任一示例被 $f$ 判定为正,则包为正。
- 例子:在"患癌"CT 图像中,只要找到一个肿瘤区域,整幅图像就判定为癌症。算法不需要识别所有肿瘤区域。
- 集体假设:该假设认为,包的标签不是由单个实例决定的,而是由包内所有实例通过某种组合方式(如分布、交互、累积)共同决定的。
- 基于数量的集体假设:需要至少 $\theta$ 个正实例才能判定一个包为正。 $$ g(X) = \begin{cases} 1, & \text{if } \theta \leq \sum_{x \in X} f(x); \ 0, & \text{otherwise}. \end{cases} $$ 例如,判断'交通拥堵'需要图像中有足够多的汽车。
- 基于多概念的集体假设:包的标签取决于多个概念的共同出现。 $$ g(X) = \begin{cases} 1, & \text{if } \forall c \in C^+ : \theta_c \leq \sum_{x \in X} f_c(x); \ 0, & \text{otherwise}, \end{cases} $$ 其中 $C^+$ 是正类所需的概念集合(正包需包含所有预设概念集合 $C^+$),$f_c(x)$ 判断实例 $x$ 是否属于概念 $c$。 例如,判断一张图片是否为'海滩',需要同时出现'沙'和'水'两种概念的实例。
- 基于分布的集体假设:将每个包视为实例空间上的一个概率分布 $P(x|X)$,包分类器则是学习一个从分布到标签的映射。
3. 为什么 MIL 重要且具有挑战性?
- 重要性:
- 自然拟合现实问题:如药物活性预测、图像分类(图像=包,图像区域=实例)、文档分类(文档=包,段落=实例)等,数据天然以集合形式存在。

