北京大学王选计算机技术研究所最新提出了一种名为条件多模态提示(Conditional Multi-Modal Prompt, CMMP)的新方法,旨在利用提示词工程技术教会多模态大模型更准确地理解场景中的人物关系。这一研究重点解决了在开放环境下识别未见人物交互类型的难题,为多模态大模型的微调提供了新的范式。
背景与挑战
在多模态人工智能领域,人物交互检测(Human-Object Interaction, HOI)是理解视频和图像语义的关键任务。大多数现有研究集中在封闭环境下的分类任务,即模型只需识别训练集中已知的交互类别。然而,一旦应用场景转变为更接近现实的开放环境,面对大量未见过的人物交互类型时,传统模型往往表现不佳。
现有的检测方法在平衡已见类别和未见类别的性能时存在显著困难,导致调和平均值较低,且在未见类别上的泛化能力较差。例如,在某些复杂场景下,先前的检测器难以区分相似的动作或物体组合,限制了其在实际机器人、安防监控等场景中的应用。

相比之下,CMMP 方法有效解决了这一平衡问题,大幅提升了性能,并为未见类别建立了新的最佳性能基准。该方法的核心在于通过特征提取过程中的视觉空间线索,帮助识别未见的人物 - 物体交互概念,并通过条件提示学习提高对未见类别的泛化能力。
零样本人物交互检测新框架
团队提出了一种使用 CMMP 进行零样本人物交互检测的新框架。该框架将零样本人物交互检测分为两个核心子任务:
- 交互性感知的视觉特征提取
- 可泛化的交互分类
针对这两个子任务,团队分别提出了耦合的视觉和文本提示,以消除它们之间的依赖性并缓解错误传播。
交互性感知的视觉特征提取
团队采用的多模态模型的图像编码器最初通过对大规模图像 - 文本对进行对比学习预训练(CLIP),其能力可能仅限于理解图像级的一阶语义。为了使图像编码器能够区分图像中所有的人物交互性,团队提出将不同粒度的先验知识整合到条件视觉提示中,使其理解为人物交互关系检测任务定制的区域级二阶语义。
具体来说,研究人员将实例级信息作为先验知识融入条件视觉提示中。给定输入图像,首先使用预训练的物体检测器获取所有实例级先验知识,包括边界框、置信度分数和检测到的实例的语义编码。此外,为了鼓励每个实例意识到其潜在的交互对象,团队将训练集中交互的全局空间模式(Global Spatial Pattern)与实例级先验知识(Instance-level Visual Prior)结合。
对于每个标注的交互人物对,研究人员首先计算其一元和二元空间特征。随后,使用 K-means 聚类算法确定聚类中心,并将其用作交互人物对的代表性空间模式。全局空间交互模式提供了一种类别无关的代表性空间配置,作为理解已见和未见人物交互概念之间交互性的桥梁。最终,研究人员将结合后的知识通过轻量级适配器融入到图像编码器中。

可泛化的交互分类
为了在学习人物交互检测任务特定表示的同时保留 CLIP 的可泛化通用知识,团队在文本分支中采用了带有一致性约束的语言感知提示学习(Language-aware Prompt Learning)。该约束确保已见和未见类别的学习原型(Prototype)之间保持合理的分离边界,不会彼此过度偏离。
具体来说,对于每个动作类别,研究人员首先使用人工设计的提示对其进行格式化。利用可学习的上下文词充当已见和未见类别语义之间的桥梁。类别的最终表示通过将可学习的上下文词与上述句子的词向量拼接,然后通过文本编码器获得。
为了进一步利用多模态模型文本编码器本身学习到的特征空间并提高对未见类别的泛化能力,研究人员提出使用人工设计的提示来指导可学习语言提示的特征空间。该约束确保已见和未见类别的原型之间保持合理的分离边界,不会彼此过度偏离。
团队应用正则化对比学习损失来减少特征表示与人工设计语言提示的特征表示之间的差异。这种机制有效地防止了模型在微调过程中遗忘预训练时的通用知识,同时适应了特定任务的分布。



