LLM2CLIP:利用大语言模型增强 CLIP 的长文本与跨语言理解能力
在人工智能迅速发展的今天,多模态系统正成为推动视觉语言任务前沿发展的关键。CLIP(对比语言 - 图像预训练)作为其中的典范,通过将文本和视觉表示对齐到共享的特征空间,为图像 - 文本检索、分类和分割等任务带来了革命性突破。然而,其原生文本编码器在处理复杂长文本和多语言任务时存在局限性,往往受限于上下文窗口大小和语言覆盖范围。
大型语言模型(LLM),如 GPT-4 和 LLaMA,展示了卓越的语言理解和生成能力。微软团队提出的 LLM2CLIP 框架正是为了解决这一痛点,将 LLM 强大的语言知识与 CLIP 的视觉能力相结合,显著提升多模态任务的性能。
[图片:LLM2CLIP 核心架构示意图]
方法创新
1. 字幕对比微调(Caption Contrastive Fine-tuning)
核心问题:LLM 的原生文本特征缺乏区分性,难以直接用于多模态任务,因为 LLM 主要优化的是生成概率而非特征空间的语义对齐。
解决方案:通过监督对比损失函数,将同一图像的字幕作为正样本,将其他字幕作为负样本,从而显著增强 LLM 的文本编码能力,使其特征空间与 CLIP 的视觉特征空间对齐。
2. 冻结 LLM 梯度
目的:保留 LLM 的开放世界知识,降低计算成本,防止灾难性遗忘。
方法:仅微调适配器和投影层,实现多模态对齐。这意味着 LLM 的主体权重保持不变,只有少量的参数被更新以适应新的任务需求。
3. 高效训练策略
- LoRA 技术:使用低秩适应(Low-Rank Adaptation)进行轻量级训练,在计算资源有限的情况下优化模型性能。
- 预提取文本特征:减少推理阶段的计算负担,提高响应速度。
4. 开放世界知识的利用
LLM 的广泛训练语料使其能够处理复杂字幕,甚至支持多语言任务。LLM2CLIP 将这些知识融入到 CLIP 的视觉表示中,从而提高了其在各种下游任务中的性能。
LLM2CLIP 的关键特性
- 增强文本理解:LLM2CLIP 能够处理超过 CLIP 原生限制的长文本和复杂描述,无需像之前的工作那样进行文本截断或分段。
- 跨语言支持:通过 LLM 的知识迁移,即使仅使用英语数据训练,仍可在中文等多语言任务中实现卓越表现。
- 高效计算:通过冻结梯度和轻量级适配器优化计算开销,使得部署更加便捷。
详细改进描述
处理长字幕和复杂文本
LLM 的更大的上下文窗口和更强的语言理解能力使得 LLM2CLIP 能够有效地处理长字幕和复杂文本。这对于视频理解、文档分析等场景尤为重要。
融入开放世界知识
LLM 在大规模文本语料库上进行预训练,因此拥有丰富的开放世界知识。LLM2CLIP 将这些知识融入到 CLIP 的视觉表示中,例如识别罕见物体或理解复杂的场景关系。
跨语言能力
LLM2CLIP 的跨语言能力使其成为构建多语言多模态系统的强大工具,无需为每种语言单独训练模型。这大大降低了国际化应用的开发成本。
高效训练
通过冻结 LLM 的权重和预先提取文本特征,LLM2CLIP 的训练成本与微调原始 CLIP 模型相当,但效果显著提升。
实验结果
结果展示
LLM2CLIP 在多个基准测试中表现优异,在短文本、长文本以及跨语言任务中的性能显著提升,尤其在中文任务中,其表现甚至超越了专用中文数据集训练的模型。
评估指标与数据集:
- 图像 - 文本检索 (I2T 和 T2I):在 Flickr30k、COCO、ShareGPT4V、Urban-1k 和 DOCCI 等数据集上进行评估。这些数据集涵盖了从简单场景到复杂城市环境的多种情况。


