CLIP 论文深度解读：基于自然语言监督的视觉模型迁移

核心目标与背景

传统的图像分类任务通常依赖固定的标签体系，一旦推理场景出现新类别，往往需要重新训练模型。CLIP（Contrastive Language-Image Pre-training）提出了一种全新的范式：从自然语言的监督信号中学习迁移性能好的模型。

其核心目的是学习一个泛化能力极强的特征表示，使得模型在各种数据集和任务上无需微调即可直接推理。这打破了传统监督学习对固定标签的依赖，通过对比学习的方法，采样了 4 亿对图像 - 文本数据，实现了真正的零样本（Zero-shot）推理能力。

文章配图

方法架构

自然语言监督的优势

相比自回归或 MLM（Masked Language Modeling）等自监督预训练方式，CLIP 的独特之处在于它不追求生成具体的解释性文本，而是专注于判断图片与文本是否匹配。

数据获取更便捷：只需收集<图片，文本>对这种无监督数据，无需人工标注 Gold Label。
输出自由度大：监督信号是文本，不再局限于 ImageNet 的 1-N 固定分类。
多模态特征：学到的不仅是视觉特征，更是语义与视觉对齐的多模态特征，天然支持 Zero-shot 学习。

现有工作如 Instagram 数据集虽然提供了图片和 Hashtag 对，但存在无效语义信息多、数量不足（仅 1500 万）的问题。CLIP 构建了包含 4 亿对的 WebImageText 数据集，大幅提升了约束条件下的性能表现。

对比学习机制

随着约束放宽，从预测任务转向对比学习，性能提升了约 4 倍。损失函数的设计非常巧妙，Label 实际上是一个单位矩阵，每一行算一次，每一列算一次，强制拉近正样本对，推远负样本对。

文章配图

训练细节

在实现层面，有几个关键点值得注意：

编码器：图像和文本的 Encoder 均从头训练，未使用预训练权重。
投影层：展示层没有使用非线性层，而是采用线性层，保持计算效率。
数据增强：仅使用了裁剪操作，避免过度干扰原始语义。
温度参数：没有设置超参数 Temperature 作用于 Softmax，而是将其作为一个可学习参数。
优化策略：选用 ResNet 变体和 ViT 作为视觉模型，优化器为 Adam，配合权重衰减抑制过拟合。训练轮次为 32 个 Epoch，共 3 万个 Mini-batch，并采用了混合精度训练加速。

推理与优化

Zero-shot 推理

这是 CLIP 最吸引人的地方。通过 Prompt Engineering（提示工程），我们可以将标签转换成句子来模拟预训练的文本格式。例如，将标签 cat 转换为 A photo of a cat。

实验表明，简单的单单词匹配存在多义性（Polysemy）问题，且预训练文本多为句子，导致分布偏差（Distribution Gap）。因此，Prompt Engineering 能有效缓解这些问题。

文章配图

CLIP 论文深度解读：基于自然语言监督的视觉模型迁移