跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像 AI 生图工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

CLIP 论文阅读笔记 | 极客日志

PythonAI算法

CLIP 论文阅读笔记

解读了 CLIP 论文，介绍了一种从自然语言监督信号学习迁移性能好的模型的无监督训练范式。CLIP 通过对比学习，在 4 亿图像文本对上预训练，实现了零样本推理能力。实验显示其在线性探测和零样本分类上优于传统模型，但存在处理抽象任务弱、数据偏见等局限。

清酒独酌发布于 2026/4/6更新于 2026/7/2044 浏览

CLIP 论文阅读笔记

定义

论文标题：Learning transferable visual models from natural language supervision
CLIP 定义为 Contrastive Language-Image Pre-training
无监督的训练范式：通过正类和负类样本的比较，看到正类就拉近，看到负类就拉远

目的

从自然语言的监督信号学习迁移性能好的模型，目的是学一个泛化性能好的特征，从而在各种数据集和任务，不需要训练，直接推理就可以获得好的效果。

对比学习预训练
创建 label 分类器，用 prompt engineering 的方式将文本变成句子
使用 zero-shot 进行推理

摘要

之前的数据集有固定的类，但是如果推理任务需要一个其他的类，这个类难道要新训练一个模型吗？该方法可以通过 zero-shot，可以通过对语义信息（而不依赖预训练的图片信息）的摘取，从而识别新出现的 image，在任何新的类上进行下游任务的推理。采用的是对比学习的方法，采样了 400million 的 pair。

引入

自回归和 MLM 的训练方式都是自监督的预训练，目标函数和下游任务无关，只是通过预训练得到一个泛化性能好的特征
模型架构也和下游任务无关
之前的工作，有的数据集不够大，有的模型不够好。这篇文章的数据集使用 400million 的图像文本对，模型使用 8 个 models 进行对比，在 30 个 CV 的数据集上进行测试
线性探测：区分微调，线性探测完全冻结预训练参数，只是增加分类的线性头部。使用线性探测 (linear probe) 的方式，发现对 ImageNet 的固定的 1000 个 label，效果依然比 SOTA 的 resnet 等模型效果要好

方法

自然语言监督优势

只需要收集<图片，文本>对这种无监督的数据，无需标注
监督信号是文本，不需要学习 imagenet 的 1-N 这种 gold label，输出自由度大
学到的特征不是单单视觉特征，而是多模态特征，很容易做 zero-shot 学习

构建数据集

现有工作：instagram 数据集的图片，hashtag 对，很多都是无效语义信息，并且数量不够，只有 15million
自己构造 400million 的数据集，叫 WebImageText 数据集

预训练的任务方式

预测型任务：如果给定一张图片，可以解释的语言就太多了
对比学习：只需要判断图片和文本是否配对随着约束不断放宽，从预测到对比学习，性能提升 4 倍

细节

图像和文本的 encoder 没有使用预训练的，而是从头训练
展示层没有使用非线性层，而是线性层
数据增强只使用了裁剪
没有设置超参数 temperature 作用于 softmax，而是把它作为一个可学习参数
训练：视觉模型选择 resnet 变体和 ViT，优化器 Adam，使用权重衰退抑制过拟合，提高泛化能力，32 个 epochs，3w 个 minibatch，混合精度训练

Zero-shot

Prompt Engineering

目的是模拟预训练的文本格式，将 label 转换成句子
现有问题：Polysemy(多意性)，只用一个单词 label 来匹配图片，会有语义多意性；Distribution Gap(分布偏差)，预训练采用的文本通常是句子，因此微调为了模拟这种方式
解决办法：Prompt Engineering，使用不同的提示词和句子。研究发现对于 OCR 任务，如果对于想要识别的物体用双引号扩起来，往往效果更好
Prompt Ensembling：使用多次推理，将结果综合起来考虑

Few-shot

LinearProbe-Clip：冻住 image 的 encoder，添加有标签的线性分类头

局限

不擅长处理抽象任务：异常，数数，安全
对某些特定数据集效果不好，例如 MNIST，由于原始数据中不存在人工合成的数字照片，导致出现了 distribution shift 的情况
不适合图生文的生成任务
数据量太大，解决办法是可以用数据增强，self-supervision 或者 self-training 的方式
爬虫数据带有一些性别，肤色的偏见，公平性问题有待处理

优点

打破固定标签范式，不需要做固定 label 类，而是用无监督的方式 > 收集数据更方便，训练更方便，推理更方便
可以做 zero-shot 推理，泛化性能好
应用范围广，多模态支持

目录

CLIP 论文阅读笔记
定义
目的
摘要
引入
方法
自然语言监督优势
构建数据集
预训练的任务方式
细节
Zero-shot
Prompt Engineering
Few-shot
局限
优点

免费图片AI生成工具免费生成了解详情

Magick API 一键接入全球大模型注册送1000万token查看
免费图片视频在线生成30秒，将你的创意变成现实开始设计
X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
100+免费在线小游戏爽一把

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

MATLAB 与 Python 混合编程实战指南
Digital Micrograph 软件安装与配置指南
基于DeepSeek与Cursor构建智能代码审查工具实战
Java Map 和 Set 数据结构详解
GLM-4.7 与 MiniMax M2.1 工程级 Agent 模型对比及集成指南
AI 产品经理的定义、核心能力及转型路径解析
Face3D.ai Pro 4K UV 贴图支持 Alpha 通道及发丝胡须处理
大规模语言模型：从理论到实践的模型训练
AI 数据标注平台的选型与实践：效率提升背后的技术逻辑
企业微信自建应用：Python 实现消息收发功能
我的 C++ 设计模式整理：23 种模式的实现与建议
AIGC 产品经理转行指南与核心技能体系梳理
VSCode 本地运行 DeepSeek，打造私人 AI 编程助手
ToDesk 全新 ToClaw 上线，AI 可直接操作电脑
Libmodbus 源码分析：框架、数据结构与核心函数
AgentCPM-Report：8B 端侧深度研究智能体本地化开源
Tomcat Server 核心组件详解
Cursor 发布 Automations 功能，AI 全天候自动处理代码任务
利用云函数精准调度GitHub Actions：解决 Schedule 延迟问题
C++ 继承中同名成员的隐藏与重载规则解析

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online