OpenCLIP 开源实现与训练实战指南 | 极客日志

PythonAI算法

OpenCLIP 开源实现与训练实战指南

OpenCLIP 作为 CLIP 模型的开源复现，支持多种视觉和文本编码器。文章涵盖安装配置、预训练模型加载、大规模分布式训练流程及零样本评估方法，提供从单节点到多 GPU 集群的完整实践方案，并包含 CoCa 模型微调与高级特性如梯度累积、Int8 支持等关键技术细节。

DotNetGuy发布于 2025/1/150 浏览

OpenCLIP 开源实现与训练实战指南

OpenCLIP 简介

OpenCLIP 是 OpenAI CLIP（Contrastive Language-Image Pre-training）模型的开源复现。利用这个代码库，我们可以在各种数据源和计算预算上训练多个模型，包括更大规模的运行。

下表展示了我们在不同数据集上训练的模型及其在 ImageNet-1k 上的零样本准确率，同时也列出了由 OpenAI 和其他开源方案训练的 ViT-L 模型对比：

Model	Training data	Resolution	# of samples seen	ImageNet zero-shot acc.
ConvNext-Base	LAION-2B	256px	13B	71.5%
ConvNext-Large	LAION-2B	320px	29B	76.9%
ConvNext-XXLarge	LAION-2B	256px	34B	79.5%
ViT-B/32	DataComp-1B	256px	34B	72.8%
ViT-B/16	DataComp-1B	224px	13B	73.5%
ViT-L/14	LAION-2B	224px	32B	75.3%
ViT-H/14	LAION-2B	224px	32B	78.0%
ViT-L/14	DataComp-1B	224px	13B	79.2%
ViT-G/14	LAION-2B	224px	34B	80.1%
ViT-L/14	WIT	224px	13B	75.5%
ViT-SO400M/14	WebLI	224px	45B	82.0%
ViT-SO400M-14-SigLIP-384	WebLI	384px	45B	83.1%
ViT-H/14-quickgelu	DFN-5B	224px	39B	83.4%
ViT-H-14-378-quickgelu	DFN-5B	378px	44B	84.4%

更多预训练模型集合及 38 个数据集的零样本结果详情，可参考官方文档。

快速上手

安装与环境

首先建议创建一个虚拟环境来隔离依赖：

python3 -m venv .env
 ./bin/activate
pip install -U pip

pip install open_clip_torch

pip install 'open_clip_torch[training]'

import torch
from PIL import Image
import open_clip

# 创建模型和变换接口
model, _, preprocess = open_clip.create_model_and_transforms(
    'ViT-B-32', pretrained='laion2b_s34b_b79k'
)
model.eval()  # 默认是训练模式，评估时需设为 eval

# 获取分词器
tokenizer = open_clip.get_tokenizer('ViT-B-32')

# 预处理图像
image = preprocess(Image.open("docs/CLIP.png")).unsqueeze(0)

# 处理文本
text = tokenizer(["a diagram", "a dog", "a cat"])

# 编码特征
with torch.no_grad(), torch.cuda.amp.autocast():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)

# 归一化并计算相似度
image_features /= image_features.norm(dim=-1, keepdim=True)
text_features /= text_features.norm(dim=-1, keepdim=True)
text_probs = (100.0 * image_features @ text_features.T).softmax(dim=-1)

print("Label probs:", text_probs)  # 输出如 [[1., 0., 0.]]

import open_clip
open_clip.list_pretrained()

# 支持本地路径或 HuggingFace 检查点
model, _, preprocess = open_clip.create_model_and_transforms(
    'ViT-B-32', 
    pretrained='/path/to/my/b32.pt'  # 或 laion2b_s34b_b79k
)

python -m open_clip_train.main \
  --save-frequency 1 \
  --zeroshot-frequency 1 \
  --report-to tensorboard \
  --train-data="/path/to/train_data.csv" \
  --val-data="/path/to/validation_data.csv" \
  --csv-img-key filepath \
  --csv-caption-key title \
  --imagenet-val=/path/to/imagenet/root/val/ \
  --warmup 10000 \
  --batch-size=128 \
  --lr=1e-3 \
  --wd=0.1 \
  --epochs=30 \
  --workers=8 \
  --model RN50

#!/bin/bash -x
#SBATCH --nodes=32
#SBATCH --gres=gpu:4
#SBATCH --ntasks-per-node=4
#SBATCH --cpus-per-task=6
#SBATCH --wait-all-nodes=1
#SBATCH --job-name=open_clip
#SBATCH --account=ACCOUNT_NAME
#SBATCH --partition PARTITION_NAME

eval "$(/path/to/conda/bin/conda shell.bash hook)"
conda activate open_clip
export CUDA_VISIBLE_DEVICES=0,1,2,3
export MASTER_PORT=12802
master_addr=$(scontrol show hostnames "$SLURM_JOB_NODELIST" | head -n 1)
export MASTER_ADDR=$master_addr
cd /shared/open_clip
export PYTHONPATH="$PYTHONPATH:$PWD/src"

srun --cpu_bind=v --accel-bind=gn python -u src/open_clip_train/main.py \
  --save-frequency 1 \
  --report-to tensorboard \
  --train-data="/data/LAION-400M/{00000..41455}.tar" \
  --warmup 2000 \
  --batch-size=256 \
  --epochs=32 \
  --workers=8 \
  --model ViT-B-32 \
  --name "ViT-B-32-Vanilla" \
  --seed 0 \
  --local-loss \
  --gather-with-grad

--train-data "/data/cc12m/cc12m-train-{0000..2175}.tar::/data/LAION-400M/{00000..41455}.tar"

--coca-contrastive-loss-weight 0 \
--coca-caption-loss-weight 1

python -m open_clip_train.main \
  --val-data="/path/to/validation_data.csv" \
  --model RN101 \
  --pretrained /path/to/checkpoints/epoch_K.pt

--distill-model ViT-L-14 --distill-pretrained openai

--use-bnb-linear SwitchBackLinearGlobal

--logs /scratch \
--remote-sync s3://<path-to-bucket>

python -m open_clip.push_to_hf_hub \
  --model convnext_large_d_320 \
  --pretrained /train/checkpoints/epoch_12.pt \
  --repo-id laion/CLIP-convnext_large_d_320.laion2B-s29B-b131K-ft