Meta 开源视觉基础模型 DINOv3
2025 年 8 月 14 日,Meta 发布了 DINOv3。它是一套通用视觉基础模型,重点放在高质量、高分辨率的视觉表征上,适合图像分类、目标检测、语义分割等多种任务。DINOv3 提供了多种模型变体,既有面向高性能场景的大模型,也有更轻量的版本,方便按算力条件选用。
1. DINOv3 能做什么
DINOv3 的特点很明确:
- 能提取高分辨率视觉特征,适合细粒度图像理解。
- 支持多任务使用,很多场景下不必为每个任务单独微调主干网络。
- 适用范围不局限于自然图像,也能扩展到卫星影像、医学影像等领域。
- 提供多种模型结构,包括 ViT 和 ConvNeXt 变体,覆盖不同的部署需求。
从技术路线看,DINOv3 依然建立在自监督学习之上。它不依赖人工标注,而是从海量无标注图像中学习通用表征;同时引入了 Gram Anchoring、RoPE 等设计,用来缓解密集特征坍缩、提升不同分辨率输入下的适应性。对于需要在有限标注条件下做视觉建模的团队来说,这种路线很实用。
2. 获取 DINOv3
DINOv3 的项目主页、代码仓库、Hugging Face 集合和论文都已经公开。实际使用时,通常需要先申请模型权重,获批后会收到包含各个权重文件 URL 的邮件。拿到 URL 后,可以把权重下载到本地,再通过 torch.hub.load() 加载;也可以直接让 torch.hub.load() 通过 URL 拉取。
官方也明确建议使用 wget 下载权重,而不是直接用浏览器保存,避免文件不完整或传输中断。
3. 预训练模型的加载方式
DINOv3 的预训练主干网络既可以通过 PyTorch Hub 加载,也可以通过 Hugging Face Transformers 调用。
通过 PyTorch Hub 加载时,核心思路很简单:先把仓库克隆到本地,再用 torch.hub.load() 指定模型名和权重路径即可。常见的模型包括:
dinov3_vits16dinov3_vits16plusdinov3_vitb16dinov3_vitl16dinov3_vith16plusdinov3_vit7b16dinov3_convnext_tinydinov3_convnext_smalldinov3_convnext_basedinov3_convnext_large
如果你更习惯 Hugging Face 的接口,也可以直接用 pipeline 或 AutoModel 取图像特征。这里的优势是接入成本低,尤其适合快速验证效果。
from transformers import pipeline
from transformers.image_utils import load_image
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg"
image = load_image(url)
feature_extractor = pipeline(
model="facebook/dinov3-convnext-tiny-pretrain-lvd1689m",
task="image-feature-extraction",
)
features = feature_extractor(image)
如果想拿到池化后的输出,也可以直接走 AutoImageProcessor 和 :


