DINOv3 下载与使用

Meta 开源视觉基础模型 DINOv3

2025 年 8 月 14 日，Meta 发布了 DINOv3。它是一套通用视觉基础模型，重点放在高质量、高分辨率的视觉表征上，适合图像分类、目标检测、语义分割等多种任务。DINOv3 提供了多种模型变体，既有面向高性能场景的大模型，也有更轻量的版本，方便按算力条件选用。

1. DINOv3 能做什么

DINOv3 的特点很明确：

能提取高分辨率视觉特征，适合细粒度图像理解。
支持多任务使用，很多场景下不必为每个任务单独微调主干网络。
适用范围不局限于自然图像，也能扩展到卫星影像、医学影像等领域。
提供多种模型结构，包括 ViT 和 ConvNeXt 变体，覆盖不同的部署需求。

从技术路线看，DINOv3 依然建立在自监督学习之上。它不依赖人工标注，而是从海量无标注图像中学习通用表征；同时引入了 Gram Anchoring、RoPE 等设计，用来缓解密集特征坍缩、提升不同分辨率输入下的适应性。对于需要在有限标注条件下做视觉建模的团队来说，这种路线很实用。

2. 获取 DINOv3

DINOv3 的项目主页、代码仓库、Hugging Face 集合和论文都已经公开。实际使用时，通常需要先申请模型权重，获批后会收到包含各个权重文件 URL 的邮件。拿到 URL 后，可以把权重下载到本地，再通过 torch.hub.load() 加载；也可以直接让 torch.hub.load() 通过 URL 拉取。

官方也明确建议使用 wget 下载权重，而不是直接用浏览器保存，避免文件不完整或传输中断。

3. 预训练模型的加载方式

DINOv3 的预训练主干网络既可以通过 PyTorch Hub 加载，也可以通过 Hugging Face Transformers 调用。

通过 PyTorch Hub 加载时，核心思路很简单：先把仓库克隆到本地，再用 torch.hub.load() 指定模型名和权重路径即可。常见的模型包括：

dinov3_vits16
dinov3_vits16plus
dinov3_vitb16
dinov3_vitl16
dinov3_vith16plus
dinov3_vit7b16
dinov3_convnext_tiny
dinov3_convnext_small
dinov3_convnext_base
dinov3_convnext_large

如果你更习惯 Hugging Face 的接口，也可以直接用 pipeline 或 AutoModel 取图像特征。这里的优势是接入成本低，尤其适合快速验证效果。

from transformers import pipeline
from transformers.image_utils import load_image

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg"
image = load_image(url)

feature_extractor = pipeline(
    model="facebook/dinov3-convnext-tiny-pretrain-lvd1689m",
    task="image-feature-extraction",
)
features = feature_extractor(image)

如果想拿到池化后的输出，也可以直接走 AutoImageProcessor 和：

Meta 开源视觉基础模型 DINOv3

1. DINOv3 能做什么

2. 获取 DINOv3

3. 预训练模型的加载方式

更多推荐文章

相关免费在线工具

4. 图像预处理要跟权重匹配

5. 预训练检测器与下游头

6. 安装环境与快速上手

7. 训练、蒸馏与评估

8. 小结

更多推荐文章

相关免费在线工具

DINOv3 下载与使用

Meta 开源视觉基础模型 DINOv3

1. DINOv3 能做什么

2. 获取 DINOv3

3. 预训练模型的加载方式

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 图像预处理要跟权重匹配

5. 预训练检测器与下游头

6. 安装环境与快速上手

7. 训练、蒸馏与评估

8. 小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具