Meta DINOv3 视觉基础模型：下载与使用指南 | 极客日志

PythonAI算法

Meta DINOv3 视觉基础模型：下载与使用指南

综述由AI生成Meta DINOv3 是 Meta 推出的通用视觉基础模型，具备高分辨率特征提取能力，支持图像分类、语义分割、目标检测等多任务。文章涵盖模型功能与技术原理，提供预训练模型下载途径，演示通过 PyTorch Hub 和 Hugging Face 加载主干网络的方法，并包含图像变换、预训练检测器使用示例。此外还介绍了模型训练、蒸馏、评估流程及官方资源获取方式。

晚风叙旧发布于 2026/3/30更新于 2026/6/524 浏览

Meta 开源视觉基础模型 DINOv3

2025 年 8 月 14 日，Meta 重磅发布 DINOv3。

DINOv3 是 Meta 推出的通用的、SOTA 级的视觉基础模型。模型通过无标注数据训练，生成高质量的高分辨率视觉特征，适用图像分类、语义分割、目标检测等多任务。DINOv3 拥有 70 亿参数，训练数据量达 17 亿张图像，性能全面超越弱监督模型，模型支持多种模型变体适应不同计算需求。DINOv3 开源的训练代码和预训练模型，为计算机视觉研究和应用开发提供强大支持。

1.1 DINOv3 功能概览

DINOv3 的主要功能

高分辨率视觉特征提取：生成高质量、高分辨率的视觉特征，支持精细的图像解析与多种视觉任务。
无需微调的多任务支持：单次前向传播可同时支持多个下游任务，无需微调，显著降低推理成本。
广泛的适用性：适用网络图像、卫星图像、医学影像等多领域，支持标注稀缺场景。
多样化的模型变体：提供多种模型变体（如 ViT-B、ViT-L 及 ConvNeXt 架构），适应不同计算资源需求。

DINOv3 的技术原理

自监督学习（SSL）：用自监督学习技术，无需标注数据即可训练模型。通过对比学习，模型从大量无标注图像中学习到通用的视觉特征。大幅降低数据准备的成本和时间，同时提高模型的泛化能力。
Gram Anchoring 策略：引入 Gram Anchoring 策略，有效缓解密集特征的坍缩问题，生成更清晰、更语义一致的特征图，使模型在高分辨率图像任务中表现更为出色。
旋转位置编码（RoPE）：用旋转位置编码（RoPE），避免固定位置编码的限制，能天然适应不同分辨率的输入，让模型在处理不同尺度的图像时更加灵活和高效。
模型蒸馏：基于模型蒸馏技术，将大型模型（如 ViT-7B）的知识迁移到更小的模型变体中（如 ViT-B 和 ViT-L）。保留大型模型的性能，提高模型的部署效率，适用不同的计算资源需求。

1.2 DINOv3 下载地址

项目地址：https://ai.meta.com/dinov3/

代码路径：github-dinov3 (https://github.com/facebookresearch/dinov3)，huggingface-dinov3 (https://huggingface.co/collections/facebook/dinov3-68924841bd6b561778e31009)

研究论文：arXiv-DINOv3 (https://arxiv.org/pdf/2508.10104)，meta-DINOv3 (https://ai.meta.com/research/publications/dinov3/)

2. DINOv3 预训练模型

2.1 下载 DINOv3 预训练模型

请通过下方链接申请获取所有模型权重：获批后，系统将发送一封电子邮件，内含指向全部可用权重（含主干网络与适配器）的完整 URL 列表。获得这些 URL 后，您可：

将模型或适配器权重下载至本地文件系统，再通过 weights 或 backbone_weights 参数将 torch.hub.load() 指向这些本地权重；
也可直接调用 torch.hub.load()，通过 weights 或 backbone_weights 参数从 URL 在线下载并加载主干网络或适配器。

请使用 wget 而非网页浏览器下载权重。

基于网络数据集（LVD-1689M）预训练的 ViT 模型：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import torch
REPO_DIR = "<PATH/TO/A/LOCAL/DIRECTORY/WHERE/THE/DINOV3/REPO/WAS/CLONED>"
# DINOv3 ViT models pretrained on web images
dinov3_vits16 = torch.hub.load(REPO_DIR, 'dinov3_vits16', source='local', weights="<CHECKPOINT/URL/OR/PATH>")
dinov3_vits16plus = torch.hub.load(REPO_DIR, 'dinov3_vits16plus', source='local', weights="<CHECKPOINT/URL/OR/PATH>")
dinov3_vitb16 = torch.hub.load(REPO_DIR, 'dinov3_vitb16', source='local', weights="<CHECKPOINT/URL/OR/PATH>")
dinov3_vitl16 = torch.hub.load(REPO_DIR, 'dinov3_vitl16', source='local', weights="<CHECKPOINT/URL/OR/PATH>")
dinov3_vith16plus = torch.hub.load(REPO_DIR, 'dinov3_vith16plus', source='local', weights="<CHECKPOINT/URL/OR/PATH>")
dinov3_vit7b16 = torch.hub.load(REPO_DIR, 'dinov3_vit7b16', source='local', weights="<CHECKPOINT/URL/OR/PATH>")
# DINOv3 ConvNeXt models pretrained on web images
dinov3_convnext_tiny = torch.hub.load(REPO_DIR, 'dinov3_convnext_tiny', source='local', weights="<CHECKPOINT/URL/OR/PATH>")
dinov3_convnext_small = torch.hub.load(REPO_DIR, 'dinov3_convnext_small', source='local', weights="<CHECKPOINT/URL/OR/PATH>")
dinov3_convnext_base = torch.hub.load(REPO_DIR, 'dinov3_convnext_base', source='local', weights="<CHECKPOINT/URL/OR/PATH>")
dinov3_convnext_large = torch.hub.load(REPO_DIR, 'dinov3_convnext_large', source='local', weights="<CHECKPOINT/URL/OR/PATH>")
# DINOv3 ViT models pretrained on satellite imagery
dinov3_vitl16_sat = torch.hub.load(REPO_DIR, 'dinov3_vitl16', source='local', weights="<CHECKPOINT/URL/OR/PATH>")
dinov3_vit7b16_sat = torch.hub.load(REPO_DIR, 'dinov3_vit7b16', source='local', weights="<CHECKPOINT/URL/OR/PATH>")

from transformers import pipeline
from transformers.image_utils import load_image
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg"
image = load_image(url)
feature_extractor = pipeline(
    model="facebook/dinov3-convnext-tiny-pretrain-lvd1689m",
    task="image-feature-extraction",
)
features = feature_extractor(image)

import torch
from transformers import AutoImageProcessor, AutoModel
from transformers.image_utils import load_image
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = load_image(url)
pretrained_model_name = "facebook/dinov3-convnext-tiny-pretrain-lvd1689m"
processor = AutoImageProcessor.from_pretrained(pretrained_model_name)
model = AutoModel.from_pretrained(
    pretrained_model_name,
    device_map="auto",
)
inputs = processor(images=image, return_tensors="pt").to(model.device)
with torch.inference_mode():
    outputs = model(**inputs)
    pooled_output = outputs.pooler_output
    print("Pooled output shape:", pooled_output.shape)

import torchvision
from torchvision.transforms import v2

def make_transform(resize_size: int = 256):
    to_tensor = v2.ToImage()
    resize = v2.Resize((resize_size, resize_size), antialias=True)
    to_float = v2.ToDtype(torch.float32, scale=True)
    normalize = v2.Normalize(
        mean=(0.485, 0.456, 0.406),
        std=(0.229, 0.224, 0.225),
    )
    return v2.Compose([to_tensor, resize, to_float, normalize])

import torchvision
from torchvision.transforms import v2

def make_transform(resize_size: int = 256):
    to_tensor = v2.ToImage()
    resize = v2.Resize((resize_size, resize_size), antialias=True)
    to_float = v2.ToDtype(torch.float32, scale=True)
    normalize = v2.Normalize(
        mean=(0.430, 0.411, 0.296),
        std=(0.213, 0.156, 0.143),
    )
    return v2.Compose([to_tensor, resize, to_float, normalize])

Backbone	PretrainingDataset	HeadDataset	Download
ViT-7B/16	LVD-1689M	ImageNet	link

import torch
# DINOv3
dinov3_vit7b16_lc = torch.hub.load(REPO_DIR, 'dinov3_vit7b16_lc', source="local", weights="<DEPTHER/CHECKPOINT/URL/OR/PATH>", backbone_weights="<BACKBONE/CHECKPOINT/URL/OR/PATH>")

Backbone	PretrainingDataset	HeadDataset	Download
ViT-7B/16	LVD-1689M	COCO2017	link

detector = torch.hub.load(REPO_DIR, 'dinov3_vit7b16_de', source="local", weights="<DETECTOR/CHECKPOINT/URL/OR/PATH>", backbone_weights="<BACKBONE/CHECKPOINT/URL/OR/PATH>")

Backbone	PretrainingDataset	HeadDataset	Download
ViT-7B/16	LVD-1689M	ADE20K	link

segmentor = torch.hub.load(REPO_DIR, 'dinov3_vit7b16_ms', source="local", weights="<SEGMENTOR/CHECKPOINT/URL/OR/PATH>", backbone_weights="<BACKBONE/CHECKPOINT/URL/OR/PATH>")

import sys
sys.path.append(REPO_DIR)
from PIL import Image
import torch
from torchvision import transforms
import matplotlib.pyplot as plt
from matplotlib import colormaps
from functools import partial
from dinov3.eval.segmentation.inference import make_inference

def get_img():
    import requests
    url = "http://images.cocodataset.org/val2017/000000039769.jpg"
    image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
    return image

def make_transform(resize_size: int | list[int] = 768):
    to_tensor = v2.ToImage()
    resize = v2.Resize((resize_size, resize_size), antialias=True)
    to_float = v2.ToDtype(torch.float32, scale=True)
    normalize = v2.Normalize(
        mean=(0.485, 0.456, 0.406),
        std=(0.229, 0.224, 0.225),
    )
    return v2.Compose([to_tensor, resize, to_float, normalize])

segmentor = torch.hub.load(REPO_DIR, 'dinov3_vit7b16_ms', source="local", weights="<SEGMENTOR/CHECKPOINT/URL/OR/PATH>", backbone_weights="<BACKBONE/CHECKPOINT/URL/OR/PATH>")
img_size = 896
img = get_img()
transform = make_transform(img_size)
with torch.inference_mode():
    with torch.autocast('cuda', dtype=torch.bfloat16):
        batch_img = transform(img)[None]
        pred_vit7b = segmentor(batch_img)
        # raw predictions
        # actual segmentation map
        segmentation_map_vit7b = make_inference(
            batch_img, segmentor, inference_mode="slide",
            decoder_head_type="m2f", rescale_to=(img.size[-1], img.size[-2]),
            n_output_channels=150, crop_size=(img_size, img_size),
            stride=(img_size, img_size),
            output_activation=partial(torch.nn.functional.softmax, dim=1),
        ).argmax(dim=1, keepdim=True)
        plt.figure(figsize=(12, 6))
        plt.subplot(121)
        plt.imshow(img)
        plt.axis("off")
        plt.subplot(122)
        plt.imshow(segmentation_map_vit7b[0, 0].cpu(), cmap=colormaps["Spectral"])
        plt.axis("off")

Backbone	Download
ViT-L/16 distilled	link

import torch
# DINOv3
dinov3_vitl16_dinotxt_tet1280d20h24l, tokenizer = torch.hub.load(REPO_DIR, 'dinov3_vitl16_dinotxt_tet1280d20h24l', weights="<SEGMENTOR/CHECKPOINT/URL/OR/PATH>", backbone_weights="<BACKBONE/CHECKPOINT/URL/OR/PATH>")

micromamba env create -f conda.yaml
micromamba activate dinov3

PYTHONPATH=${PWD} python -m dinov3.run.submit dinov3/train/train.py \
 --nodes 4 \
 --config-file dinov3/configs/train/vitl_im1k_lin834.yaml \
 --output-dir <PATH/TO/OUTPUT/DIR> \
 train.dataset_path=ImageNet22k:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET>

PYTHONPATH=${PWD} python -m dinov3.run.submit dinov3/train/train.py \
 --nodes 1 \
 --config-file dinov3/configs/train/multi_distillation_test.yaml \
 --output-dir <PATH/TO/OUTPUT/DIR> \
 --multi-distillation \
 train.dataset_path=<DATASET>:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET>

PYTHONPATH=${PWD} python -m dinov3.run.submit dinov3/eval/log_regression.py \
 model.config_file=<PATH/TO/OUTPUT/DIR>/config.yaml \
 model.pretrained_weights=<PATH/TO/OUTPUT/DIR>/teacher_checkpoint.pth \
 output_dir=<PATH/TO/OUTPUT/DIR> \
 train.dataset=ImageNet:split=TRAIN:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET> \
 eval.test_dataset=ImageNet:split=VAL:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET>

PYTHONPATH=${PWD} python -m dinov3.run.submit dinov3/eval/knn.py \
 model.config_file=<PATH/TO/OUTPUT/DIR>/config.yaml \
 model.pretrained_weights=<PATH/TO/OUTPUT/DIR>/teacher_checkpoint.pth \
 output_dir=<PATH/TO/OUTPUT/DIR> \
 train.dataset=ImageNet:split=TRAIN:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET> \
 eval.test_dataset=ImageNet:split=VAL:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET>

PYTHONPATH=${PWD} python -m dinov3.run.submit dinov3/eval/linear.py \
 model.config_file=<PATH/TO/OUTPUT/DIR>/config.yaml \
 model.pretrained_weights=<PATH/TO/OUTPUT/DIR>/teacher_checkpoint.pth \
 output_dir=<PATH/TO/OUTPUT/DIR> \
 train.dataset=ImageNet:split=TRAIN:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET> \
 train.val_dataset=ImageNet:split=VAL:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET>

PYTHONPATH=${PWD} python -m dinov3.run.submit dinov3/eval/text/train_dinotxt.py \
 --nodes 4 \
 # An example config for text alignment is here: dinov3/eval/text/configs/dinov3_vitl_text.yaml \
 trainer_config_file="<PATH/TO/DINOv3/TEXT/CONFIG>" \
 output-dir=<PATH/TO/OUTPUT/DIR>

@misc{simeoni2025dinov3,
  title={{DINOv3}},
  author={Sim{\'e}oni, Oriane and Vo, Huy V. and Seitzer, Maximilian and Baldassarre, Federico and Oquab, Maxime and Jose, Cijo and Khalidov, Vasil and Szafraniec, Marc and Yi, Seungeun and Ramamonjisoa, Micha{"e}l and Massa, Francisco and Haziza, Daniel and Wehrstedt, Luca and Wang, Jianyuan and Darcet, Timoth{\'e}e and Moutakanni, Th{\'e}o and Sentana, Leonel and Roberts, Claire and Vedaldi, Andrea and Tolan, Jamie and Brandt, John and Couprie, Camille and Mairal, Julien and J{\'e}gou, Herv{\'e} and Labatut, Patrick and Bojanowski, Piotr},
  year={2025},
  eprint={2508.10104},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2508.10104},
}

Meta DINOv3 视觉基础模型：下载与使用指南

Meta 开源视觉基础模型 DINOv3

1.1 DINOv3 功能概览

1.2 DINOv3 下载地址

2. DINOv3 预训练模型

2.1 下载 DINOv3 预训练模型

更多推荐文章

相关免费在线工具

2.2 预训练主干网络（通过 PyTorch Hub 加载）

2.3 通过 Hugging Face 提供的预训练主干网络

2.4 图像变换

2.5 预训练检测器

2.5.1 在 ImageNet 数据集训练的图像分类检测器

2.5.2 在 Coco2017 数据集训练的目标检测器

2.5.3 在 ADE20K 数据集训练的语义分割检测器

2.5.4 基于 dino.txt 的零样本任务检测器

3. 安装与使用 DINOv3

3.1 安装 DINOv3

3.2 快速使用 DINOv3

4. DINOv3 模型训练、蒸馏与评估

4.1 DINOv3 模型训练

4.2 DINOv3 模型蒸馏

4.3 DINOv3 模型评估

5. DINOv3 官方报道

引用标注

更多推荐文章

相关免费在线工具

ViT-S/16 distilled	21M	LVD-1689M	link
ViT-S+/16 distilled	29M	LVD-1689M	link
ViT-B/16 distilled	86M	LVD-1689M	link
ViT-L/16 distilled	300M	LVD-1689M	link
ViT-H+/16 distilled	840M	LVD-1689M	link
ViT-7B/16	6,716M	LVD-1689M	link

Meta DINOv3 视觉基础模型：下载与使用指南

Meta 开源视觉基础模型 DINOv3

1.1 DINOv3 功能概览

1.2 DINOv3 下载地址

2. DINOv3 预训练模型

2.1 下载 DINOv3 预训练模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 预训练主干网络（通过 PyTorch Hub 加载）

2.3 通过 Hugging Face 提供的预训练主干网络

2.4 图像变换

2.5 预训练检测器

2.5.1 在 ImageNet 数据集训练的图像分类检测器

2.5.2 在 Coco2017 数据集训练的目标检测器

2.5.3 在 ADE20K 数据集训练的语义分割检测器

2.5.4 基于 dino.txt 的零样本任务检测器

3. 安装与使用 DINOv3

3.1 安装 DINOv3

3.2 快速使用 DINOv3

4. DINOv3 模型训练、蒸馏与评估

4.1 DINOv3 模型训练

4.2 DINOv3 模型蒸馏

4.3 DINOv3 模型评估

5. DINOv3 官方报道

引用标注

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具