Meta DINOv3 视觉基础模型：下载、安装与快速上手

Meta DINOv3 简介

2025 年 8 月 14 日，Meta 正式发布了 DINOv3。这是一个通用的、SOTA（State-of-the-Art）级别的视觉基础模型。它通过无标注数据训练，生成高质量的高分辨率视觉特征，适用于图像分类、语义分割、目标检测等多种任务。DINOv3 拥有 70 亿参数，训练数据量达 17 亿张图像，性能全面超越弱监督模型。模型支持多种变体以适应不同的计算需求，开源的训练代码和预训练模型为计算机视觉研究和应用开发提供了强大支持。

DINOv3 架构概览

功能概览

主要功能

高分辨率视觉特征提取：生成高质量、高分辨率的视觉特征，支持精细的图像解析与多种视觉任务。
无需微调的多任务支持：单次前向传播可同时支持多个下游任务，无需微调，显著降低推理成本。
广泛的适用性：适用于网络图像、卫星图像、医学影像等多领域，特别适合标注稀缺场景。
多样化的模型变体：提供多种模型变体（如 ViT-B、ViT-L 及 ConvNeXt 架构），适应不同计算资源需求。

技术原理

自监督学习（SSL）：利用对比学习从大量无标注图像中学习通用视觉特征，大幅降低数据准备成本并提高泛化能力。
Gram Anchoring 策略：有效缓解密集特征的坍缩问题，生成更清晰、语义一致的特征图，提升高分辨率任务表现。
旋转位置编码（RoPE）：避免固定位置编码限制，天然适应不同分辨率输入，处理多尺度图像更灵活高效。
模型蒸馏：将大型模型知识迁移到更小变体中，保留性能的同时提高部署效率。

下载地址

项目主页：https://ai.meta.com/dinov3/

代码仓库：github-dinov3，huggingface-dinov3

研究论文：arXiv-DINOv3，meta-DINOv3

DINOv3 生态图

预训练模型加载

获取权重

请通过官方链接申请获取所有模型权重。获批后系统将发送邮件包含完整 URL 列表。获得 URL 后，您可以下载到本地或通过 torch.hub.load() 在线加载。

⚠️ 建议使用 wget 而非浏览器下载权重。

Model	Parameters	PretrainingDataset	Download
ViT-S/16 distilled	21M	LVD-1689M	link
ViT-S+/16 distilled	29M	LVD-1689M	link
ViT-B/16 distilled	86M	LVD-1689M	link
ViT-L/16 distilled	300M	LVD-1689M	link
ViT-H+/16 distilled	840M	LVD-1689M	link
ViT-7B/16	6,716M	LVD-1689M	link

Meta DINOv3 视觉基础模型：下载、安装与快速上手

Meta DINOv3 简介

功能概览

下载地址

预训练模型加载

获取权重

更多推荐文章

相关免费在线工具

PyTorch Hub 加载

Hugging Face 加载

图像变换

预训练检测器

图像分类（ImageNet）

目标检测（COCO2017）

语义分割（ADE20K）

零样本文本对齐（dino.txt）

安装与使用

环境配置

快速上手

训练、蒸馏与评估

模型训练

模型蒸馏

模型评估

官方报道摘要

引用

更多推荐文章

相关免费在线工具

Meta DINOv3 视觉基础模型：下载、安装与快速上手

Meta DINOv3 简介

功能概览

下载地址

预训练模型加载

获取权重

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

PyTorch Hub 加载

Hugging Face 加载

图像变换

预训练检测器

图像分类（ImageNet）

目标检测（COCO2017）

语义分割（ADE20K）

零样本文本对齐（dino.txt）

安装与使用

环境配置

快速上手

训练、蒸馏与评估

模型训练

模型蒸馏

模型评估

官方报道摘要

引用

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具