论文解读 DM0: 面向物理 AI 的具身原生视觉语言动作模型 | 极客日志

编程语言AI算法

论文解读 DM0: 面向物理 AI 的具身原生视觉语言动作模型

DM0 是一种面向物理 AI 的具身原生视觉语言动作（VLA）框架。它摒弃了传统的互联网预训练后微调范式，采用统一预训练策略整合网络文本、自动驾驶日志及具身交互数据。核心创新包括混合梯度策略以解耦动作专家与 VLM 语义学习，以及具身空间脚手架构建空间思维链推理。实验表明，DM0 在 RoboChallenge 基准上超越 Spirit-v1.5 和 π0.5，实现了更高的任务成功率，验证了内建多源物理先验的有效性。

接口猎人发布于 2026/4/6更新于 2026/7/2156 浏览

摘要

DM0 提出了一种具身原生的视觉语言动作（VLA）框架，旨在解决传统互联网预训练模型适配物理任务缺乏内在物理感知的问题。通过三阶段训练流程（预训练、中期训练、后训练），结合混合梯度策略与具身空间脚手架技术，DM0 在 RoboChallenge 基准测试中实现了专家设置 62% 和通用设置 37.3% 的成功率，优于 Spirit-v1.5 和 π0.5 等基线模型。

结论

DM0 从根本上重新思考了通用机器人策略的开发。与传统范式不同，DM0 通过统一预训练策略整合网络语料、自动驾驶日志及具身轨迹，从初始阶段即融入物理 grounding。核心创新包括解耦动作专家学习的混合梯度策略，以及利用空间思维链推理复杂物理任务的具身空间脚手架机制。实验结果验证了构建具有内在多源物理先验的 VLA 模型是通往鲁棒物理 AI 的有效路径。

未来工作

尽管 DM0 建立了强基线，仍有探索方向：

规模化：计划训练 7B 或 30B 参数模型，结合仿真与真实数据观察涌现能力。
多模态感知：整合触觉、音频、深度信息进入统一预训练阶段。
长程推理与世界模型：集成世界模型能力以支持更长时间跨度的规划。

论文概述

标题: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI

核心贡献: 提出了一种'具身原生'（Embodied-Native）的 VLA 框架，改变了将互联网预训练模型适配到物理任务的传统范式。

1. 研究背景与动机

1.1 现有方法的局限性

当前 VLA 研究主要遵循'预训练 - 然后适配'（Pretrain-then-Adapt）范式：

模型首先在静态互联网数据（如图文对）上预训练
然后在有限的具身数据上微调

关键问题:

缺乏内在物理感知（Lacks intrinsic physical grounding）
模块碎片化（Module fragmentation）：导航与操作分离
灾难性遗忘（Catastrophic forgetting）：追求运动技能时会损害模型的通用推理能力

1.2 核心观点

真正的通用机器人需要一个'具身原生'框架——从训练初期就将具身感知运动数据与语言和视觉数据统一对待。

2. 方法论详解

2.1 三阶段训练流程

┌─────────────────────────────────────────────────────────────┐
│ Stage 1: Pretraining (预训练)                               │
│ • 数据：1.13T tokens                                        │
│ • 目标：学习通用视觉 - 语言能力 + 物理先验知识

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

\pi_{\theta}(\hat{l}, \mathbf{a}_{t:t+H} | \mathbf{o}_t, l) = \pi_{\theta}(\hat{l} | \mathbf{o}_t, l) \cdot \pi_{\theta}(\mathbf{a}_{t:t+H} | \mathbf{o}_t, l, \hat{l})

\mathcal{L}_{\text{total}}(\theta) = \lambda \mathcal{L}_{\text{AR}}(\theta) + \mathcal{L}_{\text{FM}}(\theta)

层级	任务	功能
1	子任务预测 (Subtask)	将整体任务分解为可解释的步骤序列
2	目标边界框预测 (Target BBox)	在视觉观察中定位目标对象
3	末端执行器轨迹预测 (EEF Trajectory)	预测主相机视角下的未来轨迹
4	离散动作预测 (Discrete Action)	预测表示机器人控制的离散 token
5	连续动作输出 (Continuous Action)	最终生成可执行的动作序列

类别	占比	内容描述
Vision-Language	91.0%	Web-sourced 交错数据、图文对（LAION, COYO 等）
Web-sourced	18.5%	Common Crawl, StepCrawl, 关键词搜索
Knowledge	6.5%	常识知识、物体识别
OCR	2.0%	图像转文本、文档理解、代码生成
Education	1.0%	K-12、大学、成人教育材料
Grounding	0.9%	边界框、点级定位、计数
VQA	0.3%	视觉问答
GUI	0.2%	界面描述、轨迹、元素定位
Navigation	0.5%	导航轨迹（Habitat）
Embodied	0.6%	物体/区域定位、空间关系描述

Vision-Language (31.5%)
├── Cambrian-737k
├── Cambrian-10M (过滤后)
├── LLaVA OneVision 1.5
└── 自收集多模态数据
Embodied Reasoning (ER) (7.2%)
├── 任务分解
├── 子任务预测
├── 动作 QA
├── 时间推理
└── 任务进度估计
Simulation Data (17.7%)
├── LIBERO (4 个任务)
├── RoboTwin 2.0 (50 个任务)
└── Habitat 自收集导航轨迹
Single-Arm Data (23.9%)
├── 自收集数据 (Franka, UR5, ARX-5, UMI)
└── 开源数据 (OXE, Fuse)
Dual-Arm Data (19.7%)
├── 自收集 ALOHA 数据
└── 开源数据 (RoboMind, Agibot Alpha, Galaxea)

模型	参数量	平均成功率
DM0	2B	62.00% ⭐
Spirit-v1.5	4B	51.00%
GigaBrain-0.1	3B	51.67%
π0.5	3B	42.67%

模型	参数量	成功率/任务分数
DM0	2B	37.3 / 49.08 ⭐
π0.5	3B	17.67 / 31.27
π0	3B	9.0 / 20.22

方向	具体计划
规模化	训练 7B 或 30B 参数模型，结合仿真与真实世界数据
多模态感知	整合触觉反馈、音频、深度信息到统一预训练阶段
世界模型	集成世界模型能力，实现动作后果的心理模拟
长程规划	增强长时域推理和规划能力

论文解读 DM0: 面向物理 AI 的具身原生视觉语言动作模型

论文概述

1. 研究背景与动机

1.1 现有方法的局限性

1.2 核心观点

2. 方法论详解

2.1 三阶段训练流程

更多推荐文章

相关免费在线工具

2.2 模型架构

(1) VLM 主干网络

(2) Flow Matching 动作专家

2.3 关键技术创新

创新点 1: 混合梯度策略（Hybrid Training）

创新点 2: 具身空间脚手架（Embodied Spatial Scaffolding）

3. 数据策略详解

3.1 预训练数据构成（1.13T tokens）

3.2 中期训练数据构成（200M samples）

3.3 数据处理技术

4. 实验结果分析

4.1 评估基准：RoboChallenge

4.2 主要结果

Specialist 设置（专家模型）

Generalist 设置（通用模型）

4.3 多模态理解能力

5. 技术贡献总结

5.1 理论贡献

5.2 工程贡献

6. 局限性与未来工作

6.1 当前局限

6.2 未来方向

7. 结论

更多推荐文章

相关免费在线工具

论文解读 DM0: 面向物理 AI 的具身原生视觉语言动作模型

论文概述

1. 研究背景与动机

1.1 现有方法的局限性

1.2 核心观点

2. 方法论详解

2.1 三阶段训练流程

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 模型架构

(1) VLM 主干网络

(2) Flow Matching 动作专家

2.3 关键技术创新

创新点 1: 混合梯度策略（Hybrid Training）

创新点 2: 具身空间脚手架（Embodied Spatial Scaffolding）

3. 数据策略详解

3.1 预训练数据构成（1.13T tokens）

3.2 中期训练数据构成（200M samples）

3.3 数据处理技术

4. 实验结果分析

4.1 评估基准：RoboChallenge

4.2 主要结果

Specialist 设置（专家模型）

Generalist 设置（通用模型）

4.3 多模态理解能力

5. 技术贡献总结

5.1 理论贡献

5.2 工程贡献

6. 局限性与未来工作

6.1 当前局限

6.2 未来方向

7. 结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具