摘要
DM0 提出了一种具身原生的视觉语言动作(VLA)框架,旨在解决传统互联网预训练模型适配物理任务缺乏内在物理感知的问题。通过三阶段训练流程(预训练、中期训练、后训练),结合混合梯度策略与具身空间脚手架技术,DM0 在 RoboChallenge 基准测试中实现了专家设置 62% 和通用设置 37.3% 的成功率,优于 Spirit-v1.5 和 π0.5 等基线模型。
结论
DM0 从根本上重新思考了通用机器人策略的开发。与传统范式不同,DM0 通过统一预训练策略整合网络语料、自动驾驶日志及具身轨迹,从初始阶段即融入物理 grounding。核心创新包括解耦动作专家学习的混合梯度策略,以及利用空间思维链推理复杂物理任务的具身空间脚手架机制。实验结果验证了构建具有内在多源物理先验的 VLA 模型是通往鲁棒物理 AI 的有效路径。
未来工作
尽管 DM0 建立了强基线,仍有探索方向:
- 规模化:计划训练 7B 或 30B 参数模型,结合仿真与真实数据观察涌现能力。
- 多模态感知:整合触觉、音频、深度信息进入统一预训练阶段。
- 长程推理与世界模型:集成世界模型能力以支持更长时间跨度的规划。
论文概述
标题: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
核心贡献: 提出了一种'具身原生'(Embodied-Native)的 VLA 框架,改变了将互联网预训练模型适配到物理任务的传统范式。
1. 研究背景与动机
1.1 现有方法的局限性
当前 VLA 研究主要遵循'预训练 - 然后适配'(Pretrain-then-Adapt)范式:
- 模型首先在静态互联网数据(如图文对)上预训练
- 然后在有限的具身数据上微调
关键问题:
- 缺乏内在物理感知(Lacks intrinsic physical grounding)
- 模块碎片化(Module fragmentation):导航与操作分离
- 灾难性遗忘(Catastrophic forgetting):追求运动技能时会损害模型的通用推理能力
1.2 核心观点
真正的通用机器人需要一个'具身原生'框架——从训练初期就将具身感知运动数据与语言和视觉数据统一对待。
2. 方法论详解
2.1 三阶段训练流程
┌─────────────────────────────────────────────────────────────┐
│ Stage 1: Pretraining (预训练) │
│ • 数据:1.13T tokens │
│ • 目标:学习通用视觉 - 语言能力 + 物理先验知识

