摘要
DM0 提出了一种具身原生的视觉语言动作(VLA)框架,旨在解决传统互联网预训练模型适配物理任务缺乏内在物理感知的问题。通过三阶段训练流程(预训练、中期训练、后训练),结合混合梯度策略与具身空间脚手架技术,DM0 在 RoboChallenge 基准测试中实现了专家设置 62% 和通用设置 37.3% 的成功率,优于 Spirit-v1.5 和 π0.5 等基线模型。
结论
DM0 从根本上重新思考了通用机器人策略的开发。与传统范式不同,DM0 通过统一预训练策略整合网络语料、自动驾驶日志及具身轨迹,从初始阶段即融入物理 grounding。核心创新包括解耦动作专家学习的混合梯度策略,以及利用空间思维链推理复杂物理任务的具身空间脚手架机制。实验结果验证了构建具有内在多源物理先验的 VLA 模型是通往鲁棒物理 AI 的有效路径。

