概述
DM0 是由 Dexmal & StepFun 团队提出的一种面向具身智能、旨在统一操作与导航的原生视觉 - 语言 - 动作(VLA)框架。该模型在 RoboChallenge 基准的 30 多个桌面级任务中取得了最高综合得分,成为首个同时拿下'单任务'和'多任务'双榜第一的具身大模型。
第一部分
1.1 提出背景与 DM0 的提出
1.1.1 提出背景
如原论文所述,目前的 VLA 研究主要遵循'预训练 - 再适应'范式。通常,模型首先仅在大规模静态互联网数据集上进行预训练,随后在有限的实体数据上进行微调。尽管这种方法能够实现语义对齐,但它存在一个关键局限:模型缺乏内在的物理基础。原因在于互联网数据提供语义知识,但无法捕捉物理交互的动态性、连续性和空间性。因此,针对这些'互联网原生'模型的适应,往往导致明显的模块碎片化,或灾难性遗忘。
作者认为,真正的通用体机器人需要实体原生框架。这意味着从头对模型进行训练,以统一的视角将具身传感 - 运动数据与语言和视觉数据同等看待。这样的框架必须协调异构数据源——涵盖网络语料库、自动驾驶日志和机器人操作轨迹——以学习同时具有丰富语义并具备物理可操作性的表征。
1.1.2 DM0 的提出
为实现这一愿景,研究者引入了 DM0,一种面向体感智能、旨在统一操作与导航的原生视觉 - 语言 - 动作(VLA)框架。
- 其 paper 地址为:DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
- 其 github 地址为:github.com/Dexmal/dexbotic
与传统适应方法不同,DM0 构建于多源三阶段训练流程之上:预训练、中间训练和微调。且该框架由三个核心组件组成:
- 在视觉 - 语言、驾驶和具身语料上的统一预训练:在初始阶段,我们在 VLM 上利用多样化的语料进行大规模统一预训练——整合视觉 - 语言数据、驾驶场景数据和具身动作数据。这确保了模型在获得语义知识的同时,也能够学习物理先验(如空间关系、物理动力学)。
- 混合训练架构:为了将这一理解转化为精确动作,作者在 VLM 之上构建了流匹配动作专家。在中期和微调过程中,作者采用混合梯度策略:来自动作专家的梯度在具身任务中与 VLM 解耦,以防通用知识的削弱,而 VLM 继续从非具身数据中学习。
- 具身空间支架策略:为进一步弥合推理与动作之间的鸿沟,作者提出了一种具身空间支架策略。该机制能够生成空间连锁思维(CoT)推理,以分解复杂指令,有效约束策略的动作解空间。
在 RoboChallenge 基准上的大量实验证明,DM0 优于现有策略,包括 GigaBrain-0.1、Spirit-v1.5 以及 π0.5,在 Table30 的专业体与通用体设置下均取得了最先进的结果。
1.2 模型的完整介绍
1.2.1 模型架构
DM0 模型是一个端到端的视觉 - 语言 - 动作(VLA)模型,支持在涵盖多种任务和数据分布的大规模数据集上进行联合训练,包括网络级多模态数据、驾驶场景数据和体感数据。
所提出的架构包含两个核心组件:
- 一个基于 Qwen3-1.7B 大语言模型(LLM)构建的 VLM,并通过感知编码器(PE)增强,以实现多模态感知、语义理解以及机器人环境下的体感推理。
- 基于流匹配(Flow Matching)的动作专家,可根据关键 - 值(KV)缓存生成连续控制动作,该缓存由 VLM 主干提取。多视角图像被调整为 728 × 728,并输入到 PE,随后图像嵌入通过两个步幅为 2 的 3×3 卷积层进行 4×下采样。
在推理阶段,DM0 支持两种可选推理模式:
- 在第一种模式下,模型直接从多模态观测和语言指令中预测连续动作序列。
- 在第二种模式下,模型首先生成用于实体智能推理的文本输出,随后将动作专家条件于这些输出以生成连续动作。
形式上,联合模型的分布因式分解如下:
$$\pi_{\theta}\left(\hat{l}, \mathbf{a}{t: t+H} \mid \mathbf{o}{t}, l\right)=\pi_{\theta}\left(\hat{l} \mid \mathbf{o}{t}, l\right) \cdot \pi{\theta}\left(\mathbf{a}{t: t+H} \mid \mathbf{o}{t}, l, \hat{l}\right)$$


