概述
DM0 是由 Dexmal & StepFun 团队提出的一种面向具身智能、旨在统一操作与导航的原生视觉 - 语言 - 动作(VLA)框架。该模型在 RoboChallenge 基准的 30 多个桌面级任务中取得了最高综合得分,成为首个同时拿下'单任务'和'多任务'双榜第一的具身大模型。
第一部分
1.1 提出背景与 DM0 的提出
1.1.1 提出背景
如原论文所述,目前的 VLA 研究主要遵循'预训练 - 再适应'范式。通常,模型首先仅在大规模静态互联网数据集上进行预训练,随后在有限的实体数据上进行微调。尽管这种方法能够实现语义对齐,但它存在一个关键局限:模型缺乏内在的物理基础。原因在于互联网数据提供语义知识,但无法捕捉物理交互的动态性、连续性和空间性。因此,针对这些'互联网原生'模型的适应,往往导致明显的模块碎片化,或灾难性遗忘。
作者认为,真正的通用体机器人需要实体原生框架。这意味着从头对模型进行训练,以统一的视角将具身传感 - 运动数据与语言和视觉数据同等看待。这样的框架必须协调异构数据源——涵盖网络语料库、自动驾驶日志和机器人操作轨迹——以学习同时具有丰富语义并具备物理可操作性的表征。
1.1.2 DM0 的提出
为实现这一愿景,研究者引入了 DM0,一种面向体感智能、旨在统一操作与导航的原生视觉 - 语言 - 动作(VLA)框架。
- 其 paper 地址为:DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
- 其 github 地址为:github.com/Dexmal/dexbotic
与传统适应方法不同,DM0 构建于多源三阶段训练流程之上:预训练、中间训练和微调。且该框架由三个核心组件组成:
- 在视觉 - 语言、驾驶和具身语料上的统一预训练:在初始阶段,我们在 VLM 上利用多样化的语料进行大规模统一预训练——整合视觉 - 语言数据、驾驶场景数据和具身动作数据。这确保了模型在获得语义知识的同时,也能够学习物理先验(如空间关系、物理动力学)。
- 混合训练架构:为了将这一理解转化为精确动作,作者在 VLM 之上构建了流匹配动作专家。在中期和微调过程中,作者采用混合梯度策略:来自动作专家的梯度在具身任务中与 VLM 解耦,以防通用知识的削弱,而 VLM 继续从非具身数据中学习。
- 具身空间支架策略:为进一步弥合推理与动作之间的鸿沟,作者提出了一种具身空间支架策略。该机制能够生成空间连锁思维(CoT)推理,以分解复杂指令,有效约束策略的动作解空间。
在 RoboChallenge 基准上的大量实验证明,DM0 优于现有策略,包括 GigaBrain-0.1、Spirit-v1.5 以及 π0.5,在 Table30 的专业体与通用体设置下均取得了最先进的结果。
1.2 模型的完整介绍
1.2.1 模型架构
DM0 模型是一个端到端的视觉 - 语言 - 动作(VLA)模型,支持在涵盖多种任务和数据分布的大规模数据集上进行联合训练,包括网络级多模态数据、驾驶场景数据和体感数据。
所提出的架构包含两个核心组件:
- 一个基于 Qwen3-1.7B 大语言模型(LLM)构建的 VLM,并通过感知编码器(PE)增强,以实现多模态感知、语义理解以及机器人环境下的体感推理。
- 基于流匹配(Flow Matching)的动作专家,可根据关键 - 值(KV)缓存生成连续控制动作,该缓存由 VLM 主干提取。多视角图像被调整为 728 × 728,并输入到 PE,随后图像嵌入通过两个步幅为 2 的 3×3 卷积层进行 4×下采样。
在推理阶段,DM0 支持两种可选推理模式:
- 在第一种模式下,模型直接从多模态观测和语言指令中预测连续动作序列。
- 在第二种模式下,模型首先生成用于实体智能推理的文本输出,随后将动作专家条件于这些输出以生成连续动作。
形式上,联合模型的分布因式分解如下:
$$\pi_{\theta}\left(\hat{l}, \mathbf{a}{t: t+H} \mid \mathbf{o}{t}, l\right)=\pi_{\theta}\left(\hat{l} \mid \mathbf{o}{t}, l\right) \cdot \pi{\theta}\left(\mathbf{a}{t: t+H} \mid \mathbf{o}{t}, l, \hat{l}\right)$$
在这里:
- $l$ 表示语言指令。
- $\hat{l}$ 表示预测的文本输出:可以理解为预测的子任务。
- 在时间步 $t$ 的多模态观测由 $\mathbf{o}{t}=\left[\mathbf{I}{t}, \mathbf{s}{t}\right]$ 表示,其中 $\mathbf{I}{t}$ 代表视觉输入,$\mathbf{s}_{t}$ 对应机器人的本体感知状态。
- $\mathbf{a}_{t: t+H}$ 表示在时域为 $H$ 步的动作序列。
1.2.2 多源混合训练
已有多项前人工作探讨了将视觉 - 语言模型与动作专家集成用于端到端学习的统一训练范式。尽管该类方法具有架构简洁性,但语言与连续控制目标的联合优化已被观察到会对预训练视觉 - 语言模型中保留的语义表征产生负面影响,可能削弱其语言理解与推理能力。
对此,作者采用了一种受知识隔离(KI)启发的混合梯度策略,在具身数据训练时将动作专家的梯度与预训练 VLM 解耦,从而防止语义知识在 VLM 中被侵蚀。同时,VLM 持续使用非具身数据进行更新,使模型能够进一步提升其通用语言和视觉理解能力。此外,VLM 还被监督以预测离散动作 token,促使其编码有助于下游动作预测的动作相关语义。
VLM 通过最小化自回归交叉熵损失来学习预测具身推理文本及离散动作 token:
$$\mathcal{L}{\mathrm{AR}}(\theta)=-\mathbb{E}{\mathcal{D}}\left[\log \pi_{\theta}\left(\hat{l} \mid \mathbf{o}_{t}, l\right)\right]$$
动作专家通过最小化流匹配损失函数进行训练,以预测连续动作序列:
$$\mathcal{L}{\mathrm{FM}}(\theta)=\mathbb{E}{\mathcal{D}, \varepsilon, \tau}\left|\pi_{\theta}\left(\tilde{\mathbf{a}}{t: t+H}, \mathbf{o}{t}, l, \tau\right)-\left(\mathbf{A}_{t: t+H}-\varepsilon\right)\right|^{2}$$
其中,$\mathbf{A}{t: t+H}$ 表示真实的连续动作序列,$\tilde{\mathbf{a}}{t: t+H}=\tau \mathbf{A}_{t: t+H}+ (1-\tau) \varepsilon$ 为通过注入高斯噪声 $\varepsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ 获得的带噪动作,变量 $\tau \in[0,1]$ 表示流动时间步。
神经网络预测的速度向量代表去噪方向。当 $\tau = 0$ 时,状态是纯噪声;当 $\tau = 1$ 时,状态变成了干净的动作数据。总体训练目标被定义为两个损失的加权组合:
$$\mathcal{L}{\text {total }}(\theta)=\lambda \mathcal{L}{\mathrm{AR}}(\theta)+\mathcal{L}_{\mathrm{FM}}(\theta)$$
其中 $\lambda$ 为标量权重系数。在联合训练期间,作者设置 $\lambda = 1$。
1.2.3 具身空间支架
在联合训练阶段,作者引入了一组按照分层预测框架组织的辅助目标,以提供结构化监督。具体而言,模型被训练为依次执行以下任务:
- 子任务预测:预测一个细粒度的任务描述,将整体任务分解为一系列可解释且易于管理的步骤。
- 目标边界框预测:在视觉观测中预测目标物体或与目标相关区域的边界框。
- 末端执行器轨迹预测:在主相机视角下,预测机器人末端执行器在指定时间范围内的未来轨迹。
- 离散动作预测:预测表示机器人控制命令的离散动作 tokens。
这种设计在不同抽象层级上形成了一种自然的'课程',引导模型从高层语义推理逐步过渡到空间落地,最终到达低层控制。从理论角度来看,这种分层监督引入了一系列与任务对齐的归纳偏置,逐步收缩模型的假设空间。
1.3 模型的完整训练方案
DM0 的训练分为三个连续阶段,从通用视觉 - 语言能力逐步推进到具身控制,最后到可部署的策略。
- 预训练(Pretraining):在大规模网页、自动驾驶和具身数据上建立强大的多模态基础。
- 中期训练(Mid-training):加入动作预测,使模型在跨具身形态的机器人数据上获得落地能力,同时保持通用对话能力。
- 后期训练(Post-training):收窄具身形态和数据范围,在一小组目标平台上稳定视觉 - 运动对齐。
1.3.1 预训练
预训练的目标是学习一个通用的视觉 - 语言模型,使其在多模态对齐、细粒度感知以及针对网页、文档、自动驾驶和具身数据的广泛推理方面具有强大能力。通过在这些异构数据源上联合训练,模型同时获得语义知识和物理先验。
数据构建覆盖以下领域:
- 知识:来自网页的图文交错数据源于 Common Crawl、StepCrawl 等,过滤掉低质量页面。图文对来自 LAION、COYO、BLIP-CCS 等开放数据集。
- 教育:样本涵盖 K-12、大学阶段及成人学习内容。
- OCR:图像转文本使用真实和合成图像,图像转代码涵盖 Markdown、LaTeX 等。
- 定位与计数:源自 OpenImages、COCO 等检测数据集。
- VQA:通用 VQA 借鉴了开放基准数据集。
- GUI:包括界面描述、知识型 VQA 及网页 OCR。
- Driving:驾驶场景样本包含具有深度感知的检测和 grounding 标注。
- Embodied:纳入了以 grounding 和描述问答任务形式组织的具身数据。
训练设置在单阶段进行,所有参数联合优化。作者使用 AdamW,在 370K 步内对 1.2T 个 token 进行优化。学习率在两个阶段中进行调度。
1.3.2 中期训练
在预训练主干网络的基础上,中期训练阶段引入动作预测,将模型与物理控制进行对齐。在这一阶段,采用单一训练循环,通过动作专家同时监督文本 token、离散动作 token 和连续动作。
数据混合组织为五个类别:
- 视觉–语言数据:包含 Cambrian、LLaVA OneVision 等,移除低质量样本。
- 具身推理(Embodied Reasoning, ER)数据:强化高层规划与时间推理能力,包括任务分解、子任务预测、动作问答等。
- 仿真数据:包含 LIBERO、RoboTwin2.0 及 Habitat 导航轨迹。
- 单臂机器人数据:来自 Franka、UR5 等开源及自采数据。
- 双臂机器人数据:来自 ALOHA 及开源数据。
所有数据都被表示为基于模板的对话,从而可以用不同的自然语言来呈现相同的监督信息。动作在同一序列上的两个对齐视图上被监督:给 VLM 使用的离散 token,以及给动作专家使用的连续数值。
1.3.3 后训练
后训练从中间训练得到的模型开始,通过将机器人数据集中于少数几个目标具身形态,使其专门化以便部署。缩小具身形态的多样性可以降低分布方差并稳定跨模态对齐。训练在与中期训练相同的联合监督下进行,只对数据采样方式和目标具身体集合进行了修改。
1.4 实验评估
1.4.1 实验设置
鉴于 DM0 聚焦于物理世界交互,作者在真实世界的 RoboChallenge 基准上对其进行评估。该基准提供了一个包含 30 余个长时程台面操作任务的综合任务套件。在有监督微调(SFT)阶段,作者采用两种不同的训练配置:
- SFT(Specialist):仅在目标任务的数据上进行训练。
- SFT(通用型):在为目标机器人平台提供的所有可用任务所汇总的数据上进行训练。
对比模型包括 GigaBrain-0.1、Spirit-V1.5、π0.5 以及 π0。
1.4.2 RoboChallenge 结果
DM0-generalist 在综合平均成功率和任务得分上显著优于 π0.5-generalist 和 π0-generalist。这一性能优势在几乎所有机器人平台和任务类别上都保持一致。值得注意的是,DM0-generalist 在需要精细操作和长时序推理的任务上表现突出,如堆叠彩色积木、将鞋子放到鞋架上等任务中经常获得满分。
在 3B–5B 参数规模范围内,DM0 专家模型在多个机器人平台上始终优于所有对比模型,并取得了 62.00% 的更高整体成功率。尤其是在诸如将水果放入篮子、插入网线以及清扫垃圾等复杂、长时序任务中,DM0 的性能优势尤为显著。
1.4.3 多模态理解
作者进一步在一组视觉问答(VQA)样本上评估了 DM0 的多模态能力。结果表明,DM0 保留了核心 VQA 功能,包括场景理解、视觉指称、属性识别以及光学字符识别(OCR)。在具身场景中,DM0 保留了诸如场景描述、目标检测和属性识别等基础 VQA 能力。此外,作者观察到 DM0 在移动场景中具有良好的泛化能力。
1.5 未来工作
尽管 DM0 为具身原生 VLA 建立了一个强有力的基线,但在未来仍有若干颇具前景的方向值得进一步探索:
- 扩展具身 - 原生范式:计划通过在显著更大规模的数据集上进行训练并增大模型参数规模,以探索具身 - 原生框架的扩展规律。
- 扩展多模态感知:未来版本的 DM0 将在统一预训练阶段直接引入更多模态,例如触觉反馈、音频以及深度信息。
- 长期跨度推理与世界模型:计划将世界模型能力集成到 DM0 框架中,使智能体能够在执行前在心智中模拟动作后果,并在更长的时间尺度上进行规划。
总之,DM0 作为一种开创性的具身原生视觉 - 语言 - 行动(VLA)框架,从根本上重新思考通用机器人策略的开发方式。不同于通过事后微调互联网预训练模型的传统范式,DM0 自始即通过统一的预训练策略在异构数据源上引入物理落地能力。其核心由两项关键技术创新支撑:一种将动作专家学习与 VLM 语义保持解耦的混合梯度策略,一种具身空间脚手架机制,利用空间 Chain-of-Thought 推理来理解和规划复杂的物理任务。


