DM0 面向物理 AI 的 VLA：VLM 混入物理数据预训练与流匹配动作专家

综述由AI生成DM0 是一种面向物理 AI 的原生视觉 - 语言 - 动作（VLA）框架。它通过三阶段训练流程（预训练、中期训练、后训练），在统一视角下整合网络语料、驾驶日志和机器人轨迹。核心创新包括混合梯度策略以隔离 VLM 语义知识与动作专家，以及具身空间支架策略生成空间思维链推理。实验表明，DM0 在 RoboChallenge 基准上优于 GigaBrain、Spirit-v1.5 及 π0 系列模型，展现了强大的跨任务适应性和操作能力。

忘忧发布于 2026/3/29更新于 2026/5/3123 浏览

概述

DM0 是由 Dexmal & StepFun 团队提出的一种面向具身智能、旨在统一操作与导航的原生视觉 - 语言 - 动作（VLA）框架。该模型在 RoboChallenge 基准的 30 多个桌面级任务中取得了最高综合得分，成为首个同时拿下'单任务'和'多任务'双榜第一的具身大模型。

第一部分

1.1 提出背景与 DM0 的提出

1.1.1 提出背景

如原论文所述，目前的 VLA 研究主要遵循'预训练 - 再适应'范式。通常，模型首先仅在大规模静态互联网数据集上进行预训练，随后在有限的实体数据上进行微调。尽管这种方法能够实现语义对齐，但它存在一个关键局限：模型缺乏内在的物理基础。原因在于互联网数据提供语义知识，但无法捕捉物理交互的动态性、连续性和空间性。因此，针对这些'互联网原生'模型的适应，往往导致明显的模块碎片化，或灾难性遗忘。

作者认为，真正的通用体机器人需要实体原生框架。这意味着从头对模型进行训练，以统一的视角将具身传感 - 运动数据与语言和视觉数据同等看待。这样的框架必须协调异构数据源——涵盖网络语料库、自动驾驶日志和机器人操作轨迹——以学习同时具有丰富语义并具备物理可操作性的表征。

1.1.2 DM0 的提出

为实现这一愿景，研究者引入了 DM0，一种面向体感智能、旨在统一操作与导航的原生视觉 - 语言 - 动作（VLA）框架。

其 paper 地址为：DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
其 github 地址为：github.com/Dexmal/dexbotic

与传统适应方法不同，DM0 构建于多源三阶段训练流程之上：预训练、中间训练和微调。且该框架由三个核心组件组成：

在视觉 - 语言、驾驶和具身语料上的统一预训练：在初始阶段，我们在 VLM 上利用多样化的语料进行大规模统一预训练——整合视觉 - 语言数据、驾驶场景数据和具身动作数据。这确保了模型在获得语义知识的同时，也能够学习物理先验（如空间关系、物理动力学）。
混合训练架构：为了将这一理解转化为精确动作，作者在 VLM 之上构建了流匹配动作专家。在中期和微调过程中，作者采用混合梯度策略：来自动作专家的梯度在具身任务中与 VLM 解耦，以防通用知识的削弱，而 VLM 继续从非具身数据中学习。
具身空间支架策略：为进一步弥合推理与动作之间的鸿沟，作者提出了一种具身空间支架策略。该机制能够生成空间连锁思维（CoT）推理，以分解复杂指令，有效约束策略的动作解空间。

在 RoboChallenge 基准上的大量实验证明，DM0 优于现有策略，包括 GigaBrain-0.1、Spirit-v1.5 以及 π0.5，在 Table30 的专业体与通用体设置下均取得了最先进的结果。

1.2 模型的完整介绍

1.2.1 模型架构

DM0 模型是一个端到端的视觉 - 语言 - 动作（VLA）模型，支持在涵盖多种任务和数据分布的大规模数据集上进行联合训练，包括网络级多模态数据、驾驶场景数据和体感数据。

所提出的架构包含两个核心组件：

一个基于 Qwen3-1.7B 大语言模型（LLM）构建的 VLM，并通过感知编码器（PE）增强，以实现多模态感知、语义理解以及机器人环境下的体感推理。
基于流匹配（Flow Matching）的动作专家，可根据关键 - 值（KV）缓存生成连续控制动作，该缓存由 VLM 主干提取。多视角图像被调整为 728 × 728，并输入到 PE，随后图像嵌入通过两个步幅为 2 的 3×3 卷积层进行 4×下采样。

在推理阶段，DM0 支持两种可选推理模式：

在第一种模式下，模型直接从多模态观测和语言指令中预测连续动作序列。
在第二种模式下，模型首先生成用于实体智能推理的文本输出，随后将动作专家条件于这些输出以生成连续动作。

形式上，联合模型的分布因式分解如下：

$$\pi_{\theta}\left(\hat{l}, \mathbf{a}{t: t+H} \mid \mathbf{o}{t}, l\right)=\pi_{\theta}\left(\hat{l} \mid \mathbf{o}{t}, l\right) \cdot \pi{\theta}\left(\mathbf{a}{t: t+H} \mid \mathbf{o}{t}, l, \hat{l}\right)$$

DM0 面向物理 AI 的 VLA：VLM 混入物理数据预训练与流匹配动作专家

概述

第一部分

1.1 提出背景与 DM0 的提出

1.1.1 提出背景

1.1.2 DM0 的提出

1.2 模型的完整介绍

1.2.1 模型架构

更多推荐文章

相关免费在线工具

1.2.2 多源混合训练

1.2.3 具身空间支架

1.3 模型的完整训练方案

1.3.1 预训练

1.3.2 中期训练

1.3.3 后训练

1.4 实验评估

1.4.1 实验设置

1.4.2 RoboChallenge 结果

1.4.3 多模态理解

1.5 未来工作

更多推荐文章

相关免费在线工具

DM0 面向物理 AI 的 VLA：VLM 混入物理数据预训练与流匹配动作专家

概述

第一部分

1.1 提出背景与 DM0 的提出

1.1.1 提出背景

1.1.2 DM0 的提出

1.2 模型的完整介绍

1.2.1 模型架构

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.2.2 多源混合训练

1.2.3 具身空间支架

1.3 模型的完整训练方案

1.3.1 预训练

1.3.2 中期训练

1.3.3 后训练

1.4 实验评估

1.4.1 实验设置

1.4.2 RoboChallenge 结果

1.4.3 多模态理解

1.5 未来工作

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具