过去一年,具身智能在视觉理解和语言推理上进步明显,但从实验室演示走向真实部署时,常遇到'看得见却做不对'的困境。这背后有两个长期被低估的关键短板:空间维度的度量盲区,以及时间维度的过程建模不足。
空间不准方面,模型虽能理解 2D 图像中的目标关系,却缺乏将其转化为真实尺度下可执行 3D 轨迹的能力,导致抓取、装配等操作因深度和距离的物理度量偏差而失败;过程不稳方面,多数模型将动作生成简化为静态序列预测,依赖稀疏的成功标签,无法对打滑、偏移等动态变化做出实时评估与调整,致使长任务难以稳定完成。
新一代具身模型需要将空间能力从'2D 指点'升级为'精确 3D 规划',满足物理世界的度量约束。智源研究院发布的 RoboBrain 2.5 正是基于这一思路,通过更大规模的高质量时空监督训练,完成了两项关键升级:精确 3D 空间推理(Precise 3D Spatial Reasoning)与稠密时序价值预测(Dense Temporal Value Estimation)。这让机器人不仅能理解任务,更能在物理约束与过程反馈中把任务做对。
空间与时间的协同升级
RoboBrain 2.5 在具身智能的两项关键维度上实现了系统性提升:Spatial(空间)与 Temporal(时间)。
空间侧强调 Depth in Sight,即从 2D grounding 走向具备真实尺度约束的 3D 规划与轨迹生成。传统模型多输出单点或单目标位置,而 RoboBrain 2.5 将接口扩展为完整操作过程的轨迹级表达。模型不再只给出一个落点,而是输出有序的关键点序列,描述从起始状态到目标状态的完整流程。这一能力包含三类互补技能:3D 定位目标以提供落点依据,理解真实尺度以满足毫米级约束,以及生成符合碰撞约束的可执行轨迹。
该模型采用可解耦的 (u, v, d) 表示,每个点由图像平面坐标与绝对深度构成,可通过相机内参直接投影到 3D 坐标系。这种设计避免了让大模型'暗自学习相机几何',使训练更直接、输出更可控。更重要的是,它向下兼容 2D 轨迹或 3D/2D referring 数据,利于多任务协同训练。

时间侧强调 Time in Mind,即从结果监督走向可泛化、可闭环的稠密进度与价值评估。真实物理世界中的长时任务,往往缺乏过程级监督。RoboBrain 2.5 引入稠密时序价值预测,基于视觉观测对任务进度进行步级别连续评估,为下游控制与策略学习提供随时可调用的价值信号。这实现了从'稀疏成功标签'到'稠密进度反馈'的跃进。
为降低误差累积并提升鲁棒性,模型从三个视角生成并融合进度估计信号:增量式捕捉局部动态,前向锚定以初始状态为全局参照,后向锚定以目标状态为参照。三者融合后得到更具抗漂移能力的价值信号。此外,针对 Online RL 场景可能出现的 reward hacking 风险,模型引入双向一致性校验,以不同时间锚定视角间的一致性作为可靠性代理,有效降低 OOD 状态下价值幻觉对学习过程的误导。

渐进式双阶段训练路线
为了实现'先通用、再精确',RoboBrain 2.5 延续了渐进式双阶段训练路线。
第一阶段是通用时空基础学习(Foundational Spatiotemporal Learning)。通过大规模通用时空学习搭建 Generalist Brain,让模型先稳定理解视觉语义与语言指令,形成对三维空间的定性认知及基础的任务规划能力。这一阶段提供了强鲁棒、强泛化的初始化,确保模型先'看得懂、想得通'。
第二阶段是特定时空增强(Specific Spatiotemporal Enhancement)。在通用能力稳定后,重心转向物理可执行性与闭环可控性。一方面引入面向度量的 3D 轨迹学习,让模型从定性空间关系迈向定量几何约束,能够学习绝对 3D 坐标与深度轨迹;另一方面升级时序建模为稠密价值估计,推进为显式的 Hop/进度预测,使模型具备可直接用作价值函数的在线反馈能力。同时,通过数据 replay 混入第一阶段部分数据,抑制遗忘风险,实现通用不掉线、精确再跃迁。

在多项空间推理与时序价值估计基准任务上,RoboBrain 2.5 取得了新的 SOTA 表现。对通用基线而言,其 2D 空间推理平均分显著高于 Gemini-3-Pro-Preview、Qwen3-VL-8B-Inst 等竞品;在跨视图对应能力 CrossPoint 榜单上也呈现领先。在更强调可执行性的 3D 任务 TraceSpatial 上,其 3D Start/End/Success 指标显著优于同类模型,凸显了在真实尺度几何约束与可执行轨迹生成上的优势。此外,在时序价值估计中,模型在多个数据源上保持更强的正负一致性,更有利于闭环学习与在线纠错。



