具身智能落地瓶颈：RoboBrain 2.5 的空间与时间协同方案

具身智能从实验室走向部署常因空间度量不准和时序评估缺失而失败。RoboBrain 2.5 通过精确 3D 空间推理与稠密时序价值预测解决此问题。模型采用深度感知表示与双向一致性校验，实现从稀疏标签到连续反馈的跨越。双阶段训练路线兼顾通用性与物理约束，在多项基准测试中表现领先，为真实场景下的稳定执行提供技术支撑。

GRACE Grace发布于 2026/3/260 浏览

过去一年，具身智能在视觉理解和语言推理上进步明显，但从实验室演示走向真实部署时，常遇到'看得见却做不对'的困境。这背后有两个长期被低估的关键短板：空间维度的度量盲区，以及时间维度的过程建模不足。

空间不准方面，模型虽能理解 2D 图像中的目标关系，却缺乏将其转化为真实尺度下可执行 3D 轨迹的能力，导致抓取、装配等操作因深度和距离的物理度量偏差而失败；过程不稳方面，多数模型将动作生成简化为静态序列预测，依赖稀疏的成功标签，无法对打滑、偏移等动态变化做出实时评估与调整，致使长任务难以稳定完成。

新一代具身模型需要将空间能力从'2D 指点'升级为'精确 3D 规划'，满足物理世界的度量约束。智源研究院发布的 RoboBrain 2.5 正是基于这一思路，通过更大规模的高质量时空监督训练，完成了两项关键升级：精确 3D 空间推理（Precise 3D Spatial Reasoning）与稠密时序价值预测（Dense Temporal Value Estimation）。这让机器人不仅能理解任务，更能在物理约束与过程反馈中把任务做对。

空间与时间的协同升级

RoboBrain 2.5 在具身智能的两项关键维度上实现了系统性提升：Spatial（空间）与 Temporal（时间）。

空间侧强调 Depth in Sight，即从 2D grounding 走向具备真实尺度约束的 3D 规划与轨迹生成。传统模型多输出单点或单目标位置，而 RoboBrain 2.5 将接口扩展为完整操作过程的轨迹级表达。模型不再只给出一个落点，而是输出有序的关键点序列，描述从起始状态到目标状态的完整流程。这一能力包含三类互补技能：3D 定位目标以提供落点依据，理解真实尺度以满足毫米级约束，以及生成符合碰撞约束的可执行轨迹。

该模型采用可解耦的 (u, v, d) 表示，每个点由图像平面坐标与绝对深度构成，可通过相机内参直接投影到 3D 坐标系。这种设计避免了让大模型'暗自学习相机几何'，使训练更直接、输出更可控。更重要的是，它向下兼容 2D 轨迹或 3D/2D referring 数据，利于多任务协同训练。

时间侧强调 Time in Mind，即从结果监督走向可泛化、可闭环的稠密进度与价值评估。真实物理世界中的长时任务，往往缺乏过程级监督。RoboBrain 2.5 引入稠密时序价值预测，基于视觉观测对任务进度进行步级别连续评估，为下游控制与策略学习提供随时可调用的价值信号。这实现了从'稀疏成功标签'到'稠密进度反馈'的跃进。

为降低误差累积并提升鲁棒性，模型从三个视角生成并融合进度估计信号：增量式捕捉局部动态，前向锚定以初始状态为全局参照，后向锚定以目标状态为参照。三者融合后得到更具抗漂移能力的价值信号。此外，针对 Online RL 场景可能出现的 reward hacking 风险，模型引入双向一致性校验，以不同时间锚定视角间的一致性作为可靠性代理，有效降低 OOD 状态下价值幻觉对学习过程的误导。

渐进式双阶段训练路线

为了实现'先通用、再精确'，RoboBrain 2.5 延续了渐进式双阶段训练路线。

第一阶段是通用时空基础学习（Foundational Spatiotemporal Learning）。通过大规模通用时空学习搭建 Generalist Brain，让模型先稳定理解视觉语义与语言指令，形成对三维空间的定性认知及基础的任务规划能力。这一阶段提供了强鲁棒、强泛化的初始化，确保模型先'看得懂、想得通'。

第二阶段是特定时空增强（Specific Spatiotemporal Enhancement）。在通用能力稳定后，重心转向物理可执行性与闭环可控性。一方面引入面向度量的 3D 轨迹学习，让模型从定性空间关系迈向定量几何约束，能够学习绝对 3D 坐标与深度轨迹；另一方面升级时序建模为稠密价值估计，推进为显式的 Hop/进度预测，使模型具备可直接用作价值函数的在线反馈能力。同时，通过数据 replay 混入第一阶段部分数据，抑制遗忘风险，实现通用不掉线、精确再跃迁。

在多项空间推理与时序价值估计基准任务上，RoboBrain 2.5 取得了新的 SOTA 表现。对通用基线而言，其 2D 空间推理平均分显著高于 Gemini-3-Pro-Preview、Qwen3-VL-8B-Inst 等竞品；在跨视图对应能力 CrossPoint 榜单上也呈现领先。在更强调可执行性的 3D 任务 TraceSpatial 上，其 3D Start/End/Success 指标显著优于同类模型，凸显了在真实尺度几何约束与可执行轨迹生成上的优势。此外，在时序价值估计中，模型在多个数据源上保持更强的正负一致性，更有利于闭环学习与在线纠错。

具身智能落地瓶颈：RoboBrain 2.5 的空间与时间协同方案

空间与时间的协同升级

渐进式双阶段训练路线

更多推荐文章

相关免费在线工具

下一步方向

更多推荐文章

相关免费在线工具

具身智能落地瓶颈：RoboBrain 2.5 的空间与时间协同方案

空间与时间的协同升级

渐进式双阶段训练路线

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

下一步方向

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具