过去一年,具身智能在'视觉理解 + 语言推理'上进步明显,但从实验室走向真实部署时,常遇到'看得见却做不对'的问题。这主要源于两个被低估的短板:空间维度的度量盲区,以及时间维度的过程建模不足。
在空间不准上,模型虽能理解 2D 图像中的目标与关系,却缺乏将其转化为真实尺度下可执行 3D 轨迹的能力,导致抓取、装配等操作因深度、距离等物理度量不准而失败;在过程不稳上,多数模型仍将动作生成简化为静态序列预测,依赖稀疏的成功标签,无法对操作过程中出现的打滑、偏移等动态变化做出实时评估与调整,致使长任务难以稳定完成。
这就要求新一代具身模型,把空间能力从'2D 指点'升级为'精确 3D 规划',满足物理世界的度量约束与可执行性要求。
智源研究院发布了新一代具身智能基础模型 RoboBrain 2.5。作为 RoboBrain 系列的最新版本,它在延续通用感知、空间推理与时序建模能力底座的基础上,通过更大规模的高质量时空监督训练,完成了两项面向真实物理世界的关键升级:Precise 3D Spatial Reasoning(精确 3D 空间推理)与Dense Temporal Value Estimation(稠密时序价值预测),让机器人不仅能理解任务,更能在物理约束与过程反馈中把任务做对,推动具身智能从'能看懂、能说清',迈向'能落手、做得准、做得稳'。
空间能力与时间能力的协同升级
RoboBrain 2.5 在具身智能的两项关键能力维度上实现系统性升级:Spatial(空间)与 Temporal(时间)。空间侧强调Depth in Sight——从 2D grounding 走向具备真实尺度约束的 3D 规划与轨迹生成;时间侧强调Time in Mind——从结果监督走向可泛化、可闭环的稠密进度与价值评估。
二者形成有机协同:前者保障动作在几何意义上可执行,后者保障执行过程中可感知、可纠错、可恢复,共同将具身系统从 demo 级成功,推进到更接近真实部署需求的稳定可靠。
Depth in Sight:精确 3D 空间理解
传统具身模型多将空间输出限制在'单点 / 单目标'层面,即预测一个目标位置作为动作触发条件。RoboBrain 2.5 将空间输出接口扩展为完整操作过程的轨迹级表达:模型不再只给出一个落点,而是输出有序的关键点序列,用于描述从起始状态到目标状态的完整操作流程,从而在表示层面同时编码空间规划与步骤结构。
这一能力被拆解为三类互补的空间技能:
- 3D Spatial Referring:定位目标在图像中完成目标对象与关键部位的 3D 定位,为后续动作提供'落点依据'。
- 3D Spatial Measuring:理解真实尺度估计真实世界的绝对度量量(如距离、间隙、悬停高度等),满足装配、贴合、避障等任务对'厘米/毫米级'约束的要求。
- 3D Spatial Trace Generation:生成可执行轨迹输出'符合碰撞约束的可执行关键点轨迹',让机器人具备更强的几何可行性与动作连贯性。
RoboBrain 2.5 采用可解耦的 (u, v, d) 表示:每个点由图像平面坐标 (u, v) 与绝对深度 d 构成,并可通过相机内参直接投影到 3D 坐标系,从而避免让大模型'暗自学习相机几何',让训练更直接、输出更可控、系统对接更工程化。更重要的是,这一表示还可向下兼容:去掉深度就是 2D 轨迹,只保留起终点可变成 3D/2D referring 数据,使得多任务协同训练更自然,进一步夯实通用具身能力底座。

Time in Mind:稠密时序价值预测与闭环可靠性
真实物理世界中的长时任务,并不缺少动作序列,而是缺乏过程级监督:当前执行到了哪一步?是在有效推进、停滞、偏离,还是已经发生失败?为此,RoboBrain 2.5 引入 Dense Temporal Value Estimation(稠密时序价值预测),基于视觉观测对任务进度进行步级别、连续评估,为下游控制与策略学习提供可随时调用的价值信号。
长时程操作需要的不只是最终成功信号,而是连续、细粒度的反馈来引导复杂中间状态。RoboBrain 2.5 通过稠密价值估计补上了这块短板,为闭环控制与高效强化学习提供基础,实现了从'稀疏成功标签'到'稠密进度反馈'的跃进。
为降低长轨迹执行中的误差累积、提升多视角鲁棒性,RoboBrain 2.5 从三个互补视角生成并融合进度估计信号:
- **增量式(Incremental):**精细捕捉局部动态,但易累积漂移。
- **前向锚定(Forward-anchored):**以初始状态为全局参照,更稳定。






