在过去一年里,具身智能几乎成了 AI 领域最'好看'的方向之一。
机器人叠碗、做咖啡、整理桌面的视频在社交平台上高频刷屏,配上'通用智能已来'的标题,极具冲击力——但在热闹之外,一个始终被回避的问题是:这些模型,换一台真机、换一个摆放位置、连续跑上十次,还能成功吗?
RoboChallenge 的出现,正是为了回答这个并不讨喜、却极其关键的问题。
作为由原力灵机 Dexmal 与 Hugging Face 联合发起的全球首个具身智能大规模真机评测平台,RoboChallenge 自 2025 年 10 月上线以来,已部署 UR5、Franka、ARX5、ALOHA 等主流机型在内的 20 台真机测试集群,开源了涵盖 30 个标准化任务的 Table30 数据集(736GB),并已累计执行超过 4 万次真机测试(Rollouts)。
基于此,上周五 RoboChallenge 正式发布了其首份年度报告(2025 Q4 - 2026 Q1)——这份基于超 4 万次真实机器人测试、涵盖 30 个标准化任务的数据复盘,首次以规模化、可复现的实证数据,为炙手可热的具身智能领域提供了一份难得的'硬核体检报告'。
一、真机、真数、真透明:为何 RoboChallenge 能成为'标尺'?
与依赖仿真或受限环境的测试不同,RoboChallenge 的核心在于'真'。 在 RoboChallenge 之前,具身智能评测长期面临三大难题:难复现、无统一标准、成本高昂——RoboChallenge 对此给出的解法,是一套'反直觉但务实'的组合拳:
- 首先,是真机而非仿真。
RoboChallenge 已部署 UR5、Franka、ARX5、ALOHA 四类主流机型,共 20 台真实机器人,覆盖单臂、双臂与不同构型。所有榜单结果,均来自真实物理环境下的执行,而非理想化的模拟器,因此模型必须直面传感器噪声、执行误差、物体微小偏移等现实问题。
- 其次,是对偶然性的系统性消解。
在 RoboChallenge 中,每一个任务都必须进行 10 次独立真机测试,最终以平均成功率计分。同时,平台引入'成功率(Success Rate)+ 过程分(Progress Score)'的双指标体系:不仅看是否完成任务,也量化模型在失败前推进到了哪一步。这一设计有效避免了'一次成功即上榜'的 Demo 式偏差。
- 最后,是对人为因素的约束。
真实评测中,操作员对物体的摆放位置本身就是隐性变量。RoboChallenge 通过'视觉输入匹配'机制,在测试前叠加半透明参考图像,要求初始场景与训练分布高度一致,从源头上消除了所谓的'甜点区域'问题。这让不同模型真正站在同一起跑线上竞争。
这一整套机制,几乎从制度层面'禁止'了只为好看而存在的模型表现。
二、一个'尚待提高'的数字:榜首模型成功率在 50% 左右
从 RoboChallenge 总榜来看,最直观、也最具冲击力的结论是:目前表现最佳的模型在 Table30 任务集上的平均成功率仅为 51%。


