RoboChallenge 发布具身智能年度报告：4 万次真机评测揭示模型真实能力

在过去一年里，具身智能几乎成了 AI 领域最'好看'的方向之一。

机器人叠碗、做咖啡、整理桌面的视频在社交平台上高频刷屏，配上'通用智能已来'的标题，极具冲击力——但在热闹之外，一个始终被回避的问题是：这些模型，换一台真机、换一个摆放位置、连续跑上十次，还能成功吗？

RoboChallenge 的出现，正是为了回答这个并不讨喜、却极其关键的问题。

作为由原力灵机 Dexmal 与 Hugging Face 联合发起的全球首个具身智能大规模真机评测平台，RoboChallenge 自 2025 年 10 月上线以来，已部署 UR5、Franka、ARX5、ALOHA 等主流机型在内的 20 台真机测试集群，开源了涵盖 30 个标准化任务的 Table30 数据集（736GB），并已累计执行超过 4 万次真机测试（Rollouts）。

基于此，上周五 RoboChallenge 正式发布了其首份年度报告（2025 Q4 - 2026 Q1）——这份基于超 4 万次真实机器人测试、涵盖 30 个标准化任务的数据复盘，首次以规模化、可复现的实证数据，为炙手可热的具身智能领域提供了一份难得的'硬核体检报告'。

在这里插入图片描述

一、真机、真数、真透明：为何 RoboChallenge 能成为'标尺'？

与依赖仿真或受限环境的测试不同，RoboChallenge 的核心在于'真'。在 RoboChallenge 之前，具身智能评测长期面临三大难题：难复现、无统一标准、成本高昂——RoboChallenge 对此给出的解法，是一套'反直觉但务实'的组合拳：

首先，是真机而非仿真。

RoboChallenge 已部署 UR5、Franka、ARX5、ALOHA 四类主流机型，共 20 台真实机器人，覆盖单臂、双臂与不同构型。所有榜单结果，均来自真实物理环境下的执行，而非理想化的模拟器，因此模型必须直面传感器噪声、执行误差、物体微小偏移等现实问题。

在这里插入图片描述

其次，是对偶然性的系统性消解。

在 RoboChallenge 中，每一个任务都必须进行 10 次独立真机测试，最终以平均成功率计分。同时，平台引入'成功率（Success Rate）+ 过程分（Progress Score）'的双指标体系：不仅看是否完成任务，也量化模型在失败前推进到了哪一步。这一设计有效避免了'一次成功即上榜'的 Demo 式偏差。