国产新突破！这个人形机器人数据集开源了

Ne0inhk

24 Mar 2026 — 11 min read

在机器人行业，有两件事非常耗时耗力：做标准和用标准把自己“卷死”。

好消息是，这一次，乐聚机器人选择了两件事一起做 —— 甚至还越卷越开心。

当“国地标准共建引领”、“60,000+ 分钟真机实采”、“多模态”、“多场景”这些关键词凑在一起时，故事就有意思了：因为你会看到一个机器人团队，把一套国产机器人，从实验室的“宝宝”，训练成现实世界里的“超人”。

今天这篇文章，就带你看看乐聚机器人，是如何用硬核技术告诉行业：机器人不是靠吹的，是靠真机实采 60,000+ 分钟堆出来的。

LET数据集——全尺寸人形机器人真机数据集发布！

LET数据集：国内开源规模最大的全尺寸人形机器人数据集。LET数据集由乐聚智能、国家地方共建人形机器人创新中心、北京数聚通启运营管理有限公司和苏州吴江智训未来运营管理有限公司联合主导构建。

LET数据集基于全尺寸人形机器人 Kuavo 4 Pro 采集，涵盖多场景、多类型操作的真实世界多任务数据。面向机器人操作、移动与交互任务，支持真实环境下的可扩展机器人学习。

国标 + 地标 = 双标一起，把行业天花板抬高了

中国的机器人行业发展速度有多快？快到标准都在追着产业跑。

这一次，乐聚参与的是国家级 + 地方级标准体系的共建。

一句话总结：不是跟着标准走，而是把行业标准往前推。

在机器人领域，标准不是写在纸上给人看的，它决定：

- 机器人能不能上生产线

机器人能不能走进千家万户

换句话说，这不是写作文，是写行业未来的“使用说明书”。

而乐聚能够参与制定国家 + 地方标准，意味着：

- 技术够硬核 —— 没两把刷子，不会被拉进来

落地够扎实 —— 理论不能光好看，要经得起真机检验

鲁棒性够强 —— 能在真实世界里跑，不是只会在 PPT 里跳舞

可以说，乐聚机器人此次的角色，不只是做产品，而是帮整个行业把地基打厚一层。换言之，乐聚机器人通过国地标准共建，将自身技术体系纳入了“行业基线建设”的工程化进程中。

60,000+ 分钟真机实采：别家的机器人在练习，乐聚的机器人在“高考”

60,000+ 分钟是什么概念？

相当于连续工作 41 天
相当于一个新人工程师入职后被“社畜化”的第一个月
更相当于把机器人从白纸训练到“有脾气、有判断、有点不好惹”

而且这不是仿真数据，也不是“象征性采几组”那种演戏式测试。乐聚用的是——真 · 机 · 实 · 采。这些数据通过乐聚夸父（Kuavo 4 Pro）系列全尺寸人形机器人统一采集。该人形机器人具备40+自由度，身高约1.66米，体重约55公斤，最大行走速度 7 km/h，支持不停机电池更换，同时搭配头部立体相机与腕部RGB-D相机。

另外值得一提的是，前不久，全球首款5G-A人形机器人乐聚“夸父”以“0号火炬手”的身份亮相第十五届全国运动会。它身高1.66米，单臂承载1.6公斤火炬，它完成百米奔跑、挥手致意、火炬交接等高难度动作，全程稳健零失误，以科技实力诠释“更快、更高、更强”的体育精神。

乐聚机器人通过 60,000+ 分钟的大规模真实数据采集，能捕获到大量“非理想数据”，形成一个对算法极具价值的现实世界误差分布模型，为探索机器人领域的Scaling Law提供更优质的数据基础。机器人行业真正的鲁棒性，就建立在这种数据之上，让模型学到的是"真功夫"，不是"纸上谈兵"。

多模态数据融合和对齐标注

机器人要具备实时感知、理解、推理和行动的能力，这仅仅依靠单一模态是远远不够的，乐聚机器人采用的是完整的多模态数据采集和融合（Multimodal Fusion）系统。

LET数据集融合了机器人头部视角和双腕视角的视频流数据，并同步采集RGB图像、深度图、关节状态和末端执行器状态等模态信息。通过全域采集操作过程中的多模态数据，可以为模型训练提供高一致性、高完整度的真机数据基础，从而使模型的感知和推理更贴近人类的认知方式。

LET数据集将复杂任务分解为一系列具有明确语义的原子动作步骤，采用规范标注方法，为每个任务提供子任务级别的时间轴与自然语言标注。还构建了一套系统的多模态对齐标注体系，每条数据配套多维度语义标签信息，包括：

物品标签：工业件、餐具、日用器具、药品等
技能标签：抓取、放置、旋转、推进、拉取、按压等
任务与场景标识：任务名统一编码，场景维度区分操作上下文语义
末端类型：分别记录夹爪、灵巧手执行动作
语言描述：如“从传送带抓取药盒并放置到指定托盘”，支持自然语言与动作对齐建模

这意味着机器人不只是“看见画面、听见声音”，而是能构建：关于环境、任务、机器人的统一语义认知模型。这正是下一代机器人能进入真实行业场景的核心技术基础。

多场景：真实落地的必备条件

多场景（Multi-scene）对于机器人数据集的重要性，可以说是决定模型能否真正“上岗”的关键因素。它不是“锦上添花”，而是从研究走向真实世界的必备条件。因为多场景极大影响了模型泛化性（Generalization）和鲁棒性（Robustness），也是当前大模型（VLA、VLM、World Model）成功的必要条件。

LET数据集以真实作业场景为核心，全面覆盖：