跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

人形机器人 LET 数据集开源:6 万分钟真机实采与多模态技术

乐聚机器人联合多方发布 LET 数据集,基于全尺寸人形机器人 Kuavo 4 Pro 采集。包含 60,000+ 分钟真机数据,覆盖工业、零售等多场景及 31 项子任务。采用多模态融合与对齐标注技术,支持真实环境下的可扩展机器人学习。数据集已捐赠至开放原子开源基金会,并在 Openloong、GitHub 等平台上线。

赛博行者发布于 2026/3/29更新于 2026/5/2427 浏览

LET 数据集发布

LET 数据集是国内开源规模最大的全尺寸人形机器人数据集,由乐聚智能、国家地方共建人形机器人创新中心等单位联合主导构建。该数据集基于全尺寸人形机器人 Kuavo 4 Pro 采集,涵盖多场景、多类型操作的真实世界多任务数据,面向机器人操作、移动与交互任务,支持真实环境下的可扩展机器人学习。

文章配图

标准共建与行业影响

乐聚参与国家级与地方级标准体系的共建,推动行业标准发展。这标志着技术具备硬核实力与落地扎实性,鲁棒性强,能在真实世界中运行。通过国地标准共建,将自身技术体系纳入'行业基线建设'的工程化进程中。

真机数据采集

数据集包含 60,000+ 分钟真机实采数据,相当于连续工作 41 天。数据非仿真,通过乐聚夸父(Kuavo 4 Pro)系列全尺寸人形机器人统一采集。该机器人具备 40+ 自由度,身高约 1.66 米,体重约 55 公斤,最大行走速度 7 km/h,支持不停机电池更换,搭配头部立体相机与腕部 RGB-D 相机。

图片

此外,乐聚'夸父'曾作为'0 号火炬手'亮相第十五届全国运动会,完成百米奔跑、挥手致意等高难度动作。大规模真实数据采集能捕获大量'非理想数据',形成对算法极具价值的现实世界误差分布模型,为探索机器人领域的 Scaling Law 提供更优质的数据基础。

多模态数据融合和对齐标注

系统采用完整的多模态数据采集和融合(Multimodal Fusion)。融合了机器人头部视角和双腕视角的视频流数据,并同步采集 RGB 图像、深度图、关节状态和末端执行器状态等模态信息。

数据集将复杂任务分解为一系列具有明确语义的原子动作步骤,采用规范标注方法,提供子任务级别的时间轴与自然语言标注。构建了一套系统的多模态对齐标注体系,每条数据配套多维度语义标签信息,包括物品标签、技能标签、任务与场景标识、末端类型及语言描述。

文章配图

多场景覆盖

多场景对于机器人数据集的重要性决定了模型能否真正'上岗'。LET 数据集以真实作业场景为核心,全面覆盖:

  • 3 大领域:工业、商业零售和日常生活
  • 6 大场景:汽车工厂、生活服务、快消场景、酒店服务、物流场景和 3C 工厂
  • 31 项子任务
  • 117 种原子技能:抓取、双手操作、工具使用等

文章配图

数采链技术创新

LET 数据集引入数采链三大技术创新:

  1. 构建视觉伺服闭环数据:将机器人本体和传感器转变为统一的抽象坐标系或特征,使数据质量一致性达到 90% 以上。
  2. 采用高效的组帧技术:将多传感器数据帧的时间戳误差与延迟严格控制在 10ms 以内。
  3. 建立自动化 Benchmark 评测系统:对数据收敛度、样本效率与稳定性进行全面评估,确保数据迁移的有效性和泛化能力。

应用场景案例

  1. 日化生产场景:日化产品定姿摆放 文章配图

  2. 汽车制造场景:SPS 零件分拣 文章配图

  3. 物流场景:快递分拣应用 文章配图

  4. 3C 场景:传送带物料分拣应用 文章配图

技术路线总结

综合来看,LET 数据集采用的技术路线可概括为:

  1. 先进的标准体系:通过国地标准共建,将技术路线与行业未来要求绑定。
  2. 多模态、长时序、真机实采的数据体系:60,000+ 分钟是构建机器人'真实世界行为分布'的基础。
  3. 多模态融合的感知认知体系:让机器人从'看见'升级为'理解'。
  4. 多场景验证的泛化能力构建:全面场景的泛化性和鲁棒性突破。

该数据集还提供了一套数据转换、模型训练、仿真测试与真机部署的全流程数据工具链,推动机器人从实验室性能向工程可用性、真实世界可靠性演进。

下载方式

国内开源规模最大的全尺寸人形机器人数据集'LET 数据集'已捐赠至开放原子开源基金会,并在 Openloong 开源社区官网同步上线。可通过以下公开平台获取:

  • Openloong 开源社区
  • 魔搭社区 / HuggingFace / GitHub

目录

  1. LET 数据集发布
  2. 标准共建与行业影响
  3. 真机数据采集
  4. 多模态数据融合和对齐标注
  5. 多场景覆盖
  6. 数采链技术创新
  7. 应用场景案例
  8. 技术路线总结
  9. 下载方式
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 基于 Docker 与内网穿透实现 Nginx 远程访问
  • Xilinx 7 系列 FPGA 数据手册
  • Redis Java 客户端选型与 SpringBoot 集成指南
  • 渗透测试常见面试题与核心知识点解析
  • 大模型分布式训练与高效调参技术实战
  • Java Lambda 表达式核心原理与用法
  • WSL2 部署 OpenClaw AI 助手:安装配置与运行
  • 数据结构:二叉树初阶与实现
  • Java 正则表达式基础与实战:元字符、限定符及 Email 验证
  • 前端开发基础:HTML、CSS 与 JavaScript 入门
  • 混合知识库搭建:本地 Docker 部署 Neo4j 图数据库与 Milvus 向量库
  • Python Pandas Timestamp 常用属性与方法详解
  • 基于C#的OPC转Web API服务器框架源码,集成IoT与Modbus及PLC协议
  • Xilinx 7 系列 FPGA 数据手册核心特性与选型指南
  • Python Google Search API 集成实战与无依赖方案
  • C++ 内存管理:malloc 原理与实现
  • AI 开发中的风险与治理:安全、可控性与责任边界
  • AIOps 实践:基于 Dify+LangBot 实现飞书智能体对话机器人
  • C++ 算法刷题:气球排列、迷宫搜索与主持人调度
  • Spring Cloud + Nacos 微服务从 0 到 1 搭建实战

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online