一、行业痛点:任务选择瓶颈,困住人形机器人控制规模化
长期以来,人形机器人领域的核心瓶颈始终聚焦于'任务选择'。传统强化学习模式存在缺陷:研究人员需要为机器人的每一种行为手动设计复杂的奖励机制,相当于为机器人'量身定制'动作指令。这种模式不仅耗时耗力,且无法实现规模化拓展。每新增一项技能都需要重新调试奖励参数,导致机器人控制器处于'碎片化'状态,难以形成通用型控制能力。
英伟达研究团队提出运动追踪是更具规模化潜力的核心目标。通过'超大规模化'运动追踪,训练出通用型控制器,让机器人自主掌握各类全身动作技能,摆脱对人工奖励调试的依赖。
二、核心突破:超大规模训练,打造通用型运动控制大脑
为实现运动追踪的规模化突破,英伟达投入海量算力与数据资源,打造出具备通用控制能力的 SONIC 控制器。
-
海量多样化运动数据 SONIC 训练依托于 1 亿帧多样化运动数据,总时长超过 700 小时,涵盖人类日常行走、跑步、跳舞、摔倒起身、精细操作等各类动作场景。这些海量数据让 SONIC 能够自主习得'人类运动先验',无需为每一项新技能手动调试奖励参数。
-
超大参数规模 SONIC 的参数规模达到 4200 万,相较于当前行业主流控制器几百万的参数规模,实现了数量级的提升。更大的参数规模让 SONIC 能够更精准地捕捉人类运动的细微变化,同时提升对不同动作场景的适配能力。
-
海量算力支撑 为完成这场超大规模训练,英伟达投入了 9000 GPU 小时的算力资源,攻克了大规模运动数据训练中的效率瓶颈,最终实现了通用型追踪能力。
三、创新亮点:通用令牌空间,实现多模态输入无缝适配
SONIC 的核心创新之一在于其打造的'通用令牌空间'(Universal Token Space),彻底解决了传统控制系统'输入适配繁琐'的痛点。
传统机器人控制系统针对不同的输入方式需要进行专门的重定向适配。而 SONIC 采用了统一的编码器 - 解码器架构,能够直接处理多种异质输入模态,无需专门的重定向适配,通过将所有输入映射到一个共享的潜在表示空间,实现了'一种策略,多种输入'。
-
VR 遥操作 支持通过 PICO 头显与追踪器,实现对机器人的全身体感控制。操作人员佩戴 VR 设备做出的每一个动作,SONIC 都能精准捕捉并实时映射到机器人身上。
-
视频转动作 能够通过单目网络摄像头,实时估算人类运动动作,解析帧率超过 60 FPS。只需拍摄一段人类动作视频,SONIC 就能快速解析动作逻辑,让机器人模仿完成相应动作。
-
多模态指令 支持文本提示、节奏音乐等多模态指令的零样本执行。比如输入文本指令'像猴子一样跳舞',或者播放一段节奏鲜明的音乐,SONIC 就能自主解析指令意图,生成相应的全身动作。
此外,这种通用令牌空间还实现了'跨形态迁移'能力,即便机器人与人类的形态存在差异,SONIC 也能让其精准模仿人类动作。
四、差异化定位:'系统 1'控制器,补齐通用机器人控制短板
英伟达将 SONIC 定位为一款强大的'系统 1'控制器,清晰地划分了其与行业内其他控制器的功能边界。
在机器人控制领域,'系统 1'与'系统 2'构成了机器人的完整'大脑':
- 系统 1:快速、反应式的控制层,负责处理全身动作技能,核心特点是'快、准、灵'。
- 系统 2:慢速、理性的推理层,负责处理高层级规划,核心特点是'精准、全面'。
SONIC 作为'系统 1'控制器,专注于全身动作的实时、流畅控制。为了打通'系统 1'反应控制与'系统 2'高层规划之间的鸿沟,英伟达研发了一款实时运动学运动规划器,能在普通笔记本电脑上在 5 毫秒内重新生成未来的运动轨迹。
此外,SONIC 还具备与基础模型规划的兼容性。英伟达的研究团队对 GROOT N1.5 视觉 - 语言 - 动作(VLA)模型进行了微调,使其能够输出遥操作格式的指令,再由 SONIC 执行这些指令,最终在移动抓取放置任务中实现了 95% 的成功率。
五、战略布局:开源物理 AI 栈,加速行业规模化落地
延续 DreamDojo 的发布策略,英伟达在推出 SONIC 的同时,同步将其权重、推理代码和文档全部开源。SONIC 项目负责人罗正毅明确表示,这将是一个持续更新的项目,后续还将逐步开放训练代码,并进一步深化与 GROOT 模型的集成。
目前,SONIC 的代码和模型已在 GitHub 上正式上线,依托 GR00T-WholeBodyControl 仓库向全球开发者开放。更重要的是,SONIC 的技术实力已通过了真实场景的验证——英伟达在 Unitree G1 人形机器人上进行了实测,在 50 种不同的真实世界运动轨迹中,SONIC 实现了 100% 的成功率。


