跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

英伟达 SONIC 开源全身追踪技术,重构人形机器人控制逻辑

英伟达开源 SONIC 全身追踪技术,通过超大规模训练(1 亿帧数据、4200 万参数)打造通用型运动控制大脑。其核心创新在于通用令牌空间,支持 VR 遥操作、视频转动作及多模态指令输入,实现跨形态迁移。作为系统 1 控制器,SONIC 专注于快速反应式控制,与高层规划模型协同,旨在解决人形机器人任务选择瓶颈与控制碎片化问题,推动行业向规模化落地发展。

GitMaster发布于 2026/3/30更新于 2026/6/234 浏览
英伟达 SONIC 开源全身追踪技术,重构人形机器人控制逻辑

一、行业痛点:任务选择瓶颈,困住人形机器人控制规模化

长期以来,人形机器人领域的核心瓶颈始终聚焦于'任务选择'。传统强化学习模式存在缺陷:研究人员需要为机器人的每一种行为手动设计复杂的奖励机制,相当于为机器人'量身定制'动作指令。这种模式不仅耗时耗力,且无法实现规模化拓展。每新增一项技能都需要重新调试奖励参数,导致机器人控制器处于'碎片化'状态,难以形成通用型控制能力。

英伟达研究团队提出运动追踪是更具规模化潜力的核心目标。通过'超大规模化'运动追踪,训练出通用型控制器,让机器人自主掌握各类全身动作技能,摆脱对人工奖励调试的依赖。

二、核心突破:超大规模训练,打造通用型运动控制大脑

为实现运动追踪的规模化突破,英伟达投入海量算力与数据资源,打造出具备通用控制能力的 SONIC 控制器。

  1. 海量多样化运动数据 SONIC 训练依托于 1 亿帧多样化运动数据,总时长超过 700 小时,涵盖人类日常行走、跑步、跳舞、摔倒起身、精细操作等各类动作场景。这些海量数据让 SONIC 能够自主习得'人类运动先验',无需为每一项新技能手动调试奖励参数。

  2. 超大参数规模 SONIC 的参数规模达到 4200 万,相较于当前行业主流控制器几百万的参数规模,实现了数量级的提升。更大的参数规模让 SONIC 能够更精准地捕捉人类运动的细微变化,同时提升对不同动作场景的适配能力。

  3. 海量算力支撑 为完成这场超大规模训练,英伟达投入了 9000 GPU 小时的算力资源,攻克了大规模运动数据训练中的效率瓶颈,最终实现了通用型追踪能力。

三、创新亮点:通用令牌空间,实现多模态输入无缝适配

SONIC 的核心创新之一在于其打造的'通用令牌空间'(Universal Token Space),彻底解决了传统控制系统'输入适配繁琐'的痛点。

传统机器人控制系统针对不同的输入方式需要进行专门的重定向适配。而 SONIC 采用了统一的编码器 - 解码器架构,能够直接处理多种异质输入模态,无需专门的重定向适配,通过将所有输入映射到一个共享的潜在表示空间,实现了'一种策略,多种输入'。

  1. VR 遥操作 支持通过 PICO 头显与追踪器,实现对机器人的全身体感控制。操作人员佩戴 VR 设备做出的每一个动作,SONIC 都能精准捕捉并实时映射到机器人身上。

  2. 视频转动作 能够通过单目网络摄像头,实时估算人类运动动作,解析帧率超过 60 FPS。只需拍摄一段人类动作视频,SONIC 就能快速解析动作逻辑,让机器人模仿完成相应动作。

  3. 多模态指令 支持文本提示、节奏音乐等多模态指令的零样本执行。比如输入文本指令'像猴子一样跳舞',或者播放一段节奏鲜明的音乐,SONIC 就能自主解析指令意图,生成相应的全身动作。

此外,这种通用令牌空间还实现了'跨形态迁移'能力,即便机器人与人类的形态存在差异,SONIC 也能让其精准模仿人类动作。

四、差异化定位:'系统 1'控制器,补齐通用机器人控制短板

英伟达将 SONIC 定位为一款强大的'系统 1'控制器,清晰地划分了其与行业内其他控制器的功能边界。

在机器人控制领域,'系统 1'与'系统 2'构成了机器人的完整'大脑':

  • 系统 1:快速、反应式的控制层,负责处理全身动作技能,核心特点是'快、准、灵'。
  • 系统 2:慢速、理性的推理层,负责处理高层级规划,核心特点是'精准、全面'。

SONIC 作为'系统 1'控制器,专注于全身动作的实时、流畅控制。为了打通'系统 1'反应控制与'系统 2'高层规划之间的鸿沟,英伟达研发了一款实时运动学运动规划器,能在普通笔记本电脑上在 5 毫秒内重新生成未来的运动轨迹。

此外,SONIC 还具备与基础模型规划的兼容性。英伟达的研究团队对 GROOT N1.5 视觉 - 语言 - 动作(VLA)模型进行了微调,使其能够输出遥操作格式的指令,再由 SONIC 执行这些指令,最终在移动抓取放置任务中实现了 95% 的成功率。

五、战略布局:开源物理 AI 栈,加速行业规模化落地

延续 DreamDojo 的发布策略,英伟达在推出 SONIC 的同时,同步将其权重、推理代码和文档全部开源。SONIC 项目负责人罗正毅明确表示,这将是一个持续更新的项目,后续还将逐步开放训练代码,并进一步深化与 GROOT 模型的集成。

目前,SONIC 的代码和模型已在 GitHub 上正式上线,依托 GR00T-WholeBodyControl 仓库向全球开发者开放。更重要的是,SONIC 的技术实力已通过了真实场景的验证——英伟达在 Unitree G1 人形机器人上进行了实测,在 50 种不同的真实世界运动轨迹中,SONIC 实现了 100% 的成功率。

六、行业对比与未来展望:SONIC 重构,人形机器人控制进入规模化时代

SONIC 的开源与发布,标志着人形机器人控制领域正式进入'通用化、规模化'时代。

潜在挑战

  1. 多场景适配的稳定性:在更复杂、更极端的真实场景中,能否持续保持高精度、高稳定性的控制,仍需长期验证。
  2. 开发者生态的构建:如何吸引全球开发者积极参与,基于 SONIC 进行二次开发、场景适配,将技术转化为实际应用,是英伟达面临的核心考验。

未来展望 短期来看,英伟达将聚焦持续更新 SONIC,开放训练代码,深化与 GROOT 模型的集成。中期来看,SONIC 将逐步与 DreamDojo 世界模型深度融合,形成'仿真训练 + 实时控制'的完整闭环。长期来看,SONIC 的开源与普及,将彻底重构人形机器人的控制逻辑,推动整个人形机器人行业从'实验室原型'向'规模化商用'加速跨越。

代码和模型目前可通过 GitHub 上的 GROOT-WholeBodyControl 仓库获取。

目录

  1. 一、行业痛点:任务选择瓶颈,困住人形机器人控制规模化
  2. 二、核心突破:超大规模训练,打造通用型运动控制大脑
  3. 三、创新亮点:通用令牌空间,实现多模态输入无缝适配
  4. 四、差异化定位:“系统 1”控制器,补齐通用机器人控制短板
  5. 五、战略布局:开源物理 AI 栈,加速行业规模化落地
  6. 六、行业对比与未来展望:SONIC 重构,人形机器人控制进入规模化时代
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Claude-Mem:为 Claude Code 赋予跨会话长期记忆能力
  • Python Flask 旅游景点酒店推荐系统设计与实现
  • 直流无刷电机 FOC 控制算法
  • DeepSeek-R1 大模型基于 MS-Swift 框架的部署、推理与微调实践
  • TRAE SOLO AI 开发体验与 cpolar 内网穿透方案
  • Linux 进程控制实战:微型 Shell 命令行解释器实现
  • Qwen3-Embedding-4B 基于 llama.cpp 的集成部署教程
  • OpenClaw 大龙虾机器人安装与配置指南
  • Jenkins 核心概念、Pipeline 脚本与运维实战指南
  • Vheer:免费免登录的 AI 绘画与视频生成工具
  • 人工智能、机器学习与深度学习的概念辨析
  • 地瓜机器人 RDK 系列选型指南:X3 vs X5 vs S100 vs S100P
  • Linux tcpdump 深入介绍与实战使用
  • 基于 Leaflet Trackplayer 实现 WebGIS 高速轨迹可视化
  • OpenCLaw Web UI 访问失败排查与配置修复方案
  • 前端 pnpm workspace 架构详解
  • 前端 pnpm workspace 架构详解
  • SpringBoot+Vue 高校学科竞赛管理平台设计与实现
  • 利用 Higress 将 REST API 快速转换为 MCP Server
  • Java 常用类详解

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online