小鹏 VLA 2.0 自动驾驶与机器人技术突破解析

涌现的奇迹：从失败边缘到全新大陆

项目经历数月失败后，系统突然学会此前难以攻克的场景，步态僵硬的机器人瞬间走得像真人一样。这是小鹏 VLA 2.0 的'涌现'过程。小鹏从 2024 年起投入了 3 万张卡的算力，烧掉 20 多亿训练费用。直到今年二季度某一天，模型发生了巨大跳跃。坚持'第一性原理'，简化架构，告别复杂计算，直接用真实世界数据训练。结果模型不再需要数据标注，就能泛化到新城市甚至海外市场。

测试车在红灯即将转绿时，会缓缓向前蠕动，就像人类预备起步。即使前方灯没变，它也能通过两侧灯的变化推测。这不是人为教的，而是数据量大到一定程度，自然'理解'了。

VLA 2.0 的核心秘密：为什么甩掉'Language'？

VLA（Vision-Language-Action）是自动驾驶的核心，但传统架构有三大痛点：

输入信号损失：从视频到离散 Token，信息大量丢失。
输出连续性：控制信号是连续的，无法简单离散化。
缺乏真实反馈：强化学习往往被简化成监督微调，没法模拟物理世界。

小鹏的解决方案？拆掉'Language'部分，直接从 Vision 到 Action！输入用真实视频流，输出用连续信号，网络结构极简。文字作为 Token 输入，但去掉了图文对模块，训练效率大幅提升。

文章配图

结果：不需要任何指令，就能实现园区漫游。部署时，直接内嵌推理逻辑，去掉云端计算，完美适配量产车。

量产部署的硬核优化：本地化、低延时

世界模型计算庞大，但小鹏 VLA 2.0 实现了本地部署。他们从模型到软件，再到编译器和硬件联合优化，让大规模模型在图灵芯片上实时运行，与摄像头帧率一致。传统方法如剪枝、蒸馏、量化当然用了，但关键是'榨取每一比特算力'。

激光雷达？小鹏说：不会装回来了！

Robotaxi 会用激光雷达吗？一口否定：'为什么一定要用？'激光雷达扫描频率仅 10Hz，高功率不符合车规，雨雾天气还易噪点。相反，摄像头信息量巨大（500-800 万像素，三通道 8 比特），过去算法弱才依赖激光。现在，优化算法后，摄像头远超激光。

摄像头原始数据 28 比特，转 RGB 时损失 16 比特，但通过更好算法，能在暗光、逆光环境下捕捉更多信息。小鹏坚信纯视觉端到端是未来。

人形机器人 IRON：从焦虑到惊艳'涌现'

转向机器人，小鹏的 IRON 同样经历了'涌现'。团队在 4 月上海车展前一个月，还为步态僵硬焦虑。但 3 月某晚，IRON 在倒退行走时突然拟人化！这是生成式控制器的拐点，数据和算力积累的结果。

IRON 的秘密：

脊柱设计：不是简单腰部，而是仿人类'脊柱 + 肌肉群 + 腹腔 + 皮肤'，自由度更高。
前脚掌自由度：加上生成式控制器，实现大师级太极、叶问蹲。
第四代控制器：'反重力器'，对抗重力本质，输入连续姿态，就能执行动作。

机器人能力是'螺旋上升'：从 30 分场景应用，解决问题到 40 分，再循环。未来，IRON 不只工具，还能情感链接——甚至做成亲人模样。

涌现背后的启示：坚持与上限

'涌现'不是玄学，而是投入 + 原理的产物。小鹏倾全公司资源自研机器人（除了螺丝），证明了 VLA 在操纵上的潜力。发展缓慢，但上限高。人类 100 分，机器人至少 80 分才能进家庭。

小鹏 VLA 2.0 自动驾驶与机器人技术突破解析

涌现的奇迹：从失败边缘到全新大陆

VLA 2.0 的核心秘密：为什么甩掉'Language'？

量产部署的硬核优化：本地化、低延时

激光雷达？小鹏说：不会装回来了！

人形机器人 IRON：从焦虑到惊艳'涌现'

涌现背后的启示：坚持与上限

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

小鹏 VLA 2.0 自动驾驶与机器人技术突破解析

涌现的奇迹：从失败边缘到全新大陆

VLA 2.0 的核心秘密：为什么甩掉'Language'？

量产部署的硬核优化：本地化、低延时

激光雷达？小鹏说：不会装回来了！

人形机器人 IRON：从焦虑到惊艳'涌现'

涌现背后的启示：坚持与上限

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具