涌现的奇迹:从失败边缘到全新大陆
项目经历数月失败后,系统突然学会此前难以攻克的场景,步态僵硬的机器人瞬间走得像真人一样。这是小鹏 VLA 2.0 的'涌现'过程。小鹏从 2024 年起投入了 3 万张卡的算力,烧掉 20 多亿训练费用。直到今年二季度某一天,模型发生了巨大跳跃。坚持'第一性原理',简化架构,告别复杂计算,直接用真实世界数据训练。结果模型不再需要数据标注,就能泛化到新城市甚至海外市场。
测试车在红灯即将转绿时,会缓缓向前蠕动,就像人类预备起步。即使前方灯没变,它也能通过两侧灯的变化推测。这不是人为教的,而是数据量大到一定程度,自然'理解'了。
VLA 2.0 的核心秘密:为什么甩掉'Language'?
VLA(Vision-Language-Action)是自动驾驶的核心,但传统架构有三大痛点:
- 输入信号损失:从视频到离散 Token,信息大量丢失。
- 输出连续性:控制信号是连续的,无法简单离散化。
- 缺乏真实反馈:强化学习往往被简化成监督微调,没法模拟物理世界。
小鹏的解决方案?拆掉'Language'部分,直接从 Vision 到 Action!输入用真实视频流,输出用连续信号,网络结构极简。文字作为 Token 输入,但去掉了图文对模块,训练效率大幅提升。

结果:不需要任何指令,就能实现园区漫游。部署时,直接内嵌推理逻辑,去掉云端计算,完美适配量产车。
量产部署的硬核优化:本地化、低延时
世界模型计算庞大,但小鹏 VLA 2.0 实现了本地部署。他们从模型到软件,再到编译器和硬件联合优化,让大规模模型在图灵芯片上实时运行,与摄像头帧率一致。传统方法如剪枝、蒸馏、量化当然用了,但关键是'榨取每一比特算力'。
激光雷达?小鹏说:不会装回来了!
Robotaxi 会用激光雷达吗?一口否定:'为什么一定要用?'激光雷达扫描频率仅 10Hz,高功率不符合车规,雨雾天气还易噪点。相反,摄像头信息量巨大(500-800 万像素,三通道 8 比特),过去算法弱才依赖激光。现在,优化算法后,摄像头远超激光。
摄像头原始数据 28 比特,转 RGB 时损失 16 比特,但通过更好算法,能在暗光、逆光环境下捕捉更多信息。小鹏坚信纯视觉端到端是未来。
人形机器人 IRON:从焦虑到惊艳'涌现'
转向机器人,小鹏的 IRON 同样经历了'涌现'。团队在 4 月上海车展前一个月,还为步态僵硬焦虑。但 3 月某晚,IRON 在倒退行走时突然拟人化!这是生成式控制器的拐点,数据和算力积累的结果。
IRON 的秘密:
- 脊柱设计:不是简单腰部,而是仿人类'脊柱 + 肌肉群 + 腹腔 + 皮肤',自由度更高。
- 前脚掌自由度:加上生成式控制器,实现大师级太极、叶问蹲。
- 第四代控制器:'反重力器',对抗重力本质,输入连续姿态,就能执行动作。
机器人能力是'螺旋上升':从 30 分场景应用,解决问题到 40 分,再循环。未来,IRON 不只工具,还能情感链接——甚至做成亲人模样。
涌现背后的启示:坚持与上限
'涌现'不是玄学,而是投入 + 原理的产物。小鹏倾全公司资源自研机器人(除了螺丝),证明了 VLA 在操纵上的潜力。发展缓慢,但上限高。人类 100 分,机器人至少 80 分才能进家庭。


