论文概述
SimVLA: A Simple VLA Baseline for Robotic Manipulation
一、研究背景与动机
1.1 领域现状
VLA(Vision-Language-Action)模型已成为通用机器人操控的有前景范式,通过大规模预训练实现强大性能。近期研究提出了多种架构创新:
- 视觉增强:时序上下文、运动线索(FlowVLA, TraceVLA)
SimVLA 提出了一种极简的视觉 - 语言 - 动作(VLA)基线模型,旨在解决机器人操控领域的性能归因难题。通过严格解耦感知与控制,并标准化训练配方,该模型仅用 0.5B 参数在仿真基准上超越了多 B 参数模型,且无需机器人预训练。研究强调了数据打乱、动作归一化等“静默”实现细节对性能的关键影响。SimVLA 显存占用低,易于复现和部署,为未来架构创新提供了透明可靠的对比基准。
SimVLA: A Simple VLA Baseline for Robotic Manipulation
VLA(Vision-Language-Action)模型已成为通用机器人操控的有前景范式,通过大规模预训练实现强大性能。近期研究提出了多种架构创新:
这些进展常伴随混杂变量(confounding variables):
这使得性能归因(performance attribution)变得困难——难以区分是架构创新的贡献,还是训练配方的差异。
建立透明、可复现的基线,通过严格解耦感知与控制,标准化训练动态,证明极简设计也能达到 SOTA 性能。
┌─────────────────────────────────────────┐
│ VLM Backbone (0.5B) │
│ (预训练视觉 - 语言模型,仅作编码器) │
│ 输入:多视角 RGB + 语言指令 │
│ 输出:融合的视觉 - 语言 token │
└─────────────────┬───────────────────────┘
▼
┌─────────────────────────────────────────┐
│ Action Head (轻量级) │
│ (标准 Transformer Encoder) │
│ 输入:VLM tokens + 本体感知状态 + 时间步 │
│ + 噪声动作块 │
│ 输出:去噪向量场(连续动作预测) │
└─────────────────────────────────────────┘
问题形式化:给定观测 $o_t = [I_t^1, ..., I_t^n, \ell_t, s_t]$,预测未来动作块 $A_t = [a_t, a_{t+1}, ..., a_{t+H-1}] \in \mathbb{R}^{H \times d_a}$。
VLM 编码: $Z_t = E_\phi(I_t^1, ..., I_t^n, \ell_t)$
流匹配(Flow Matching):
推理:使用少量 Euler 积分步骤从噪声生成干净动作。
| 组件 | 配置 |
|---|---|
| VLM 骨干 | SmolVLM-0.5B 或 Florence-2 (0.9B) |
| Action Head | Transformer Encoder (1024, 24, 16) ≈ 300M 参数 |
| 注意力机制 | 纯自注意力(无交叉注意力、无记忆模块) |
| 条件注入 | Token 拼接(非 AdaLN 或交叉注意力) |
论文强调"静默"实现细节往往比架构差异影响更大:
| 因素 | 关键发现 |
|---|---|
| 动作块长度 H | H=10 对 LIBERO 最优,H=30 对真实机器人更好 |
| 数据打乱 | 关闭打乱导致性能崩溃(9.9% vs 98.6%) |
| 动作归一化 | 关闭归一化严重损害性能(12.3% vs 98.6%) |
| 因素 | 关键发现 |
|---|---|
| 学习率 | 2×10⁻⁴最优;过大 (5×10⁻⁴) 或过小 (5×10⁻⁵) 都显著下降 |
| VLM 学习率乘数 | 0.1(保持预训练知识);设为 1.0 导致性能暴跌至 44.2% |
| 预热步骤 | 1000 步有轻微帮助(96.8% vs 98.6%) |
| 调度器 | Cosine decay 略有提升(97.5%) |
| 模型 | 参数量 | Spatial | Object | Goal | Long | 平均 |
|---|---|---|---|---|---|---|
| SimVLA (Ours) | 0.5B | 99.6 | 99.8 | 98.6 | 96.4 | 98.6 |
| X-VLA | 0.9B | 98.2 | 98.6 | 97.8 | 97.6 | 98.1 |
| VLA-Adapter | 0.5B | 97.8 | 99.2 | 97.2 | 95.0 | 97.3 |
| OpenVLA-OFT | 7B | 97.6 | 98.4 | 97.9 | 94.5 | 97.1 |
| MemoryVLA | 7B | 98.4 | 98.4 | 96.4 | 93.4 | 96.7 |
| π0.5 | 3B | 98.8 | 98.2 | 98.0 | 92.4 | 96.9 |
关键发现:
| 套件 | 方法 | 原始 | 物体 | 位置 | 语义 | 任务 |
|---|---|---|---|---|---|---|
| Spatial | π0.5 | 98.0 | 97.0 | 20.0 | 97.0 | 1.0 |
| SimVLA | 99.0 | 98.0 | 29.0 | 98.0 | 0.0 | |
| Goal | π0.5 | 97.0 | 97.0 | 38.0 | 97.0 | 0.0 |
| SimVLA | 99.0 | 82.0 | 0.0 | 99.0 | 10.0 | |
| Long | π0.5 | 93.0 | 92.0 | 8.0 | 93.0 | 1.0 |
| SimVLA | 96.0 | 61.0 | 3.0 | 98.0 | 10.0 |
WidowX(表 4):SimVLA 达到95.8%,与 X-VLA 持平,超越 MemoryVLA (71.9%)
Google Robot(表 5):SimVLA 平均76.1%,超越 SpatialVLA (67.5%) 和 RT-2-X (65.6%)
平台:Galaxea R1 Lite(移动双臂机器人,23 自由度)
协议:零样本跨场景泛化(训练场景→全新测试场景)
| 任务 | SimVLA | π0.5 |
|---|---|---|
| Store Dolls | ~85% | ~82% |
| Arrange Egg | ~78% | ~85% |
| Put Flower | ~48% | ~45% |
| Put Pen | ~55% | ~62% |
| Wipe Desktop | ~82% | ~78% |
| Fold Clothes | ~8% | ~10% |
| Pick Garbage | ~82% | ~75% |
| Open Drawer | ~88% | ~80% |
结论:SimVLA 与 π0.5 性能相当,但 SimVLA无机器人预训练,π0.5 使用公开权重初始化。
| 模型 | 参数量 | LIBERO 平均 | 峰值显存 (GB) |
|---|---|---|---|
| OpenVLA-OFT | 7B | 97.1% | 62.0 |
| π0.5 | 3B | 96.9% | 51.3 |
| VLA-Adapter | 0.5B | 97.3% | 24.7 |
| SimVLA | 0.5B | 98.6% | 9.3 |
显存效率提升:比 VLA-Adapter 低2.7×,比 OpenVLA-OFT 低6.7×
| 局限性 | 说明 |
|---|---|
| 位置鲁棒性 | LIBERO-PRO 中位置扰动性能仍较低 |
| 多模态动作分布 | 流匹配假设单峰分布,未显式建模多模态 |
| 长时程任务 | Long 套件性能 (96.4%) 低于 Spatial/Object(99%+) |
未来工作:
这篇论文通过严谨的实验设计和透明的报告,为 VLA 领域提供了宝贵的基线参考,其"简单但强大"的理念可能对机器人学习社区产生深远影响。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online