论文概述
SimVLA: A Simple VLA Baseline for Robotic Manipulation
一、研究背景与动机
1.1 领域现状
VLA(Vision-Language-Action)模型已成为通用机器人操控的有前景范式,通过大规模预训练实现强大性能。近期研究提出了多种架构创新:
- 视觉增强:时序上下文、运动线索(FlowVLA, TraceVLA)
- 3D 空间感知:显式注入几何先验(SpatialVLA, 4D-VLA)
- 复杂动作表示:扩散策略、离散 token 化(π0, DD-VLA)
1.2 核心问题
这些进展常伴随混杂变量(confounding variables):
- 不同的预训练数据集
- 各异的骨干网络规模
- 特定的优化调度策略
这使得性能归因(performance attribution)变得困难——难以区分是架构创新的贡献,还是训练配方的差异。
1.3 研究目标
建立透明、可复现的基线,通过严格解耦感知与控制,标准化训练动态,证明极简设计也能达到 SOTA 性能。
二、SimVLA 方法详解
2.1 核心设计理念:严格解耦感知与控制
┌─────────────────────────────────────────┐
│ VLM Backbone (0.5B) │
│ (预训练视觉 - 语言模型,仅作编码器) │
│ 输入:多视角 RGB + 语言指令 │
│ 输出:融合的视觉 - 语言 token │
└─────────────────┬───────────────────────┘
▼
┌─────────────────────────────────────────┐
│ Action Head (轻量级) │
│ (标准 Transformer Encoder) │
│ 输入:VLM tokens + 本体感知状态 + 时间步 │
│ + 噪声动作块 │
│ 输出:去噪向量场(连续动作预测) │
└─────────────────────────────────────────┘
2.2 数学建模
问题形式化:给定观测 $o_t = [I_t^1, ..., I_t^n, \ell_t, s_t]$,预测未来动作块 $A_t = [a_t, a_{t+1}, ..., a_{t+H-1}] \in \mathbb{R}^{H \times d_a}$。
VLM 编码: $Z_t = E_\phi(I_t^1, ..., I_t^n, \ell_t)$
流匹配(Flow Matching):
- 噪声动作:$x_t = t\epsilon + (1-t)x$,其中 $\epsilon \sim \mathcal{N}(0,I)$,$t \in (0,1]$
- 训练目标:$L(\theta) = \mathbb{E}[|v_\theta(x_t, o_t, t) - (\epsilon - x)|_2^2]$
推理:使用少量 Euler 积分步骤从噪声生成干净动作。
2.3 架构细节
| 组件 | 配置 |
|---|---|
| VLM 骨干 | SmolVLM-0.5B 或 Florence-2 (0.9B) |
| Action Head | Transformer Encoder (1024, 24, 16) ≈ 300M 参数 |
| 注意力机制 | 纯自注意力(无交叉注意力、无记忆模块) |

