SimVLA: 一种简单的机器人操作 VLA 基线模型

论文概述

SimVLA: A Simple VLA Baseline for Robotic Manipulation

一、研究背景与动机

1.1 领域现状

VLA（Vision-Language-Action）模型已成为通用机器人操控的有前景范式，通过大规模预训练实现强大性能。近期研究提出了多种架构创新：

视觉增强：时序上下文、运动线索（FlowVLA, TraceVLA）
3D 空间感知：显式注入几何先验（SpatialVLA, 4D-VLA）
复杂动作表示：扩散策略、离散 token 化（π0, DD-VLA）

1.2 核心问题

这些进展常伴随混杂变量（confounding variables）：

不同的预训练数据集
各异的骨干网络规模
特定的优化调度策略

这使得性能归因（performance attribution）变得困难——难以区分是架构创新的贡献，还是训练配方的差异。

1.3 研究目标

建立透明、可复现的基线，通过严格解耦感知与控制，标准化训练动态，证明极简设计也能达到 SOTA 性能。

二、SimVLA 方法详解

2.1 核心设计理念：严格解耦感知与控制

┌─────────────────────────────────────────┐
│ VLM Backbone (0.5B)                     │
│ (预训练视觉 - 语言模型，仅作编码器)       │
│ 输入：多视角 RGB + 语言指令               │
│ 输出：融合的视觉 - 语言 token             │
└─────────────────┬───────────────────────┘
                  ▼
┌─────────────────────────────────────────┐
│ Action Head (轻量级)                    │
│ (标准 Transformer Encoder)              │
│ 输入：VLM tokens + 本体感知状态 + 时间步 │
│        + 噪声动作块                      │
│ 输出：去噪向量场（连续动作预测）         │
└─────────────────────────────────────────┘

2.2 数学建模

问题形式化：给定观测 $o_t = [I_t^1, ..., I_t^n, \ell_t, s_t]$，预测未来动作块 $A_t = [a_t, a_{t+1}, ..., a_{t+H-1}] \in \mathbb{R}^{H \times d_a}$。

VLM 编码： $Z_t = E_\phi(I_t^1, ..., I_t^n, \ell_t)$

流匹配（Flow Matching）：

噪声动作：$x_t = t\epsilon + (1-t)x$，其中 $\epsilon \sim \mathcal{N}(0,I)$，$t \in (0,1]$
训练目标：$L(\theta) = \mathbb{E}[|v_\theta(x_t, o_t, t) - (\epsilon - x)|_2^2]$

推理：使用少量 Euler 积分步骤从噪声生成干净动作。

2.3 架构细节

组件	配置
VLM 骨干	SmolVLM-0.5B 或 Florence-2 (0.9B)
Action Head	Transformer Encoder (1024, 24, 16) ≈ 300M 参数
注意力机制	纯自注意力（无交叉注意力、无记忆模块）

因素	关键发现
动作块长度 H	H=10 对 LIBERO 最优，H=30 对真实机器人更好
数据打乱	关闭打乱导致性能崩溃（9.9% vs 98.6%）
动作归一化	关闭归一化严重损害性能（12.3% vs 98.6%）

因素	关键发现
学习率	2×10⁻⁴最优；过大 (5×10⁻⁴) 或过小 (5×10⁻⁵) 都显著下降
VLM 学习率乘数	0.1（保持预训练知识）；设为 1.0 导致性能暴跌至 44.2%
预热步骤	1000 步有轻微帮助（96.8% vs 98.6%）
调度器	Cosine decay 略有提升（97.5%）

模型	参数量	Spatial	Object	Goal	Long	平均
SimVLA (Ours)	0.5B	99.6	99.8	98.6	96.4	98.6
X-VLA	0.9B	98.2	98.6	97.8	97.6	98.1
VLA-Adapter	0.5B	97.8	99.2	97.2	95.0	97.3
OpenVLA-OFT	7B	97.6	98.4	97.9	94.5	97.1
MemoryVLA	7B	98.4	98.4	96.4	93.4	96.7
π0.5	3B	98.8	98.2	98.0	92.4	96.9

套件	方法	原始	物体	位置	语义	任务
Spatial	π0.5	98.0	97.0	20.0	97.0	1.0
	SimVLA	99.0	98.0	29.0	98.0	0.0
Goal	π0.5	97.0	97.0	38.0	97.0	0.0
	SimVLA	99.0	82.0	0.0	99.0	10.0
Long	π0.5	93.0	92.0	8.0	93.0	1.0
	SimVLA	96.0	61.0	3.0	98.0	10.0

任务	SimVLA	π0.5
Store Dolls	~85%	~82%
Arrange Egg	~78%	~85%
Put Flower	~48%	~45%
Put Pen	~55%	~62%
Wipe Desktop	~82%	~78%
Fold Clothes	~8%	~10%
Pick Garbage	~82%	~75%
Open Drawer	~88%	~80%

SimVLA: 一种简单的机器人操作 VLA 基线模型

论文概述

一、研究背景与动机

1.1 领域现状

1.2 核心问题

1.3 研究目标

二、SimVLA 方法详解

2.1 核心设计理念：严格解耦感知与控制

2.2 数学建模

2.3 架构细节

更多推荐文章

相关免费在线工具

三、关键创新：标准化训练配方

3.1 数据与表示

3.2 优化动态

3.3 架构消融

四、实验结果

4.1 仿真基准测试

LIBERO 基准（主要结果）

LIBERO-PRO 鲁棒性测试

WidowX 与 Google Robot

4.2 真实机器人实验

4.3 效率对比

五、核心贡献总结

六、局限性与未来方向

七、论文价值与影响

方法论意义

实践意义

更多推荐文章

相关免费在线工具

模型	参数量	LIBERO 平均	峰值显存 (GB)
OpenVLA-OFT	7B	97.1%	62.0
π0.5	3B	96.9%	51.3
VLA-Adapter	0.5B	97.3%	24.7
SimVLA	0.5B	98.6%	9.3

局限性	说明
位置鲁棒性	LIBERO-PRO 中位置扰动性能仍较低
多模态动作分布	流匹配假设单峰分布，未显式建模多模态
长时程任务	Long 套件性能 (96.4%) 低于 Spatial/Object(99%+)

SimVLA: 一种简单的机器人操作 VLA 基线模型

论文概述

一、研究背景与动机

1.1 领域现状

1.2 核心问题

1.3 研究目标

二、SimVLA 方法详解

2.1 核心设计理念：严格解耦感知与控制

2.2 数学建模

2.3 架构细节

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、关键创新：标准化训练配方

3.1 数据与表示

3.2 优化动态

3.3 架构消融

四、实验结果

4.1 仿真基准测试

LIBERO 基准（主要结果）

LIBERO-PRO 鲁棒性测试

WidowX 与 Google Robot

4.2 真实机器人实验

4.3 效率对比

五、核心贡献总结

六、局限性与未来方向

七、论文价值与影响

方法论意义

实践意义

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具