
本教程提供用于部署 VLA 模型的优化量化和推理方法,以及针对新机器人、任务和环境的参考微调流程。在一个自包含的仿真环境中,结合场景生成和领域随机化(MimicGen)对性能和准确性进行严格验证。
- ✅ 针对 VLA 模型的量化和推理优化
- ✅ 原始 OpenVLA-7B 权重的准确性验证
- ✅ 基于合成数据生成的参考微调工作流程
- ✅ 在 Jetson AGX Orin 上使用 LoRA 进行设备端训练,以及在 A100/H100 实例上进行完全微调
- ✅ 在示例积木堆叠任务中通过领域随机化达到 85% 的准确率
- ✅ 提供用于复现结果的示例数据集和测试模型

1. 量化

已在 NanoLLM 的流式 VLM 管道中添加对 OpenVLA 的支持,使用 MLC 在 INT4/FP8 量化下运行,并利用 TensorRT 以 FP16 精度执行视觉编码器。
首先,我们将在 BridgeData V2 数据集上测试模型。该数据集也是模型的训练集,用于在部署时验证量化和推理是否正确。
下面的命令会启动容器、下载数据集和模型(如有必要)、在首次运行时进行量化,并使用归一化均方误差(NRMSE)来衡量模型预测动作值与数据集真实值之间的准确度。
INT4:
jetson-containers run $(autotag nano_llm) \
python3 -m nano_llm.vision.vla --api mlc \
--model openvla/openvla-7b \
--quantization q4f16_ft \
--dataset dusty-nv/bridge_orig_ep100 \
--dataset-type rlds \
--max-episodes 10 \
--save-stats /data/benchmarks/openvla_bridge_int4.json
FP8:
jetson-containers run $(autotag nano_llm) \
python3 -m nano_llm.vision.vla --api mlc \
--model openvla/openvla-7b \
--quantization q8f16_ft \
--dataset dusty-nv/bridge_orig_ep100 \
--dataset-type rlds \
--max-episodes 10 \
--save-stats /data/benchmarks/openvla_bridge_fp8.json
FP16:
jetson-containers run $(autotag nano_llm) \
python3 -m nano_llm.vision.vla --api hf \
--model openvla/openvla-7b \
--dataset dusty-nv/bridge_orig_ep100 \
--dataset-type rlds \
--max-episodes 10 \
--save-stats /data/benchmarks/openvla_bridge_fp16.json
- 使用
--save-stats 可以将逐帧指标和平均值保存到文件;
- 使用
--max-episodes 可以限制处理的 episode 数量。

- 测试环境:Jetson AGX Orin 64GB,JetPack 6
- 量化精度对比:后续微调模型在 INT4 上的准确度将与 FP8/FP16 保持一致
每一帧都会打印模型预测的 7 维动作向量及其真实值,以及该帧的准确率、延迟和帧率。波浪号(~)后的数字为迄今为止各项指标的平均值,命令结束时最后一行报告的是整个数据集处理完毕后的总体均值。
# INT4 step 355 [-0.02692 0.00776 -0.00299 0.08160 0.07292 0.04791 0.99608] accuracy 0.8466 ~0.9017 time=336.2 ms fps=2.96 ~2.97 gt 355 [-0.02387 0.00760 -0.00318 0.15965 0.07707 0.03281 1.00000]
# FP8 step 355 [-0.02392 0.00767 -0.00310 0.08160 0.07692 0.03217 0.99608] accuracy 0.9982 ~0.9523 time=469.7 ms fps=2.13 ~2.12 gt 355 [-0.02387 0.00760 -0.00318 0.15965 0.07707 0.03281 1.00000]
# FP16 step 355 [-0.02392 0.00767 -0.00310 0.08160 0.07692 0.03217 0.99608] accuracy 0.9982 ~0.9531 time=842.3 ms fps=1.19 ~1.18 gt 355 [-0.02387 0.00760 -0.00318 0.15965 0.07707 0.03281 1.00000]
Bridge 数据集已包含在训练集中,下面我们还会在未参与训练、具有更大场景变化的新数据上再次运行测试。此工具同样支持加载 Open X-Embodiment 中的 RLDS/TFDS 格式数据集,以及 Robomimic/MimicGen 的 HDF5 格式数据。
2. 推理 API
在容器中使用 NanoLLM 库对摄像头流运行 VLA 推理的代码非常简单:
from nano_llm import NanoLLM
from nano_llm.plugins import VideoSource
model = NanoLLM.from_pretrained(model, quantization='q4f16_ft')
camera = VideoSource(video_source, cuda_stream=0)
assert(model.vla)
while True:
image = camera.capture()
if image is None:
continue
actions = model.vla.predict_action(
image,
instruction="pick up the nearest object",
action_space="normalized",
return_tensors='np'
)
...
quantization='q4f16_ft':在推理时使用 INT4 + FP16 混合量化,并进行过微调,以在嵌入式设备(如 Jetson)上获得最佳性能和精度平衡。
3. 在线验证
鉴于该任务领域的挑战性、动态反馈回路以及仿真/训练/推理的计算需求,使用 VLA 进行语言引导的灵巧操作相比于仅使用 LLM 和 VLM,复杂度显著提升。
要从在 token 级别预测 logits,到在一系列连续帧中不断输出足够正确的动作以形成有用行为,就必须在训练和推理流程的每个阶段交叉检验输出并衡量准确度。
弥合仿真到现实的鸿沟:使用 NVIDIA Isaac Lab 训练 Spot 四足机运动
在训练期间,会根据真实动作标签(即有多少动作 token 被准确预测)来测量 token 分类准确率,模型通过最小化该损失来优化。
同时,也会根据还原出的实值输出与真实值的 L1 误差来衡量连续域动作准确率。由于 token 分类不对'更接近目标'提供额外奖励,连续动作准确率通常会略高于分类准确率。
实际上,为了在类似环境中成功完成任务,这两项准确率都应保持在 95% 以上。
为了达到如此高的准确度,相关工作和研究中通常会故意让模型在相同的 90 万个 episode 上训练多达 30 个 epoch(OpenVLA),以实现'过拟合'。Transformer 擅长通过少量示例记忆特定知识,但也对过拟合和遗忘先前学到的信息非常敏感。
在本项目的微调阶段,我们评估了不同训练 episode 数量与重复数据 epoch 数量对模型准确率和任务成功率的影响。
直到推理阶段才会测量实际的任务成功率,此时模型要么连入仿真器,要么在相似条件下进行一系列耗时的物理实验。
我们将 MimicGen 直接集成到 OpenVLA 的训练脚本中,以源源不断地产生全新的数据,但在模型处理了大量 episode 后,遇到了梯度不稳定的问题。
4. 用 MimicGen 仿真
MimicGen 利用场景图信息和任务/子任务的元数据,仅凭 10 个远程示教样本,就能生成随机化的训练回合——将原始示教轨迹插值到新的、随机的位置和姿态中。
这样即可产生大量独特的训练数据,提高模型的鲁棒性,而无需投入大量人工来教机器人新技能和行为。

MimicGen 构建在 Robomimic 和 Robosuite 仿真器之上,可与 VLA 一同在 Jetson 上无头运行,极大简化了可复现性实验的环境搭建。
MimicGen 包含 12 种任务,例如块状物堆叠、抓取与放置、装配以及厨房场景。每种任务都有随着学习进展而难度递增的多个变体。
在本教程阶段,我们将聚焦'块状物堆叠'任务,以了解要达到论文中 >75–80% 的成功率,所需的训练需求和运行时性能指标。
4.1 数据生成
我们基于一份针对 aarch64+igpu 做了补丁的代码分支,构建了用于 Jetson 的 MimicGen 容器,并增加了一些功能增强:
- 为相关任务生成带有随机变体的自然语言标签
- 对物体的颜色/材质做额外的领域随机化
在训练 OpenVLA 时,会将图像和标签保存到磁盘;而后续的推理则在在线仿真中完成,以测量任务成功率。
下面的命令会生成指定数量的训练回合,保存为 Robomimic HDF5 格式。
jetson-containers run $(autotag nano_llm) \
python3 -m mimicgen.generate \
--tasks Stack_D4 \
--episodes 100 \
--output /data/datasets/mimicgen \
--cameras agentview \
--camera-width 224 \
--camera-height 224
4.3 RLDS 转换
OpenVLA 使用基于 TFDS 的 RLDS 格式数据集,所以我们提供了一个从 HDF5 到 RLDS 的转换工具。
jetson-containers run $(autotag nano_llm) \
python3 -m nano_llm.datasets \
--dataset /data/datasets/mimicgen/demo_src_stack_task_D4/demo.hdf5 \
--dataset-type mimicgen \
--convert rlds \
--remap-keys agentview:image \
--output /data/datasets/mimicgen/rlds/stack_d4_ep2500
运行转换后,会在指定的输出目录下生成一组 TFRecord 文件,这些文件能够被 OpenVLA 的训练脚本直接加载使用。
5. 微调
本项目的主要目标之一是量化让模型适应不同机器人和任务所需的训练工作量。
我们的开发流程主要包括在 Jetson AGX Orin 64GB 上运行测试性 LoRA 微调并本地调试问题,当结果令人满意时,再在 A100/H100 云实例上,使用 FDSP 完整地进行微调。
以下是我们曾使用的训练 GPU 配置及相应的最大化显存利用的 batch size:

在 Jetson AGX Orin 和两块 A100 上训练至收敛大约需要 24–36 小时,具体时长取决于数据量和训练轮数(epoch)。为了尽量避免前文提到的过拟合,我们在完整微调时将 epoch 控制在 5 次以内,而通过增加训练回合数来提升模型表现。
具体过程可以看 OpenVLA 的官方 repo。
6. 推理和仿真
为了衡量模型在完成任务时的真实表现,我们在 Agent Studio 中启动了一个与 VLA 模型相连的 MimicGen 环境。它通过检查仿真发放的奖励来统计成功回合数。
我们设置了 200 帧的执行上限,超过该帧数则判定为失败。
jetson-containers run $(autotag nano_llm) \
python3 -m nano_llm.studio --load OpenVLA-MimicGen-INT4
jetson-containers run $(autotag nano_llm) \
python3 -m nano_llm.studio --load OpenVLA-MimicGen-FP8
jetson-containers run $(autotag nano_llm) \
python3 -m nano_llm.studio --load OpenVLA-MimicGen-FP16
要开始基准测试,只需将 AutoPrompt 节点的输出连接到 OpenVLA 节点。默认情况下它会无限运行——我们各做了 100 回合测试,由于仿真与模型推理同步运作,整个过程可能需要数小时。
这里每个方框都是一个「模块」,线条表示数据流向。
- WebAudioIn:从浏览器或麦克风抓取实时音频流。
- VADFilter:检测「有人在说话」的时段,自动切掉静音与噪声。
- WhisperASR:用 OpenAI Whisper 做自动语音识别,输出 partial 和 final 文字。
- TextOverlay → VideoOutput:把识别出来的文字叠加到视频帧上,推送最终合成的图像。
- UserPrompt:用户也可以手工在这里输入文字。
- AutoPrompt:综合语音、文本及上下文生成 Prompt 列表。
- MimicGen:视觉 + 语言的示范合成器,自动生成更多'虚拟示范'。
- openvla-7b+stac:喂给 7B 参数量的 VLA 模型,输出机器人动作指令。
- Actions:回流到 VideoOutput,驱动仿真里的机械臂做实际操作。
此次测试使用的是在 2500 回合数据上微调 4 个 epoch 的模型。尽管任务相对简单,该模型依然证明能够达到约 85% 的预期成功率。量化对性能的提升几乎呈线性增长,对准确率的影响不到 1%。
在评估了那些使用较少回合但训练更多轮次的微调模型的成功率后,我们清楚地看到了增大数据集规模所带来的影响。
这并不意味着使用 2500 回合训练的模型就没有过拟合——事实上,它已经学会了总是先堆放小方块,基本忽略了指令。要解决这个问题,就需要在训练中引入更多任务多样性。
与此同时,我们也希望将研究扩展到现实世界场景,而不仅仅局限于仿真环境,以验证模型在真实操作中的可行性。
7. 总结
本文展示了 OpenVLA 在机器人平台上的完整工作流,涵盖量化、推理、仿真验证及微调策略。通过 MimicGen 合成数据与领域随机化,有效提升了模型在积木堆叠等任务中的泛化能力。实验表明,在 Jetson AGX Orin 等设备端实现 INT4/FP8 量化推理可行,且能达到较高准确率。未来需进一步解决过拟合问题,并探索更复杂的现实场景部署方案。