基于视觉语言动作的竞速无人机自主导航 RaceVLA 深度解析

RaceVLA 是将视觉语言动作（VLA）模型应用于竞速无人机自主导航的首个成功案例。它基于 OpenVLA 模型优化，通过 FPV 视频流和自然语言指令直接生成 4D 控制向量，实现端到端飞行控制。系统采用分布式架构，服务器端运行 VLA 模型，无人机端负责底层控制，实现了 4Hz 实时频率。相比传统方法，RaceVLA 具备更强的运动与语义泛化能力，支持连续迭代控制策略，能像人类飞行员一样在动态环境中做出实时决策，解决了传统导航方法适应性差、缺乏语言理解能力的问题。

古灵精怪发布于 2026/4/5更新于 2026/7/2454 浏览

论文链接：https://arxiv.org/pdf/2503.02572 项目主页：https://racevla.github.io/ 代码仓库：https://github.com/SerValera/RaceVLA

0. 简介

RaceVLA 项目标志着具身智能在无人机领域的重大突破。这是首次将视觉语言动作（Vision-Language-Action，VLA）模型成功应用于高速竞速无人机的自主导航系统。与传统的基于规划或轨迹生成的方法不同，RaceVLA 实现了从视觉感知到飞行控制的端到端学习，能够理解自然语言指令并在动态环境中执行复杂的飞行任务。

该项目的核心创新在于将斯坦福大学开发的 OpenVLA 模型成功移植并优化到无人机平台上，通过处理第一视角（FPV）视频流和自然语言指令，直接生成包含三个线性速度和偏航角速度的 4D 控制向量。这种设计使得无人机能够像人类飞行员一样，基于视觉信息和任务理解做出实时的飞行决策，在不熟悉的环境中展现出卓越的导航能力。更令人瞩目的是，RaceVLA 在泛化能力方面的表现尤为突出，在动态环境测试中，该系统在运动泛化和语义泛化方面显著优于 OpenVLA，在所有泛化维度上全面超越 RT-2 模型。同时，通过精心的模型优化和硬件配置，系统实现了 4Hz 的实时操作频率，完全满足高速竞速无人机的严苛性能要求。

1. 研究背景

认知机器人技术正在快速发展，这类机器人能够通过自然语言在动态环境中执行复杂任务。从人形机器人到四足机器人，从移动机器人到机械臂，各种平台都在 VLA 模型的赋能下展现出前所未有的智能水平。然而，无人机作为具有高度动态特性的三维移动平台，在 VLA 模型应用方面仍然是一个相对空白的领域，面临着独特的技术挑战。传统的无人机导航方法主要依赖基于 Transformer 的模型，这些方法通常专注于路径规划、轨迹生成或技能选择等特定功能模块。虽然在静态或半静态环境中表现尚可，但在面对动态场景时，这些方法往往表现出适应性差、实时性不足的问题，难以泛化到未曾训练过的新任务或新环境中。更重要的是，这些传统方法缺乏对自然语言的理解能力，无法实现人机间的直观交互。

RaceVLA 的出现填补了这一技术空白。通过将先进的 VLA 模型引入无人机领域，该项目不仅解决了传统方法的局限性，更开创了一种全新的无人机控制范式：基于视觉感知和语言理解的端到端飞行控制。这种方法使得无人机能够像具有认知能力的智能体一样，理解任务目标、感知环境变化，并做出相应的飞行决策。

2. 系统架构

RaceVLA 系统采用了精心设计的分布式架构，巧妙地平衡了计算性能、实时性和系统稳定性的需求。整个系统由两个核心组件构成：运行 VLA 模型的高性能服务器端和搭载传感器的无人机端，两者通过高效的网络通信协议实现无缝协作。这种架构设计不仅充分发挥了 GPU 服务器的强大计算能力，还保证了无人机端控制系统的实时性要求。

VLA 模型作为系统的核心是基于 OpenVLA 模型定制开发的无人机专用版本。该模型继承了 OpenVLA 的强大多模态处理能力，同时针对无人机的特殊需求进行了深度优化。模型的输入包括来自无人机 FPV 相机的实时图像帧和描述飞行任务的自然语言指令，输出则是直接控制无人机飞行的 4D 动作向量。这里的关键创新在于动作空间的重新设计：原始的 OpenVLA 模型为机械臂任务设计，输出 7 维动作向量（包括三个平移、三个旋转和一个夹爪控制），而 RaceVLA 将其优化为适合无人机的 4 维控制空间：三个线性速度分量（Vx、Vy、Vz）和偏航角速度（ω）。