基于视觉语言动作的竞速无人机自主导航 RaceVLA 架构解析

综述由AI生成RaceVLA 项目，这是一个将视觉语言动作（VLA）模型应用于竞速无人机自主导航的系统。它基于斯坦福 OpenVLA 模型优化，通过 FPV 视频流和自然语言指令直接生成 4D 控制向量，实现了从感知到控制的端到端学习。系统采用分布式架构，服务器端运行 VLA 模型，无人机端负责传感器融合与底层控制。相比传统方法，RaceVLA 具备更强的泛化能力和实时性，支持连续控制策略，使无人机能像人类飞行员一样在动态环境中执行复杂任务。

追风少年发布于 2026/4/6更新于 2026/5/2230 浏览

论文链接：https://arxiv.org/pdf/2503.02572 项目主页：https://racevla.github.io/ 代码仓库：https://github.com/SerValera/RaceVLA

0. 简介

RaceVLA 项目标志着具身智能在无人机领域的重大突破。这是首次将视觉语言动作（Vision-Language-Action，VLA）模型成功应用于高速竞速无人机的自主导航系统。与传统的基于规划或轨迹生成的方法不同，RaceVLA 实现了从视觉感知到飞行控制的端到端学习，能够理解自然语言指令并在动态环境中执行复杂的飞行任务。

该项目的核心创新在于将斯坦福大学开发的 OpenVLA 模型成功移植并优化到无人机平台上，通过处理第一视角（FPV）视频流和自然语言指令，直接生成包含三个线性速度和偏航角速度的 4D 控制向量。这种设计使得无人机能够像人类飞行员一样，基于视觉信息和任务理解做出实时的飞行决策，在不熟悉的环境中展现出卓越的导航能力。更令人瞩目的是，RaceVLA 在泛化能力方面的表现尤为突出，在动态环境测试中，该系统在运动泛化和语义泛化方面显著优于 OpenVLA，在所有泛化维度上全面超越 RT-2 模型。同时，通过精心的模型优化和硬件配置，系统实现了 4Hz 的实时操作频率，完全满足高速竞速无人机的严苛性能要求。

1. 研究背景

认知机器人技术正在快速发展，这类机器人能够通过自然语言在动态环境中执行复杂任务。从人形机器人到四足机器人，从移动机器人到机械臂，各种平台都在 VLA 模型的赋能下展现出前所未有的智能水平。然而，无人机作为具有高度动态特性的三维移动平台，在 VLA 模型应用方面仍然是一个相对空白的领域，面临着独特的技术挑战。传统的无人机导航方法主要依赖基于 Transformer 的模型，这些方法通常专注于路径规划、轨迹生成或技能选择等特定功能模块。虽然在静态或半静态环境中表现尚可，但在面对动态场景时，这些方法往往表现出适应性差、实时性不足的问题，难以泛化到未曾训练过的新任务或新环境中。更重要的是，这些传统方法缺乏对自然语言的理解能力，无法实现人机间的直观交互。

RaceVLA 的出现填补了这一技术空白。通过将先进的 VLA 模型引入无人机领域，该项目不仅解决了传统方法的局限性，更开创了一种全新的无人机控制范式：基于视觉感知和语言理解的端到端飞行控制。这种方法使得无人机能够像具有认知能力的智能体一样，理解任务目标、感知环境变化，并做出相应的飞行决策。

2. 系统架构

RaceVLA 系统采用了精心设计的分布式架构，巧妙地平衡了计算性能、实时性和系统稳定性的需求。整个系统由两个核心组件构成：运行 VLA 模型的高性能服务器端和搭载传感器的无人机端，两者通过高效的网络通信协议实现无缝协作。这种架构设计不仅充分发挥了 GPU 服务器的强大计算能力，还保证了无人机端控制系统的实时性要求。

VLA 模型作为系统的核心是基于 OpenVLA 模型定制开发的无人机专用版本。该模型继承了 OpenVLA 的强大多模态处理能力，同时针对无人机的特殊需求进行了深度优化。模型的输入包括来自无人机 FPV 相机的实时图像帧和描述飞行任务的自然语言指令，输出则是直接控制无人机飞行的 4D 动作向量。这里的关键创新在于动作空间的重新设计：原始的 OpenVLA 模型为机械臂任务设计，输出 7 维动作向量（包括三个平移、三个旋转和一个夹爪控制），而 RaceVLA 将其优化为适合无人机的 4 维控制空间：三个线性速度分量（Vx、Vy、Vz）和偏航角速度（ω）。

无人机端采用了定制的 8 英寸竞速无人机平台，这个平台经过精心设计以满足高速飞行和实时控制的双重需求。硬件配置包括 SpeedyBee F405 飞行控制器、Intel RealSense T265 相机和 Intel NUC 机载计算机，每个组件都经过优化以确保系统的整体性能。系统的实时性能通过多层优化实现：VLA 模型在服务器端运行，利用 NVIDIA RTX 4090 GPU 的强大计算能力，通过 Flask API 与无人机进行通信；机载 Intel NUC 计算机处理本地的传感器数据融合、定位估计和底层控制任务；而高层的智能决策则交由服务器端的 VLA 模型完成。

3. 迭代控制策略

RaceVLA 系统采用的迭代控制策略是其技术创新的重要体现。不同于传统的基于路径点的导航方法，RaceVLA 实现了真正的连续控制。给定一个任务描述后，无人机持续处理 FPV 图像和语言指令，实时计算并执行下一步的飞行动作。系统不会等待无人机到达指定点后才处理下一帧，而是立即分析新的图像帧并实时调整飞行轨迹。这种连续控制策略的优势在于能够保证飞行的平滑性和连贯性，这对于高速竞速无人机来说至关重要。传统方法中的离散路径点会导致飞行轨迹出现不自然的停顿和急转，而 RaceVLA 的连续决策能够产生更加自然、类似人类飞行员的飞行轨迹。

基于视觉语言动作的竞速无人机自主导航 RaceVLA 架构解析

0. 简介

1. 研究背景

2. 系统架构

3. 迭代控制策略

3.1 硬件配置详解

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

基于视觉语言动作的竞速无人机自主导航 RaceVLA 架构解析

0. 简介

1. 研究背景

2. 系统架构

3. 迭代控制策略

3.1 硬件配置详解

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具