【VLA模型】架构全解+公式详解

Ne0inhk

16 Mar 2026 — 42 min read

文章目录

导读：VLA（Vision-Language-Action，视觉-语言-动作）模型是在VLM（Vision-Language Model，视觉-语言模型）基础上延伸而来的跨模态智能模型，它首次实现了「视觉感知-语言理解-动作执行」的端到端闭环，能够直接根据视觉场景信息与自然语言指令，输出对应的动作序列（离散/连续），成为机器人操控、智能交互、自主导航等实际落地场景的核心技术支撑（如Google RT-2、PaLM-E均为典型VLA模型）。

一、前置认知：VLA模型核心基础信息

先通过核心表格明确VLA的基础属性、核心差异与发展脉络，建立全局认知，为后续深度解析铺垫。

1.1 VLA模型核心基础属性表

对比维度	具体内容	核心说明
核心定义	融合视觉感知、自然语言理解与动作决策能力，能够根据视觉输入（图像/视频）和语言指令（文本），端到端输出适配场景的动作序列（离散/连续）的跨模态深度学习模型	突破VLM“感知-理解”的局限，延伸至“动作执行”环节，实现从“认知”到“行动”的跨越，是智能体落地的核心技术
核心创新	1. 视觉-语言-动作三模态统一表征学习；2. 跨模态注意力机制（关联视觉特征、语言特征与动作历史）；3. 端到端动作决策（无需手动设计动作规则）；4. 小样本/零样本泛化能力（适配未知场景）	三模态统一表征解决了传统模型模态割裂的问题，端到端决策降低了工程落地成本，泛化能力提升了模型的适用范围
与VLM的核心区别	1. 新增动作模态（输入/输出包含动作信息）；2. 核心目标是“动作生成/决策”，而非“文本生成/图文匹配”；3. 训练数据包含视觉-语言-动作三元组（V-L-A）	VLM聚焦“认知任务”（如图文检索、图像描述），VLA聚焦“执行任务”（如机器人取物、自主导航），前者是后者的基础
动作输出类型	1. 离散动作：有限离散集合（如机器人关节控制指令：左移、抓取、释放）；2. 连续动作：连续数值序列（如机械臂坐标：(x=0.5, y=0.3, z=0.8)、速度指令）	离散动作适配简单场景，连续动作适配高精度操控场景，部分模型支持混合动作输出
核心适用场景	1. 机器人操控（工业机械臂、服务机器人）；2. 智能交互设备（AR/VR手势控制、智能家居操控）；3. 自主移动体（无人车、无人机导航）；4. 工业自动化（视觉引导装配、缺陷检测+修复）	覆盖“感知-理解-执行”全链路的实际工程场景，是AI技术从实验室走向产业化的关键载体
代表模型	1. Google RT-2（视觉-语言-动作大模型，机器人操控标杆）；2. PaLM-E（多模态大模型，支持机器人端到端控制）；3. FLAVA-Action（VLA轻量级模型，适配边缘设备）；4. LLaVA-Action（基于LLaVA扩展，开源易用）	主流模型分为闭源大模型（RT-2、PaLM-E）与开源轻量化模型（FLAVA-Action、LLaVA-Action），适配不同算力场景

1.2 VLA模型发展历程关键节点表

时间	关键成果	核心贡献	影响范围
2020	VLM模型爆发（CLIP、ALBEF）	1. 实现视觉-语言双模态统一表征；2. 验证“预训练+微调”范式在跨模态任务的有效性；3. 为VLA模型奠定技术基础	跨模态学习领域革新，开启视觉-语言融合时代
2022	PaLM-E（Google）发布	1. 首次将大语言模型与视觉模型、机器人动作模型融合；2. 支持视觉-语言-动作三元组训练；3. 验证VLA模型的端到端控制能力	开启VLA模型研究热潮，奠定机器人跨模态控制基础
2023	Google RT-2发布	1. 基于视觉-语言预训练模型扩展动作模态，实现“无需重新训练”的零样本泛化；2. 大幅提升机器人在未知场景的操控能力；3. 成为VLA模型产业化标杆	推动VLA模型从实验室走向实际落地，刷新机器人操控任务基准
2024	开源VLA模型爆发（LLaVA-Action、FLAVA-Action）	1. 降低VLA模型的使用门槛（开源权重+代码）；2. 适配边缘设备（轻量化设计）；3. 支持自定义动作数据集微调	促进VLA模型的行业普及，赋能中小企业机器人研发

二、VLA模型整体架构全解析

VLA模型采用“三模态输入-统一表征-动作输出”的端到端架构，核心由「输入层」「特征编码层」「跨模态融合层」「动作决策层」「输出层」组成，各模块职责明确，以下通过表格详细拆解。

2.1 VLA模型整体架构核心对照表

架构组成	核心数量	核心职责	输入输出	关键特性
输入层	3个子输入模块（视觉输入、语言输入、动作历史输入）	1. 接收并预处理三模态原始数据；2. 统一输入数据格式，适配后续编码层；3. 过滤无效输入（如模糊图像、无效文本）	输入：1. 视觉：图像/视频帧（像素矩阵）；2. 语言：自然语言指令（文本token）；3. 动作历史：历史执行动作序列（离散ID/连续数值）；输出：预处理后的三模态原始特征（图像张量、文本ID序列、动作张量）	1. 多模态数据兼容（支持图像/视频、中英文文本、离散/连续动作）；2. 预处理轻量化（边缘设备适配）；3. 动作历史输入提升决策连贯性
特征编码层	3个编码模块（视觉编码器、语言编码器、动作编码器）	1. 视觉编码器：将视觉原始特征转换为高维视觉表征；2. 语言编码器：将文本ID序列转换为高维语言表征；3. 动作编码器：将动作历史序列转换为高维动作表征	输入：预处理后的三模态原始特征；输出：1. 视觉表征：(batch_size, vis_seq_len, d_model)；2. 语言表征：(batch_size, lang_seq_len, d_model)；3. 动作表征：(batch_size, act_seq_len, d_model)	1. 各编码器可复用成熟模型（视觉：ViT；语言：BERT/GPT；动作：Transformer Decoder）；2. 统一表征维度（d_model），适配后续融合层；3. 视觉编码器支持视频时序特征提取
跨模态融合层	1个核心融合模块（多模态多头注意力层）	1. 建立视觉、语言、动作三模态特征的关联关系；2. 融合三模态信息，生成统一的跨模态表征；3. 捕捉“视觉场景-语言指令-动作历史”的内在逻辑	输入：视觉表征、语言表征、动作表征；输出：统一跨模态表征：(batch_size, total_seq_len, d_model)	1. 基于多头注意力机制，支持细粒度模态关联；2. 可堆叠多层融合模块，提升融合效果；3. 支持模态掩码，适配缺失模态场景
动作决策层	1个核心决策模块（分离散/连续动作分支）	1. 离散动作分支：对统一表征进行分类，输出离散动作概率分布；2. 连续动作分支：对统一表征进行回归，输出连续动作数值序列；3. 结合任务需求，选择对应分支输出	输入：统一跨模态表征；输出：1. 离散动作：动作类别得分（batch_size, num_act_classes）；2. 连续动作：连续动作张量（batch_size, act_dim）	1. 双分支设计，适配不同动作场景；2. 支持混合动作输出（部分离散+部分连续）；3. 引入动作约束，保证输出动作的合理性
输出层	1个输出解码模块	1. 离散动作：对得分进行Softmax归一化，输出动作ID；2. 连续动作：对回归结果进行后处理（如裁剪、归一化），输出可执行动作指令；3. 输出动作序列，供执行设备（机器人/设备）调用	输入：动作决策层输出（得分/连续张量）；输出：可执行动作序列（离散ID序列/连续数值序列）	1. 动作输出标准化，适配不同执行设备；2. 支持动作序列生成（多步动作预测）；3. 输出容错处理，降低无效动作风险

2.2 VLA模型核心子架构详细拆解表

2.2.1 视觉编码器（特征提取核心）

内部模块	层级顺序	核心职责	输入输出维度	关键特性
图像预处理层	第一层	1. 图像缩放/裁剪，统一尺寸；2. 像素归一化（均值/std标准化）；3. 视频帧采样（针对视频输入，提取关键帧）	输入：(batch_size, H, W, C)（图像）/(batch_size, T, H, W, C)（视频）；输出：(batch_size, H’, W’, C)（图像）/(batch_size, T’, H’, W’, C)（视频）	1. 适配不同分辨率输入；2. 视频采样降低计算量；3. 归一化稳定模型训练
Patch嵌入层	图像预处理层后	1. 将图像切分为固定大小的Patch；2. 将每个Patch展平为一维向量；3. 线性变换映射至d_model维度；4. 添加空间位置编码	输入：(batch_size, H’, W’, C)；输出：(batch_size, vis_seq_len, d_model)（vis_seq_len=(H’/Patch_size)×(W’/Patch_size)）	1. 基于ViT架构，捕捉图像全局特征；2. 空间位置编码保留图像空间信息；3. 线性变换统一表征维度
Transformer Encoder层（堆叠）	Patch嵌入层后	1. 对视觉Patch表征进行多头自注意力计算；2. 捕捉图像内部的空间依赖关系（如物体位置、场景结构）；3. 前馈神经网络实现非线性特征变换	输入：(batch_size, vis_seq_len, d_model)；输出：(batch_size, vis_seq_len, d_model)	1. 堆叠多层（如12层），提升特征提取能力；2. 自注意力机制捕捉全局空间特征；3. 残差连接+层归一化保障深层训练稳定
视觉特征聚合层	Transformer Encoder层后	1. 对视觉序列表征进行聚合（如CLS token提取、全局平均池化）；2. 生成全局视觉表征（可选，用于轻量化场景）；3. 输出局部+全局视觉表征，供融合层使用	输入：(batch_size, vis_seq_len, d_model)；输出：1. 局部表征：(batch_size, vis_seq_len, d_model)；2. 全局表征：(batch_size, 1, d_model)	1. 双表征输出，适配不同融合需求；2. 聚合操作降低计算量；3. 保留局部细节与全局场景信息

2.2.2 语言编码器（指令理解核心）

内部模块	层级顺序	核心职责	输入输出维度	关键特性
文本预处理层	第一层	1. 文本分词（WordPiece/BPE）；2. 生成token ID序列；3. 添加特殊token（CLS/SEP/PAD）；4. 序列截断/补齐，统一长度	输入：自然语言文本（字符串）；输出：(batch_size, lang_seq_len)（token ID序列）	1. 复用成熟分词工具（如BERT分词器、GPT分词器）；2. 统一序列长度，适配批量计算；3. 特殊token标记文本边界
词嵌入层	文本预处理层后	1. 将token ID映射为d_model维度的词嵌入向量；2. 共享嵌入权重（可选，降低参数量）；3. 输出词嵌入序列	输入：(batch_size, lang_seq_len)；输出：(batch_size, lang_seq_len, d_model)	1. 词嵌入向量携带词汇语义信息；2. 统一表征维度，适配融合层；3. 可学习嵌入权重，提升语义表达能力
位置编码层	词嵌入层后	1. 为词嵌入序列添加位置编码（正弦余弦/可学习）；2. 保留文本的时序信息（词序关系）；3. 逐元素相加，不改变向量维度	输入：(batch_size, lang_seq_len, d_model)；输出：(batch_size, lang_seq_len, d_model)	1. 弥补Transformer无时序感知的缺陷；2. 位置编码与词嵌入维度一致；3. 可学习位置编码在小样本场景效果更优
Transformer Encoder/Decoder层（堆叠）	位置编码层后	1. Encoder（双向）：捕捉文本双向上下文信息（如BERT）；2. Decoder（单向）：捕捉文本单向时序信息（如GPT）；3. 多头自注意力+前馈神经网络，提取深层语义表征	输入：(batch_size, lang_seq_len, d_model)；输出：(batch_size, lang_seq_len, d_model)	1. 按需选择Encoder/Decoder架构，适配不同语言任务；2. 堆叠多层，提升语义理解能力；3. 残差连接+层归一化保障训练稳定

2.2.3 动作编码器（历史信息捕捉核心）

内部模块	层级顺序	核心职责	输入输出维度	关键特性
动作预处理层	第一层	1. 离散动作：将动作ID转换为独热向量/嵌入向量；2. 连续动作：数值归一化（映射至[-1,1]区间）；3. 动作序列截断/补齐，统一长度；4. 过滤无效历史动作	输入：动作历史序列（离散ID/连续数值）；输出：(batch_size, act_seq_len, act_dim)（原始动作特征）	1. 兼容离散/连续动作输入；2. 归一化稳定模型训练；3. 统一序列长度，适配批量计算
动作嵌入层	动作预处理层后	1. 离散动作：线性变换映射至d_model维度；2. 连续动作：线性变换+激活函数，映射至d_model维度；3. 添加时序位置编码，保留动作执行顺序	输入：(batch_size, act_seq_len, act_dim)；输出：(batch_size, act_seq_len, d_model)	1. 统一动作表征维度，适配融合层；2. 时序位置编码保留动作先后关系；3. 可学习嵌入权重，提升动作特征表达
Transformer Decoder层（堆叠）	动作嵌入层后	1. 带掩码的多头自注意力，捕捉动作历史的时序依赖；2. 前馈神经网络实现非线性特征变换；3. 生成深层动作历史表征	输入：(batch_size, act_seq_len, d_model)；输出：(batch_size, act_seq_len, d_model)	1. 掩码自注意力防止前瞻信息泄露；2. 捕捉动作序列的内在逻辑（如“抓取”后通常是“移动”）；3. 残差连接+层归一化保障训练稳定

2.2.4 跨模态融合层（三模态关联核心）

内部模块	层级顺序	核心职责	输入输出维度	关键特性
模态拼接层	第一层	1. 将视觉、语言、动作三模态表征按序列拼接；2. 添加模态标记（区分不同模态特征）；3. 生成三模态混合序列表征	输入：视觉/语言/动作表征；输出：(batch_size, total_seq_len, d_model)（total_seq_len=vis_seq_len+lang_seq_len+act_seq_len）	1. 简单高效，降低模型复杂度；2. 模态标记便于模型区分不同模态；3. 保留各模态的原始序列信息
多模态多头注意力层	模态拼接层后	1. 并行计算多个注意力头，捕捉三模态间的细粒度关联；2. Query/Key/Value来自三模态混合表征，实现跨模态注意力计算；3. 输出融合后的中间表征	输入：(batch_size, total_seq_len, d_model)；输出：(batch_size, total_seq_len, d_model)	1. 多头注意力捕捉不同类型的模态关联（如“杯子”视觉特征与“抓取杯子”语言特征的关联）；2. 并行计算，提升融合效率；3. 支持模态注意力掩码，适配缺失模态场景
残差连接+层归一化	多模态多头注意力层两侧	1. 残差连接：保留原始模态信息，缓解梯度消失；2. 层归一化：标准化输入分布，稳定训练；3. 保障深层融合模块的训练稳定性	输入：混合序列表征 + 融合中间表征；输出：(batch_size, total_seq_len, d_model)	1. 输入输出维度一致，支持多层堆叠；2. 提升模型的泛化能力；3. 加速模型收敛
前馈神经网络层	层归一化后	1. 对融合表征进行非线性变换，提取更高级别的跨模态特征；2. 逐token独立计算，支持并行处理；3. 输出最终统一跨模态表征	输入：(batch_size, total_seq_len, d_model)；输出：(batch_size, total_seq_len, d_model)	1. 两层线性变换+激活函数（ReLU/GELU）；2. 升维后降维，提升特征表达能力；3. 无序列依赖，计算高效

2.2.5 动作决策层（执行指令生成核心）

分支类型	内部模块	核心职责	输入输出维度	关键特性
离散动作分支	全局池化层	1. 对统一跨模态表征进行全局平均/最大池化；2. 生成全局融合表征，降低计算量；3. 保留三模态核心信息	输入：(batch_size, total_seq_len, d_model)；输出：(batch_size, d_model)	1. 池化操作简化特征维度；2. 保留全局信息，提升分类准确性；3. 计算高效，适配边缘设备
	线性分类层（堆叠）	1. 第一层线性变换：d_model → hidden_dim；2. 激活函数（ReLU/GELU）：引入非线性；3. 第二层线性变换：hidden_dim → num_act_classes；4. 输出离散动作类别得分	输入：(batch_size, d_model)；输出：(batch_size, num_act_classes)	1. 两层线性变换提升分类能力；2. 激活函数打破线性表达瓶颈；3. 输出得分对应各离散动作的置信度
连续动作分支	全局池化层	1. 与离散分支池化层一致；2. 生成全局融合表征，用于连续动作回归	输入：(batch_size, total_seq_len, d_model)；输出：(batch_size, d_model)	1. 共享池化层（可选），降低参数量；2. 保留全局信息，提升回归精度；3. 计算高效
	线性回归层（堆叠）	1. 第一层线性变换：d_model → hidden_dim；2. 激活函数（ReLU/GELU）：引入非线性；3. 第二层线性变换：hidden_dim → act_dim；4. 输出连续动作数值序列	输入：(batch_size, d_model)；输出：(batch_size, act_dim)	1. 两层线性变换提升回归能力；2. 激活函数增强特征表达；3. 输出维度与连续动作维度一致，适配执行设备
混合动作分支	离散+连续分支融合	1. 对离散动作得分与连续动作数值进行融合；2. 输出部分离散+部分连续的混合动作；3. 引入动作约束，保证混合动作的合理性	输入：离散动作得分 + 连续动作数值；输出：混合动作序列	1. 适配复杂场景（如“移动（连续坐标）+ 抓取（离散指令）”）；2. 灵活配置，按需选择混合比例；3. 容错性强，降低无效动作风险

三、VLA模型核心模块与关键公式详解

VLA模型的核心在于三模态特征编码、跨模态融合与动作决策，以下结合公式与表格详细解析各核心模块的数学原理与参数含义。

3.1 视觉特征编码（以ViT为例）：图像感知核心

视觉特征编码的核心是将图像转换为高维视觉表征，关键步骤为Patch嵌入与Transformer编码，具体公式如下：

3.1.1 核心公式

图像Patch切分与展平：
x f l a t t e n ( i , j ) = Flatten ( I [ i × P : ( i + 1 ) × P , j × P : ( j + 1 ) × P ] ) x_{flatten}(i,j) = \text{Flatten}(I[i \times P : (i+1) \times P, j \times P : (j+1) \times P]) xflatten(i,j)=Flatten(I[i×P:(i+1)×P,j×P:(j+1)×P])
其中， I I I为输入图像（维度： H × W × C H \times W \times C H×W×C）； P P P为Patch尺寸（如16×16）； ( i , j ) (i,j) (i,j)为Patch的空间索引； x f l a t t e n x_{flatten} xflatten为单个Patch展平后的一维向量（维度： P 2 × C P^2 \times C P2×C）；所有Patch展平后维度： v i s _ s e q _ l e n × P 2 × C vis\_seq\_len \times P^2 \times C vis_seq_len×P2×C（ v i s _ s e q _ l e n = ( H / P ) × ( W / P ) vis\_seq\_len=(H/P) \times (W/P) vis_seq_len=(H/P)×(W/P)）。
Patch线性嵌入：
x p a t c h = x f l a t t e n ⋅ W p + b p x_{patch} = x_{flatten} \cdot W_p + b_p xpatch=xflatten⋅Wp+bp
其中， W p W_p Wp为线性投影权重（维度： P 2 × C × d m o d e l P^2 \times C \times d_{model} P2×C×dmodel）； b p b_p bp为偏置项（维度： d m o d e l d_{model} dmodel）； x p a t c h x_{patch} xpatch为Patch嵌入向量（维度： v i s _ s e q _ l e n × d m o d e l vis\_seq\_len \times d_{model} vis_seq_len×dmodel）。
空间位置编码添加：
x v i s = x p a t c h + P E s p a t i a l x_{vis} = x_{patch} + PE_{spatial} xvis=xpatch+PEspatial
其中， P E s p a t i a l PE_{spatial} PEspatial为空间位置编码（正弦余弦/可学习，维度： v i s _ s e q _ l e n × d m o d e l vis\_seq\_len \times d_{model} vis_seq_len×dmodel）； x v i s x_{vis} xvis为带位置信息的视觉Patch表征（维度： v i s _ s e q _ l e n × d m o d e l vis\_seq\_len \times d_{model} vis_seq_len×dmodel）。
Transformer Encoder编码（单步）：
x v i s _ a t t n = MultiHeadSelfAttention ( L N ( x v i s ) ) + x v i s x_{vis\_attn} = \text{MultiHeadSelfAttention}(LN(x_{vis})) + x_{vis} xvis_attn=MultiHeadSelfAttention(LN(xvis))+xvis
x v i s _ f f n = FFN ( L N ( x v i s _ a t t n ) ) + x v i s _ a t t n x_{vis\_ffn} = \text{FFN}(LN(x_{vis\_attn})) + x_{vis\_attn} xvis_ffn=FFN(LN(xvis_attn))+xvis_attn
其中， L N LN LN为层归一化； MultiHeadSelfAttention \text{MultiHeadSelfAttention} MultiHeadSelfAttention为多头自注意力； FFN \text{FFN} FFN为前馈神经网络； x v i s _ f f n x_{vis\_ffn} xvis_ffn为单层层Transformer编码后的视觉表征，堆叠N层后得到最终视觉表征。

3.1.2 核心参数与作用对照表

参数/操作	维度说明	核心作用	存在意义
P P P（Patch尺寸）	标量（如16、32）	控制图像切分的粒度	小Patch保留更多细节，大Patch捕捉全局信息，平衡效果与计算量
W p W_p Wp（投影权重）	P 2 × C × d m o d e l P^2 \times C \times d_{model} P2×C×dmodel	将Patch展平向量映射至d_model维度	统一视觉表征维度，适配后续跨模态融合
P E s p a t i a l PE_{spatial} PEspatial（空间位置编码）	v i s _ s e q _ l e n × d m o d e l vis\_seq\_len \times d_{model} vis_seq_len×dmodel	保留图像Patch的空间位置信息	弥补Transformer无空间感知的缺陷，让模型感知物体位置关系
x v i s _ f f n x_{vis\_ffn} xvis_ffn（最终视觉表征）	v i s _ s e q _ l e n × d m o d e l vis\_seq\_len \times d_{model} vis_seq_len×dmodel	携带图像的全局与局部特征信息	为跨模态融合提供高质量视觉特征输入

3.2 语言特征编码（以BERT为例）：指令理解核心

语言特征编码的核心是将文本指令转换为高维语言表征，关键步骤为词嵌入与双向Transformer编码，公式与Transformer一致，补充核心公式如下：

3.2.1 核心公式

词嵌入与位置编码：
x l a n g = E m b e d d i n g ( t o k e n _ i d s ) + P E t e m p o r a l x_{lang} = Embedding(token\_ids) + PE_{temporal} xlang=Embedding(token_ids)+PEtemporal
其中， t o k e n _ i d s token\_ids token_ids为文本分词后的ID序列（维度： l a n g _ s e q _ l e n lang\_seq\_len lang_seq_len）； E m b e d d i n g Embedding Embedding为词嵌入层； P E t e m p o r a l PE_{temporal} PEtemporal为时序位置编码（维度： l a n g _ s e q _ l e n × d m o d e l lang\_seq\_len \times d_{model} lang_seq_len×dmodel）； x l a n g x_{lang} xlang为带位置信息的语言表征（维度： l a n g _ s e q _ l e n × d m o d e l lang\_seq\_len \times d_{model} lang_seq_len×dmodel）。
Transformer Encoder编码（单步）：
x l a n g _ a t t n = MultiHeadSelfAttention ( L N ( x l a n g ) ) + x l a n g x_{lang\_attn} = \text{MultiHeadSelfAttention}(LN(x_{lang})) + x_{lang} xlang_attn=MultiHeadSelfAttention(LN(xlang))+xlang
x l a n g _ f f n = FFN ( L N ( x l a n g _ a t t n ) ) + x l a n g _ a t t n x_{lang\_ffn} = \text{FFN}(LN(x_{lang\_attn})) + x_{lang\_attn} xlang_ffn=FFN(LN(xlang_attn))+xlang_attn
其中， x l a n g _ f f n x_{lang\_ffn} xlang_ffn为单层层编码后的语言表征，堆叠N层后得到最终语言表征，携带文本指令的深层语义信息。

3.3 动作特征编码：历史信息捕捉核心

动作特征编码的核心是将历史动作序列转换为高维动作表征，适配离散与连续两种动作类型，公式如下：

3.3.1 核心公式

离散动作嵌入：
x a c t _ d i s = E m b e d d i n g ( a c t _ i d s ) + P E a c t x_{act\_dis} = Embedding(act\_ids) + PE_{act} xact_dis=Embedding(act_ids)+PEact
其中， a c t _ i d s act\_ids act_ids为离散动作ID序列（维度： a c t _ s e q _ l e n act\_seq\_len act_seq_len）； E m b e d d i n g Embedding Embedding为动作嵌入层（维度： n u m _ a c t _ c l a s s e s × d m o d e l num\_act\_classes \times d_{model} num_act_classes×dmodel）； P E a c t PE_{act} PEact为动作时序位置编码（维度： a c t _ s e q _ l e n × d m o d e l act\_seq\_len \times d_{model} act_seq_len×dmodel）； x a c t _ d i s x_{act\_dis} xact_dis为离散动作表征（维度： a c t _ s e q _ l e n × d m o d e l act\_seq\_len \times d_{model} act_seq_len×dmodel）。
连续动作嵌入：
x a c t _ c o n = σ ( x a c t _ r a w ⋅ W a + b a ) + P E a c t x_{act\_con} = \sigma(x_{act\_raw} \cdot W_a + b_a) + PE_{act} xact_con=σ(xact_raw⋅Wa+ba)+PEact
其中， x a c t _ r a w x_{act\_raw} xact_raw为归一化后的连续动作序列（维度： a c t _ s e q _ l e n × a c t _ d i m act\_seq\_len \times act\_dim act_seq_len×act_dim）； W a W_a Wa为投影权重（维度： a c t _ d i m × d m o d e l act\_dim \times d_{model} act_dim×dmodel）； b a b_a ba为偏置项（维度： d m o d e l d_{model} dmodel）； σ \sigma σ为激活函数（如ReLU）； x a c t _ c o n x_{act\_con} xact_con为连续动作表征（维度： a c t _ s e q _ l e n × d m o d e l act\_seq\_len \times d_{model} act_seq_len×dmodel）。
Transformer Decoder编码（单步）：
x a c t _ a t t n = MaskedMultiHeadSelfAttention ( L N ( x a c t ) ) + x a c t x_{act\_attn} = \text{MaskedMultiHeadSelfAttention}(LN(x_{act})) + x_{act} xact_attn=MaskedMultiHeadSelfAttention(LN(xact))+xact
x a c t _ f f n = FFN ( L N ( x a c t _ a t t n ) ) + x a c t _ a t t n x_{act\_ffn} = \text{FFN}(LN(x_{act\_attn})) + x_{act\_attn} xact_ffn=FFN(LN(xact_attn))+xact_attn
其中， x a c t x_{act} xact为离散/连续动作表征； MaskedMultiHeadSelfAttention \text{MaskedMultiHeadSelfAttention} MaskedMultiHeadSelfAttention为带掩码的多头自注意力； x a c t _ f f n x_{act\_ffn} xact_ffn为最终动作表征，携带动作历史的时序逻辑信息。

3.4 跨模态融合（多模态多头注意力）：三模态关联核心

跨模态融合的核心是通过多头注意力机制，建立视觉、语言、动作三模态的关联，生成统一表征，公式与Transformer多头注意力一致，但扩展至三模态，具体如下：

3.4.1 核心公式

三模态序列拼接：
x m i x = Concat ( x v i s , x l a n g , x a c t ) x_{mix} = \text{Concat}(x_{vis}, x_{lang}, x_{act}) xmix=Concat(xvis,xlang,xact)
其中， x v i s x_{vis} xvis/ x l a n g x_{lang} xlang/ x a c t x_{act} xact分别为视觉/语言/动作表征； x m i x x_{mix} xmix为三模态混合序列（维度： t o t a l _ s e q _ l e n × d m o d e l total\_seq\_len \times d_{model} total_seq_len×dmodel）。
多模态多头注意力计算：
Q = K = V = x m i x ⋅ W q = x m i x ⋅ W k = x m i x ⋅ W v Q = K = V = x_{mix} \cdot W_q = x_{mix} \cdot W_k = x_{mix} \cdot W_v Q=K=V=xmix⋅Wq=xmix⋅Wk=xmix⋅Wv
Attention ( Q , K , V ) = softmax ( Q ⋅ K T d k ) ⋅ V \text{Attention}(Q,K,V) = \text{softmax}\left(\frac{Q \cdot K^T}{\sqrt{d_k}}\right) \cdot V Attention(Q,K,V)=softmax(dkQ⋅KT)⋅V
MultiHead ( x m i x ) = Concat ( H e a d 1 , H e a d 2 , . . . , H e a d h ) ⋅ W o \text{MultiHead}(x_{mix}) = \text{Concat}(Head_1, Head_2, ..., Head_h) \cdot W_o MultiHead(xmix)=Concat(Head1,Head2,...,Headh)⋅Wo
其中， W q / W k / W v W_q/W_k/W_v Wq/Wk/Wv为Query/Key/Value投影权重； d k = d m o d e l / h d_k=d_{model}/h dk=dmodel/h（ h h h为注意力头数）； H e a d i Head_i Headi为第 i i i个注意力头的输出； W o W_o Wo为融合权重；最终输出融合表征（维度： t o t a l _ s e q _ l e n × d m o d e l total\_seq\_len \times d_{model} total_seq_len×dmodel）。
融合层残差连接与前馈网络：
x f u s i o n _ a t t n = MultiHead ( L N ( x m i x ) ) + x m i x x_{fusion\_attn} = \text{MultiHead}(LN(x_{mix})) + x_{mix} xfusion_attn=MultiHead(LN(xmix))+xmix
x f u s i o n = FFN ( L N ( x f u s i o n _ a t t n ) ) + x f u s i o n _ a t t n x_{fusion} = \text{FFN}(LN(x_{fusion\_attn})) + x_{fusion\_attn} xfusion=FFN(LN(xfusion_attn))+xfusion_attn
其中， x f u s i o n x_{fusion} xfusion为最终统一跨模态表征，携带三模态的关联信息。

3.5 动作决策（分类/回归）：执行指令生成核心

动作决策分为离散动作分类与连续动作回归，核心公式如下：

3.5.1 核心公式

离散动作分类：
x g l o b a l = GlobalAvgPool ( x f u s i o n ) x_{global} = \text{GlobalAvgPool}(x_{fusion}) xglobal=GlobalAvgPool(xfusion)
l o g i t s a c t = x g l o b a l ⋅ W 1 + b 1 → ReLU → W 2 + b 2 logits_{act} = x_{global} \cdot W_1 + b_1 \rightarrow \text{ReLU} \rightarrow W_2 + b_2 logitsact=xglobal⋅W1+b1→ReLU→W2+b2
p r o b a c t = softmax ( l o g i t s a c t ) prob_{act} = \text{softmax}(logits_{act}) probact=softmax(logitsact)
a c t p r e d = arg ⁡ max ⁡ ( p r o b a c t ) act_{pred} = \arg\max(prob_{act}) actpred=argmax(probact)
其中， GlobalAvgPool \text{GlobalAvgPool} GlobalAvgPool为全局平均池化； W 1 / W 2 W_1/W_2 W1/W2为分类层权重； l o g i t s a c t logits_{act} logitsact为动作类别得分； p r o b a c t prob_{act} probact为动作概率分布； a c t p r e d act_{pred} actpred为预测离散动作ID。
连续动作回归：
x g l o b a l = GlobalAvgPool ( x f u s i o n ) x_{global} = \text{GlobalAvgPool}(x_{fusion}) xglobal=GlobalAvgPool(xfusion)
a c t c o n t = x g l o b a l ⋅ W 3 + b 3 → ReLU → W 4 + b 4 act_{cont} = x_{global} \cdot W_3 + b_3 \rightarrow \text{ReLU} \rightarrow W_4 + b_4 actcont=xglobal⋅W3+b3→ReLU→W4+b4
a c t p r e d _ c o n t = Clip ( a c t c o n t , m i n = − 1 , m a x = 1 ) act_{pred\_cont} = \text{Clip}(act_{cont}, min=-1, max=1) actpred_cont=Clip(actcont,min=−1,max=1)
其中， W 3 / W 4 W_3/W_4 W3/W4为回归层权重； a c t c o n t act_{cont} actcont为原始回归结果； Clip \text{Clip} Clip为裁剪操作，将结果映射至[-1,1]区间； a c t p r e d _ c o n t act_{pred\_cont} actpred_cont为最终连续动作数值。

3.6 核心公式参数汇总表

公式参数	核心含义	典型取值	作用
d m o d e l d_{model} dmodel	统一表征维度	512、768、1024	统一三模态表征维度，适配跨模态融合
h h h	注意力头数	8、16	多头并行捕捉不同类型的模态关联，提升融合效果
P P P	图像Patch尺寸	16×16、32×32	控制图像切分粒度，平衡细节保留与计算量
v i s _ s e q _ l e n vis\_seq\_len vis_seq_len	视觉序列长度	196（224×224图像，16×16Patch）	视觉Patch的数量，决定视觉表征的序列长度
n u m _ a c t _ c l a s s e s num\_act\_classes num_act_classes	离散动作类别数	10、20、50	离散动作的总数量，决定分类层输出维度
a c t _ d i m act\_dim act_dim	连续动作维度	3（三维坐标）、6（机械臂关节角度）	连续动作的数值维度，适配执行设备的控制需求
t o t a l _ s e q _ l e n total\_seq\_len total_seq_len	三模态混合序列长度	v i s _ s e q _ l e n + l a n g _ s e q _ l e n + a c t _ s e q _ l e n vis\_seq\_len+lang\_seq\_len+act\_seq\_len vis_seq_len+lang_seq_len+act_seq_len	混合序列的总长度，决定跨模态融合的计算量

四、VLA模型核心对比分析（多表格呈现）

通过与VLM、传统控制模型、不同VLA代表模型的对比，更清晰地理解VLA的核心优势与适用场景。

4.1 VLA vs VLM 核心对比表

对比维度	VLA模型	VLM模型	优劣总结
核心模态	视觉、语言、动作（三模态）	视觉、语言（双模态）	VLA更优：新增动作模态，实现从“认知”到“行动”的跨越
核心目标	动作决策/生成（执行类任务）	图文匹配/文本生成（认知类任务）	VLA更优：直接对接工程落地场景，具备实际执行价值
训练数据	视觉-语言-动作三元组（V-L-A）	视觉-语言二元组（V-L）	VLM数据获取更易；VLA数据标注成本高，但落地价值更高
输出类型	离散/连续动作序列（可执行）	文本/图像（认知结果）	VLA更优：输出可直接被机器人/设备执行，无需二次转换
架构差异	新增动作编码器+动作决策层	无动作相关模块	VLA架构更复杂，但功能更全面，适配工程场景
适用场景	机器人操控、自主导航、智能交互	图文检索、图像描述、视觉问答	VLM适配认知场景，VLA适配执行场景，互补共存
泛化能力	零样本/小样本泛化（未知场景动作决策）	零样本/小样本泛化（未知场景认知）	VLA泛化难度更高，但泛化价值更大（降低机器人场景适配成本）
算力需求	更高（三模态融合+动作决策，参数量更大）	较低（双模态融合，参数量相对较小）	VLM更易在低算力设备落地；VLA需更高算力，或轻量化改造

4.2 VLA vs 传统机器人控制模型核心对比表

对比维度	VLA模型	传统机器人控制模型（如PID、强化学习）	优劣总结
控制方式	端到端控制（直接从视觉+语言到动作）	手动设计规则/奖励函数（分步控制）	VLA更优：无需手动设计规则，降低工程落地成本
场景适配性	高（零样本/小样本泛化，适配未知场景）	低（仅适配训练场景，未知场景需重新调试）	VLA更优：大幅提升机器人的场景适配能力，降低调试成本
模态兼容性	多模态兼容（视觉+语言+动作）	单一模态（多为视觉/传感器模态，无语言理解）	VLA更优：支持自然语言指令，提升人机交互的便捷性
动作灵活性	高（可生成复杂动作序列，适配复杂任务）	低（多为简单固定动作，复杂任务需分步拼接）	VLA更优：支持复杂任务的端到端执行，提升机器人的智能化水平
训练难度	高（需大规模V-L-A数据，算力需求高）	低（规则驱动无需训练；强化学习数据需求相对较低）	传统模型训练更易；VLA训练难度高，但后续维护成本更低
落地门槛	中高（需算力+数据支撑，轻量化改造后可落地）	低（规则驱动易落地，强化学习落地难度中等）	传统模型短期落地更易；VLA长期落地价值更高，是智能化升级方向
容错能力	高（内置模态融合与动作约束，无效动作少）	低（规则漏洞易导致无效动作，容错性差）	VLA更优：提升机器人运行的稳定性与安全性，降低故障风险

4.3 主流VLA代表模型核心对比表

模型名称	研发团队	核心架构	动作输出类型	核心优势	适用场景	局限性
RT-2	Google DeepMind	ViT + GPT（Encoder-Decoder）	离散+连续混合动作	1. 零样本泛化能力极强；2. 三模态表征统一；3. 机器人操控效果标杆	服务机器人、工业机械臂	1. 闭源模型，无法自定义微调；2. 算力需求极高，无法在边缘设备落地
PaLM-E	Google DeepMind	PaLM（语言大模型） + ViT + 动作编码器	连续动作为主	1. 多模态融合能力强；2. 支持复杂任务端到端控制；3. 模型可扩展性高	自主移动机器人、复杂机械臂操控	1. 参数量超大（千亿级），训练/推理成本极高；2. 小样本场景效果有待提升
FLAVA-Action	Google	FLAVA（VLM） + 动作编码器 + 决策层	离散/连续可选	1. 轻量化设计，适配边缘设备；2. 训练数据需求低；3. 开源易用	小型服务机器人、边缘智能设备	1. 泛化能力弱于RT-2/PaLM-E；2. 复杂任务执行效果有限
LLaVA-Action	开源社区	LLaVA（开源VLM） + 动作模块	离散+连续混合动作	1. 完全开源，支持自定义微调；2. 参数量灵活（7B/13B等）；3. 适配中文场景	自定义机器人、中小规模智能交互设备	1. 泛化能力依赖微调数据；2. 大规模场景效果弱于闭源大模型

五、VLA模型企业级落地要点（表格支撑）

5.1 VLA模型核心落地场景对照表

应用领域	典型任务	代表设备/系统	落地价值	动作输出类型
工业机器人	1. 视觉引导装配；2. 零件抓取与分拣；3. 缺陷检测+修复；4. 生产线上下料	工业机械臂、协作机器人	1. 提升生产线自动化与智能化水平；2. 降低人工成本与操作误差；3. 适配多品种小批量生产	连续动作（关节角度/坐标）+ 离散动作（抓取/释放）
服务机器人	1. 家居物品取放；2. 清洁服务；3. 老人/儿童陪护；4. 酒店/商场导览	家庭服务机器人、商用服务机器人	1. 提升服务机器人的交互便捷性（自然语言指令）；2. 拓展服务场景与功能；3. 提升用户体验	离散动作（移动/抓取/语音播报）+ 连续动作（移动路径/姿态调整）
自主移动体	1. 无人车自主导航；2. 无人机巡检与导航；3. AGV小车车间调度	无人车、无人机、AGV小车	1. 提升自主移动体的场景适配能力；2. 支持自然语言指令调度；3. 降低路径规划与调试成本	连续动作（速度/方向/坐标）+ 离散动作（启停/避障）
智能交互设备	1. AR/VR手势控制；2. 智能家居设备操控；3. 智能终端语音+视觉控制	AR/VR头显、智能家居中控、智能平板	1. 提升人机交互的自然性与便捷性；2. 实现多模态交互（视觉+语言+动作）；3. 拓展智能设备的使用场景	离散动作（设备开关/模式切换）+ 连续动作（参数调节/手势坐标）

5.2 VLA模型落地常见问题与解决方案对照表

常见问题	核心原因	解决方案
数据标注成本高	1. V-L-A三元组数据标注难度大（需同步标注视觉、语言、动作）；2. 高质量标注数据稀缺；3. 不同场景数据差异大	1. 数据增强：视觉（图像翻转/裁剪）、语言（指令改写）、动作（动作序列插值）；2. 弱监督学习：利用V-L数据+少量V-L-A数据训练；3. 开源数据复用：使用公开VLA数据集（如RT-2演示数据）微调
算力需求过高	1. 三模态融合+动作决策导致参数量大；2. 跨模态注意力计算复杂度高；3. 边缘设备算力有限	1. 模型轻量化：量化（INT8/FP16）、剪枝、知识蒸馏；2. 架构优化：减少Transformer层数、降低d_model维度；3. 算力分层：云端训练+边缘推理，边缘设备部署轻量化模型
泛化能力不足	1. 训练数据场景单一，未覆盖未知场景；2. 三模态融合不充分，模态关联能力弱；3. 动作决策层约束不足	1. 多样化数据训练：增加场景、指令、动作的多样性；2. 提升融合效果：堆叠更多跨模态融合层，优化注意力机制；3. 引入先验知识：添加动作约束（如机械臂关节角度限制），提升泛化合理性
动作执行精度低	1. 视觉特征提取不充分，场景细节丢失；2. 跨模态融合偏差，指令与动作不匹配；3. 动作决策层回归/分类精度低	1. 视觉编码器优化：使用更高分辨率图像、更小Patch尺寸；2. 融合层优化：增加注意力头数，提升细粒度模态关联；3. 决策层优化：增加线性层维度，使用更优激活函数，添加动作后处理
落地设备兼容性差	1. 不同设备的动作格式与控制协议不一致；2. 模型输出动作与设备不兼容；3. 设备算力与内存限制	1. 动作标准化：设计统一动作接口，适配不同设备控制协议；2. 自定义微调：针对具体设备，使用设备专属数据微调模型；3. 边缘适配：根据设备算力，定制轻量化模型架构

六、总结

VLA模型作为「视觉-语言-动作」三模态融合的核心技术，突破了VLM仅能“认知”的局限，实现了从“感知-理解-执行”的端到端闭环，是机器人操控、智能交互等工程落地场景的关键支撑。

核心要点总结：

架构核心：由输入层、特征编码层（视觉/语言/动作）、跨模态融合层、动作决策层、输出层组成，三模态统一表征与端到端动作决策是核心设计；
技术核心：视觉编码（ViT）、语言编码（BERT/GPT）、动作编码（Transformer Decoder）提供高质量单模态特征，多模态多头注意力实现三模态融合，分类/回归分支实现离散/连续动作决策；
公式核心：Patch嵌入、词嵌入、动作嵌入实现单模态特征映射，多头注意力实现跨模态融合，全局池化+线性层实现动作决策，残差连接+层归一化保障模型训练稳定；
落地核心：根据任务场景选择合适的VLA模型（闭源大模型/开源轻量化模型），通过数据增强、模型轻量化、自定义微调解决落地痛点，平衡效果与成本。

VLA模型的发展仍在持续（如更大规模的VLA大模型、更高效的轻量化架构），掌握其核心原理与落地要点，是实现AI技术从实验室走向产业化的关键。