ActiveVLA: 将主动感知注入 VLA 模型以实现精准三维机器人操控

综述由AI生成ActiveVLA 提出一种主动感知框架，通过动态调整视角和焦距解决 VLA 模型在遮挡环境下的操作难题。该方法结合多视角投影定位关键区域，利用主动视角选择和 3D 变焦优化视觉输入，最终预测精确动作。实验表明其在 RLBench 等基准上成功率优于 SOTA，有效提升了复杂场景下的机器人操控精度。

孤勇者发布于 2026/3/30更新于 2026/6/228 浏览

基础信息

题目：ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation
时间：2026.01
机构：Fudan University, Shanghai Innovation Institute, Nanyang Technological University
关键词：Vision-Language-Action (VLA), Active Perception, 3D Robotic Manipulation

概述

本文提出了一种名为 ActiveVLA 的新框架，让机器人不再被动地'看'世界，而是能像人一样主动调整视角和焦距，从而在杂乱或有遮挡的环境中精准完成复杂的操作任务。

研究痛点

现有的 VLA（视觉 - 语言 - 动作）模型大多依赖固定的、腕部摄像机提供的 2D 视角，无法在执行任务时根据需要动态调整观察角度或分辨率。这种被动感知导致机器人在面对长程任务、精细操作或严重遮挡（Occlusion）时，因无法获取关键细节而失败。

核心方法

该研究设计了一个'由粗到精'的主动感知框架：首先通过多视角投影定位关键 3D 区域，然后利用主动视角选择（避开遮挡）和主动 3D 变焦（放大细节）来优化视觉输入，最后结合 VLM（视觉语言模型）预测精确的动作。

创新点

前人工作主要集中在被动感知（固定摄像头）或 2D 图像处理。本文的创新在于引入了**主动感知（Active Perception）**机制，赋予机器人动态调整'视线'的能力（即选择最佳观测点和变焦），将 3D 场景理解与 VLM 结合，解决了遮挡和细节丢失问题。

通俗解释

想象一个新手厨师在杂乱的厨房里找东西。传统机器人就像被蒙住一只眼且头不能动的人，只能凭有限的视野乱摸。ActiveVLA 则像是一个聪明的学徒，它会先扫视全局（粗阶段），然后主动把头凑近橱柜里看清楚（主动视角选择），甚至眯着眼睛放大看那个被挡住一半的苹果柄（主动 3D 变焦），确认抓哪里最稳，最后才伸手去拿。

请添加图片描述

具体做法

3D 关键区域感知（粗阶段）：利用 RGB-D 图像重建点云，通过正交投影生成多视角 2D 图像，输入 VLM 预测关键区域热力图，反投影回 3D 空间定位目标。
主动视角选择：围绕目标区域生成候选相机位姿，通过评分函数（考虑可见性、距离、多样性）筛选出能避开遮挡、视野最好的几个视角。
主动 3D 变焦：对选定的关键区域进行虚拟'光学变焦'（缩小视场角），在不损失分辨率的情况下放大局部细节，辅助精细操作。
3D 动作预测：将优化后的视图输入 VLM 生成热力图，结合全局与局部特征预测机器人的 6D 位姿和夹爪动作。

技术基础

该研究基于预训练的 PaliGemma（作为 VLM Backbone）和 SigLIP（视觉编码器），并借鉴了 BridgeVLA 的架构思想（如输入输出对齐），在此基础上增加了 3D 主动感知模块。

实验结论

设置与数据：在 RLBench、COLOSSEUM 和 GemBench 三个模拟基准及真实机器人（Franka Panda）上进行评估。
评估方式：任务成功率（Success Rate, SR）、平均排名（Avg. Rank）。
结果：ActiveVLA 在 RLBench 上达到 91.8% 的平均成功率（优于 SOTA），在 COLOSSEUM 和 GemBench 上也表现最佳。真实场景实验显示，面对严重遮挡（如从层层叠叠的抽屉中取毛巾、从杂乱水果中拿香蕉），其成功率显著高于基线模型（如 RVT-2 和 BridgeVLA）。

补充细节

热力图 GT label 是自动标注的，而非人标。在 Simulator 里可以得到 Object 的点云，对应投影后就是 label。

ActiveVLA: 将主动感知注入 VLA 模型以实现精准三维机器人操控

基础信息

概述

研究痛点

核心方法

创新点

通俗解释

具体做法

技术基础

实验结论

补充细节

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

ActiveVLA: 将主动感知注入 VLA 模型以实现精准三维机器人操控

基础信息

概述

研究痛点

核心方法

创新点

通俗解释

具体做法

技术基础

实验结论

补充细节

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具