跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

VLA 机器人革命:解析 10 篇关键视觉 - 语言 - 动作模型论文

综述由AI生成综述了 2024-2026 年视觉 - 语言 - 动作(VLA)模型的 10 篇关键论文。涵盖 RT-2、Open X-Embodiment、OpenVLA 等基础模型,以及 NVIDIA GR00T N1、VITRA、Physical Intelligence π0.5 等前沿研究。核心观点包括利用互联网数据提升泛化能力、开源模型降低门槛、双系统架构优化人形机器人控制、以及结合世界模型增强物理推理。文章分析了从任务特定编程向通用智能体转变的技术路径,指出数据稀缺、Sim-to-Real 差距及实时性仍是主要挑战,未来方向在于更大规模预训练、自主学习及边缘部署。

赛博行者发布于 2026/4/5更新于 2026/5/2331 浏览
VLA 机器人革命:解析 10 篇关键视觉 - 语言 - 动作模型论文

VLA 机器人革命:解析当下 10 篇最关键的视觉 - 语言 - 动作模型论文

概览

2024-2026 年,机器人领域正经历一场范式转换:从传统的任务特定编程转向视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型。这些模型将视觉感知、自然语言理解和动作执行统一在单一框架中,让机器人能够像人类一样理解指令、推理场景并执行复杂操作。

本文精选5 篇最 fundamental 的基础性论文和5 篇热度最高的前沿论文,深入剖析 VLA 领域的核心思想、技术演进和未来方向。这些论文代表了从 Google DeepMind、NVIDIA、斯坦福、Physical Intelligence 等顶尖机构的最新突破,涵盖了从单臂操作到双臂人形机器人、从模拟环境到真实家庭场景的全方位进展。


Part I: 五篇 Fundamental 基础性论文

这些论文奠定了 VLA 领域的理论基础和技术范式,是理解整个领域发展脉络的关键。


1. RT-2: New Model Translates Vision and Language into Action

发表机构:Google DeepMind
时间:2023 年 7 月
论文链接:Google DeepMind Blog

RT-2 Robotics Transformer

1) 要解决什么问题

传统机器人策略模型只能从有限的机器人演示数据中学习,导致泛化能力弱、无法处理新物体和场景。如何让机器人像人类一样,利用互联网海量的视觉 - 语言知识来理解世界并执行操作?

2) 解决思路与已有方法的不同

核心创新:RT-2 将大规模视觉 - 语言模型(VLM)转化为视觉 - 语言 - 动作(VLA)模型。它基于 PaLM-E 和 PaLI-X 等预训练 VLM,通过联合训练的方式,在互联网规模的视觉 - 语言数据和真实机器人数据上进行共同微调。

与已有方法的差异:

  • RT-1:仅从机器人演示数据学习,泛化能力受限于数据集覆盖范围
  • RT-2:继承了 VLM 的语义理解能力,能够执行训练数据中从未出现的指令(如"把能当即兴锤子的东西递给我"→抓取石头)

技术实现:将机器人动作表示为文本 tokens,使 VLM 的 decoder 可以同时输出语言和动作序列。这种统一表示让模型能在 vision-language 任务和 robot control 任务间共享知识。

3) 创新点的直觉 & Why it helps

直觉:人类学习新技能时,不需要亲自尝试每一个物体——我们通过观察图片、阅读文字积累的常识就能推理出"哪些物体适合某个任务"。RT-2 把这种能力赋予了机器人。

为什么有效:

  • 常识推理:VLM 预训练让模型理解物体属性(坚硬、柔软、可食用等),支持零样本泛化
  • 语义理解:支持抽象指令('把垃圾扔掉')和多步推理(chain-of-thought)
  • 数据效率:无需为每个新物体采集机器人数据,大幅降低训练成本
4) 可能的价值
  • 学术价值:首次证明互联网数据能有效迁移到机器人控制,开创 VLA 范式
  • 工业价值:降低机器人部署门槛,单一模型支持 700+ 任务,适用于仓储、家庭服务等场景
  • 社会价值:推动通用机器人助手的实现,缓解劳动力短缺(全球预计超 5000 万人)

2. Open X-Embodiment: Robotic Learning Datasets and RT-X Models

发表机构:21 所机构联合(Google DeepMind 领导)
时间:2023 年 10 月
论文链接:arXiv:2310.08864

Open X-Embodiment Dataset

1) 要解决什么问题

不同机器人平台(单臂、双臂、四足等)的数据格式各异、无法共享,导致每个新机器人都需要从零开始训练。如何打破"数据孤岛",让一个模型能控制多种机器人形态?

2) 解决思路与已有方法的不同

核心贡献:构建了Open X-Embodiment 数据集,包含来自 22 种机器人形态的 100 万 + 真实轨迹、527 种技能、160,266 个任务,并提出RT-X 系列模型(RT-1-X 和 RT-2-X)实现跨 embodiment 的正迁移。

技术创新:

  • 统一数据格式:采用 RLDS 格式,支持不同动作空间、多模态输入(RGB、深度、点云)
  • 动作空间标准化:将不同机器人的动作统一映射到 7 维 end-effector 控制(位置 delta、旋转、夹爪)+ 256 bins 离散化
  • 混合训练:RT-2-X 在机器人数据和原始 VLM 数据上 1:1 比例联合训练
3) 创新点的直觉 & Why it helps

直觉:就像人类驾驶不同品牌的汽车时,核心的"转向 - 加速 - 刹车"逻辑是通用的,只是操作界面略有差异。RT-X 通过标准化动作空间,让模型学习任务的本质而非特定硬件的 quirks。

为什么有效:

  • 数据规模:100 万轨迹的规模让模型看到足够的任务 - 物体 - 场景组合
  • 多样性红利:在 A 机器人上学到的"抓取"知识能迁移到 B 机器人,提升样本效率
  • 统一架构:证明 Transformer 架构足够灵活,能适应不同 embodiment
4) 可能的价值
  • 学术价值:确立了机器人基础模型的数据集标准,催生 OpenVLA 等后续工作
  • 工业价值:降低新机器人平台的训练成本,支持快速定制化部署
  • 开放生态:22 机构合作模式推动社区数据共享,加速领域整体进步

3. OpenVLA: An Open-Source Vision-Language-Action Model

发表机构:斯坦福大学、UC Berkeley、Physical Intelligence
时间:2024 年 6 月
论文链接:arXiv:2406.09246

OpenVLA Architecture

1) 要解决什么问题

RT-2 等模型虽强大但闭源且参数量巨大(55B),限制了学术界和初创公司的使用。如何构建一个开源、高效、性能 SOTA的 VLA 模型,让更多人能在此基础上创新?

2) 解决思路与已有方法的不同

核心架构:

  • Vision Encoder:融合 DINOv2(自监督学习的丰富特征)+ SigLIP(语言对齐的语义特征)
  • Language Model:Llama 2 7B 作为 backbone
  • Action Decoder:将动作离散化为 256 bins,视为 text token 预测问题

训练策略:

  • 基于 Prismatic-7B VLM 进行微调
  • 使用 Open X-Embodiment 数据集的 970k 轨迹
  • 64 张 A100 GPU 训练 15 天

与闭源模型的差异:

  • 参数效率:7B 参数量 vs RT-2-X 的 55B,推理速度快 7 倍
  • 性能超越:在 29 个任务上成功率比 RT-2-X 高 16.5%(绝对值)
  • LoRA 微调:仅需调整 1.4% 参数即可适配新任务,支持消费级 GPU
3) 创新点的直觉 & Why it helps

直觉:不是"越大越好",而是"精准融合"。DINOv2 捕捉物体的视觉细节,SigLIP 理解语义意图,Llama 2 整合推理能力——三者协同优于单纯堆参数。

为什么有效:

  • 双视觉编码器:DINOv2 的局部特征 + SigLIP 的全局语义 = 更 robust 的场景理解
  • 动作离散化:将连续控制转化为 token 预测,复用 LLM 强大的序列建模能力
  • 开源生态:社区可基于 OpenVLA 快速迭代,如 4-bit 量化、更强的 vision planning
4) 可能的价值
  • 学术价值:开源权重(permissive license)加速研究,成为 VLA 领域的"BERT 时刻"
  • 教育价值:7B 规模让学生和小团队也能实验 VLA,降低入门门槛
  • 商业价值:初创公司可基于 OpenVLA 快速构建垂直领域机器人(如餐饮、物流)

4. 3D Diffusion Policy (DP3)

发表机构:MIT、清华大学、上海交通大学
时间:2023 年 12 月
论文链接:CoRL 2025

3D Diffusion Policy

1) 要解决什么问题

2D 图像缺乏深度信息,导致机器人难以理解空间关系(物体遮挡、相对位置等),且对相机视角变化敏感。如何让策略模型具备3D 空间推理能力,同时保持高样本效率?

2) 解决思路与已有方法的不同

核心创新:将3D 点云表示与**扩散策略(Diffusion Policy)**结合。

技术实现:

  • 输入:稀疏采样的单视角点云(非密集点云,计算高效)
  • 编码器:轻量级 Point Transformer 提取 3D 特征
  • 动作生成:扩散模型以 3D 表示为条件,迭代去噪生成动作序列

与 2D 方法的差异:

  • 2D CNN/ViT:只能隐式推断深度,易受视角、光照影响
  • DP3:显式建模 3D 几何,泛化到新视角、新物体摆放
3) 创新点的直觉 & Why it helps

直觉:人类看到桌上的杯子时,大脑自动构建 3D 心理模型——即使换个角度看,仍知道杯子在哪、如何抓取。DP3 让机器人也拥有这种 3D"心智地图"。

为什么有效:

  • 几何不变性:3D 点云表示对旋转、平移具有天然不变性
  • 遮挡鲁棒:稀疏点云仍保留关键几何信息,不像 2D 图像完全丢失被遮挡部分
  • 扩散模型优势:多模态动作分布(一个场景可能有多种合理抓取方式)

实验结果:

  • 72 个仿真任务,仅用 10 个演示,成功率比 baseline 高 24.2%
  • 4 个真实任务,40 个演示,成功率 85%,泛化到新视角、新物体实例
4) 可能的价值
  • 学术价值:证明 3D 表示对机器人策略的关键性,影响后续 SpatialVLA 等工作
  • 工业价值:适用于仓储拣选、装配等需要精准空间定位的场景
  • 技术价值:点云编码 + 扩散模型的组合成为新范式

5. Octo: An Open-Source Generalist Robot Policy

发表机构:UC Berkeley、CMU、Google DeepMind
时间:2024 年 1 月
论文链接:Octo Models

Octo Architecture

1) 要解决什么问题

现有 VLA 模型往往针对特定机器人硬件设计,迁移到新传感器配置(如增加一个相机、换灵巧手)时需要重新训练。如何设计一个模块化、易于微调的泛化机器人策略?

2) 解决思路与已有方法的不同

核心设计:Transformer-based 扩散策略 + 模块化注意力机制。

架构特点:

  • 灵活输入:支持语言指令或目标图像、观察历史、多相机
  • 扩散解码:生成连续动作分布(而非离散化)
  • 模块化微调:针对新传感器/动作空间,只需调整对应模块

两个版本:

  • Octo-Small:27M 参数,快速推理
  • Octo-Base:93M 参数,更强性能

训练数据:Open X-Embodiment 数据集的 800k episodes

3) 创新点的直觉 & Why it helps

直觉:像搭积木一样构建机器人策略——视觉模块、语言模块、动作模块可以独立替换或升级,而不影响整体框架。

为什么有效:

  • 模块化注意力:不同模态(vision, language, proprioception)通过独立注意力头处理,再融合
  • 高效微调:新机器人只需微调 action decoder 和部分 transformer 层,无需从头训练
  • 扩散策略:连续动作空间建模,适合精细操作

适用场景:

  • 研究者快速测试新硬件配置
  • 工业界从 Octo-Small 原型快速迭代到 Octo-Base 生产版本
4) 可能的价值
  • 学术价值:提供灵活的研究平台,降低实验成本
  • 工程价值:模块化设计成为后续 VLA 架构的设计参考
  • 开源贡献:GitHub 代码和预训练权重推动社区快速复现和改进

Part II: 五篇热度最高的前沿论文

这些论文代表了 2024-2026 年 VLA 领域的最新突破,引领未来发展方向。


6. NVIDIA Isaac GR00T N1: Open Foundation Model for Humanoid Robots

发表机构:NVIDIA
时间:2025 年 3 月
论文链接:NVIDIA Research

NVIDIA GR00T N1

1) 要解决什么问题

人形机器人需要全身协调控制(躯干、双臂、手腕、手指),传统 VLA 难以处理如此高维的动作空间,且推理速度不足以支持实时控制。如何构建快速、灵巧、全身控制的人形机器人基础模型?

2) 解决思路与已有方法的不同

核心架构:双系统设计(System 1 + System 2)

System 2(慢思考):

  • 基于 NVIDIA-Eagle + SmolLM-1.7B 的 VLM
  • 处理视觉和语言,生成高层规划(latent cognitive representations)
  • 理解"整理房间"这类抽象任务,分解为子目标

System 1(快反应):

  • Diffusion Transformer 动作模型
  • 接收 System 2 的 latent vector,生成高频连续控制指令
  • 控制上半身所有关节(肩膀、手肘、手腕、手指)

训练数据混合:

  • 第一视角人类视频(学习人机交互逻辑)
  • 真实机器人轨迹(弥合 sim-to-real gap)
  • GPU 加速仿真数据(提供无限数据)
  • Latent Action Training(从无标注视频学习)
3) 创新点的直觉 & Why it helps

直觉:人类行为也是"双系统"——System 2 负责思考"我要做什么",System 1 负责执行"手怎么动"。GR00T N1 模仿这种认知架构。

为什么有效:

  • 解耦思考与执行:慢速 VLM 专注高层推理,快速 diffusion 专注低层控制,各司其职
  • 实时性:System 1 以 7Hz 生成动作块,配合底层控制器实现平滑执行
  • 全身协调:首个支持整个上半身连续控制的 VLA(手腕姿态 + 手指位置)

真实案例:1X 人形机器人在陌生家庭自主整理房间(GTC 2025 演示)

4) 可能的价值
  • 工业价值:应对全球 5000 万 + 劳动力短缺,适用于物料搬运、包装、检查
  • 开源影响:开放权重(permissive license)加速全球人形机器人研发
  • 社会价值:推动人形机器人从科幻走向现实,1X CEO 称其为"伴侣而非工具"

7. VITRA: Scalable VLA Pretraining with Human Videos

发表机构:微软亚洲研究院
时间:2026 年 1 月
论文链接:Microsoft Research

VITRA Method

1) 要解决什么问题

机器人训练数据稀缺且昂贵(需要遥操作设备、标注动作参数),而互联网上有海量人类操作视频。如何将非结构化的人类视频转化为机器人可用的训练数据?

2) 解决思路与已有方法的不同

核心方法:自动化重建管道

步骤:

  1. 3D 手部运动重建:从人类视频中提取第一视角手部轨迹
  2. VLA 格式转换:将人手动作映射到与机器人数据一致的结构化格式
  3. 预训练 VLA:在大规模人类视频上预训练(100 万 +episodes)
  4. 少样本微调:仅用 1000+ 机器人遥操数据即可迁移到真实任务

与已有方法的差异:

  • 传统方法:仅用机器人演示数据,规模受限于硬件和人力
  • VITRA:利用无限的人类视频资源,实现可扩展的预训练
3) 创新点的直觉 & Why it helps

直觉:人类视频就像"教科书"——虽然手和机械手构造不同,但"抓杯子把手"、"倒水"这些操作逻辑是通用的。VITRA 让机器人通过观看人类视频学习这些逻辑。

为什么有效:

  • 零样本预测:预训练模型在未见人手动作上展现更强预测能力
  • 微调效率:仅 1000 条机器人数据,成功率从 30-40% 提升至 70%+
  • 泛化能力:面对训练中未见物体(新型保温杯、异形玩具),仍保持~70% 成功率

实验任务:

  • 随机位置抓取放置:成功率>80%
  • 功能抓取(抓杯子把手):70%+
  • 倒水、扫地:70%+
4) 可能的价值
  • 学术价值:开创 VLA 预训练新范式,证明人类视频的巨大潜力
  • 数据价值:互联网视频成为"取之不尽"的训练资源
  • 商业价值:大幅降低机器人训练成本,加速产品化进程

8. Physical Intelligence π0.5: VLA with Open-World Generalization

发表机构:Physical Intelligence
时间:2025 年 4 月
论文链接:Physical Intelligence Blog

Physical Intelligence Robot

1) 要解决什么问题

现有 VLA 模型在训练环境内表现优异,但面对完全陌生的新家庭/新场景时失效。如何让机器人具备真正的"开放世界泛化能力"——在从未见过的环境中也能执行复杂任务?

2) 解决思路与已有方法的不同

核心策略:异构数据联合训练(Co-training on Heterogeneous Data)

数据来源:

  1. 多样环境:100+ 不同家庭/办公室环境的移动操作数据
  2. 多模态网络数据:问答、图像描述、物体检测
  3. 多 embodiment 数据:单臂机器人、无移动底座机器人的数据
  4. 语言指导演示:人类通过自然语言逐步指导机器人完成任务

架构设计:

  • 基于π0 VLA(5B 参数 VLM + action expert)
  • 支持高层语义推理(下一步做什么)和低层运动控制(关节指令)
  • Chain-of-Thought 式推理:模型先输出高层文本动作("pick up the pillow"),再生成低层连续动作

离散解码 + 连续 Flow Matching:

  • 离散 pathway:推断高层动作
  • 连续 pathway:生成 50-step (1 秒) 动作 chunk
3) 创新点的直觉 & Why it helps

直觉:就像人类进入陌生房间时,会调用已有的"整理经验"(知道枕头放床上、杯子放厨房),而不需要在每个房间都学一遍。π0.5 通过在多样环境训练,学到任务的本质而非特定环境的 memorization。

为什么有效:

  • 语义理解:网络数据提供"哪些物体该放哪"的常识
  • 任务结构:语言指导演示教会模型任务的高层结构(如整理床铺的步骤)
  • 物理行为迁移:简单机器人的操作技能可迁移到复杂移动平台

缩放研究:在 100 个训练环境后,模型在新环境的性能接近"在测试环境直接训练"的 baseline——证明泛化能力已接近上限。

4) 可能的价值
  • 学术价值:首次系统性证明 VLA 的开放世界泛化能力
  • 产品价值:支持"即买即用"的家庭服务机器人,无需针对每个家庭定制训练
  • 未来方向:模型可从自主经验改进、在陌生情况主动寻求帮助

9. CoA-VLA: Chain-of-Affordance for Better Reasoning

发表机构:ICCV 2025
时间:2025 年
论文链接:ICCV 2025 Paper

CoA-VLA Demo

1) 要解决什么问题

VLA 模型虽能执行语言指令,但缺乏可供性推理(affordance reasoning)——不理解"哪里可以放物体"、'如何避开障碍'。如何让 VLA 具备类似人类的空间推理能力?

2) 解决思路与已有方法的不同

核心创新:Chain-of-Affordance(CoA)框架

设计思想:

  1. 语义识别:从自由文本指令中解析物体名称
  2. 空间定位:预测物体的 2D 位置(grounding)
  3. 可供性推理:推断无碰撞路径、可放置区域
  4. 双模态注入:将可供性知识转化为视觉可供性(图像标注)和文本可供性(语言描述),通过 vision-language co-injection 模块注入策略网络

与 baseline 的差异:

  • Vanilla VLA:直接从图像 + 指令生成动作,易碰撞、定位不准
  • CoA-VLA:显式建模空间约束,生成动作前先推理"哪里安全"
3) 创新点的直觉 & Why it helps

直觉:人类执行"把杯子放桌上"时,会自动排除"边缘易掉落"、"已有物体占据"的位置,选择"平坦、空闲"的区域。CoA-VLA 让机器人也进行这种推理。

为什么有效:

  • 精确性:空间 grounding 提高定位准确度
  • 鲁棒性:碰撞检测避免失败操作
  • 泛化性:识别未见物体姿态、新环境自由空间

实验结果:

  • 超越 OpenVLA 成功率 30.65%(绝对值)
  • 模型参数更小、预训练数据更少,但性能更优
4) 可能的价值
  • 学术价值:将推理(reasoning)引入 VLA,启发后续工作
  • 安全价值:降低机器人碰撞风险,适用于人机协作场景
  • 工业价值:提高抓取成功率,减少生产线故障

10. WorldVLA: Autoregressive Action-World Model

发表机构:清华大学、上海交通大学
时间:2025 年 6 月
论文链接:Literature Review

WorldVLA Concept

1) 要解决什么问题

传统 VLA 只预测动作,不理解"物理规律"——不知道"推物体会移动"、'倒水杯子会满'。如何让 VLA 具备物理世界建模能力,生成更符合物理直觉的动作?

2) 解决思路与已有方法的不同

核心架构:统一动作模型和世界模型

两个组件:

  1. World Model(世界模型):
    • 预测未来图像(conditioned on 当前观察 + 动作)
    • 学习环境物理规律
  2. Action Model(动作模型):
    • 生成动作(conditioned on 视觉观察 + 语言指令)
    • 利用世界模型的物理理解辅助视觉理解

训练策略:

  • 联合优化:同时训练视频预测和动作预测
  • 自回归框架:动作和图像 token 交错生成
  • Autoregressive Action Chunking:通过特殊 attention mask,每个动作仅基于视觉输入(减少歧义)
3) 创新点的直觉 & Why it helps

直觉:人类学习新技能时,会在脑海中"预演"——想象"如果我这么做,会发生什么"。WorldVLA 让机器人也拥有这种"心理模拟"能力。

为什么有效:

  • 物理理解增强:世界模型提供环境动力学知识,动作模型生成更合理的动作
  • 双向促进:
    • 世界模型→动作模型:物理知识提升抓取成功率 4%
    • 动作模型→世界模型:行为理解降低 FVD 指标 10%
  • Action Chunking:保持推理速度,多帧历史输入提升性能

实验发现:

  • 有动作条件的世界模型优于纯视频预测模型(减少歧义)
  • 使用 2 帧历史输入比单帧好
4) 可能的价值
  • 学术价值:将 world model 引入 VLA,开辟新研究方向
  • 仿真价值:世界模型可用于策略训练的"梦境演练"(类似 DreamerV3)
  • 长期规划:理解物理规律支持多步任务推理

总结与未来展望

技术演进脉络

第一代(RT-1):从机器人数据学习,任务特定
第二代(RT-2, RT-X):融合互联网数据,跨 embodiment 泛化
第三代(OpenVLA, Octo):开源基础模型,模块化设计
第四代(GR00T, π0.5):双系统架构,开放世界泛化
未来方向(WorldVLA, CoA-VLA):物理推理、可供性理解

核心挑战
  1. 数据问题:真实机器人数据昂贵(VITRA 用人类视频缓解)
  2. Sim-to-Real Gap:仿真数据难以完全迁移(GR00T 混合真实 + 仿真数据)
  3. 实时性:高维动作空间推理速度慢(GR00T 双系统、WorldVLA action chunking)
  4. 安全性:开放环境中的碰撞风险(CoA-VLA 可供性推理)
  5. 长期规划:复杂任务需要多步推理(π0.5 的 chain-of-thought)
未来方向
  • 更大规模预训练:利用全网视频(人类、动物、仿真)
  • 自主学习:从失败经验中改进,减少人类监督
  • 多模态感知:融合触觉(VTLA)、听觉(VLAS)
  • 可解释性:理解 VLA 的推理过程,提高可信度
  • 边缘部署:压缩模型至消费级硬件(4-bit 量化)
结语

VLA 模型正将机器人从"工具"转变为"智能体"。从 Google DeepMind 的 RT-2 奠基,到 NVIDIA GR00T N1 的人形机器人突破,再到微软 VITRA 的预训练新范式——这场革命才刚刚开始。

当机器人能像人类一样理解世界、推理任务、执行操作时,真正的通用机器人助手将不再是科幻。这 10 篇论文,正是通向未来的路标。


关键词:Vision-Language-Action, VLA 模型,机器人操作,具身智能,基础模型,多模态学习,迁移学习,人形机器人

推荐阅读顺序:RT-2 → Open X-Embodiment → OpenVLA → 3D Diffusion Policy → Octo → GR00T N1 → VITRA → π0.5 → CoA-VLA → WorldVLA

目录

  1. VLA 机器人革命:解析当下 10 篇最关键的视觉 - 语言 - 动作模型论文
  2. 概览
  3. Part I: 五篇 Fundamental 基础性论文
  4. 1. RT-2: New Model Translates Vision and Language into Action
  5. 1) 要解决什么问题
  6. 2) 解决思路与已有方法的不同
  7. 3) 创新点的直觉 & Why it helps
  8. 4) 可能的价值
  9. 2. Open X-Embodiment: Robotic Learning Datasets and RT-X Models
  10. 1) 要解决什么问题
  11. 2) 解决思路与已有方法的不同
  12. 3) 创新点的直觉 & Why it helps
  13. 4) 可能的价值
  14. 3. OpenVLA: An Open-Source Vision-Language-Action Model
  15. 1) 要解决什么问题
  16. 2) 解决思路与已有方法的不同
  17. 3) 创新点的直觉 & Why it helps
  18. 4) 可能的价值
  19. 4. 3D Diffusion Policy (DP3)
  20. 1) 要解决什么问题
  21. 2) 解决思路与已有方法的不同
  22. 3) 创新点的直觉 & Why it helps
  23. 4) 可能的价值
  24. 5. Octo: An Open-Source Generalist Robot Policy
  25. 1) 要解决什么问题
  26. 2) 解决思路与已有方法的不同
  27. 3) 创新点的直觉 & Why it helps
  28. 4) 可能的价值
  29. Part II: 五篇热度最高的前沿论文
  30. 6. NVIDIA Isaac GR00T N1: Open Foundation Model for Humanoid Robots
  31. 1) 要解决什么问题
  32. 2) 解决思路与已有方法的不同
  33. 3) 创新点的直觉 & Why it helps
  34. 4) 可能的价值
  35. 7. VITRA: Scalable VLA Pretraining with Human Videos
  36. 1) 要解决什么问题
  37. 2) 解决思路与已有方法的不同
  38. 3) 创新点的直觉 & Why it helps
  39. 4) 可能的价值
  40. 8. Physical Intelligence π0.5: VLA with Open-World Generalization
  41. 1) 要解决什么问题
  42. 2) 解决思路与已有方法的不同
  43. 3) 创新点的直觉 & Why it helps
  44. 4) 可能的价值
  45. 9. CoA-VLA: Chain-of-Affordance for Better Reasoning
  46. 1) 要解决什么问题
  47. 2) 解决思路与已有方法的不同
  48. 3) 创新点的直觉 & Why it helps
  49. 4) 可能的价值
  50. 10. WorldVLA: Autoregressive Action-World Model
  51. 1) 要解决什么问题
  52. 2) 解决思路与已有方法的不同
  53. 3) 创新点的直觉 & Why it helps
  54. 4) 可能的价值
  55. 总结与未来展望
  56. 技术演进脉络
  57. 核心挑战
  58. 未来方向
  59. 结语
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Python、PyCharm 与 Anaconda 的关系解析及环境配置指南
  • 2026 高校论文 AI 率新规与 AIGC 检测要求汇总
  • Llama-2-7b 在昇腾 NPU 上的六大核心场景性能基准
  • Stable Diffusion 画质增强:Consistency Decoder 使用教程
  • 前端开发者必备的三个核心技能:AI 设计、工程实践与硬件效率
  • 六轴机械臂正运动学:D-H 参数法建模与代码实现
  • 大型语言模型(LLMs)关键技术指南
  • Vue3+Python 基于协同过滤算法的图书馆图书借阅推荐系统设计与实现
  • OpenClaw 公网访问实战:利用 cpolar 实现随时随地远程连接
  • 降低 AIGC 疑似度:7 个实用技巧与专业工具案例
  • 预训练语言模型与 BERT 实战应用
  • 绿联 NAS 配置 WebDAV 公网访问并使用 RaiDrive 挂载本地
  • Linux 零基础入门:操作系统核心概念与实战指南
  • Spring Boot 全局异常处理与日志监控实战
  • Unity+AI 一句话制作完整小游戏
  • Stable Diffusion 原理详解(附代码实现)
  • 低空无人机智能管控与 AI 智慧巡检平台架构及场景应用
  • 剪映 AI 辅助影视解说自动化工作流实战指南
  • C++贪吃蛇游戏代码实现与核心逻辑解析
  • 本地离线部署 AI 大模型:OpenClaw + Ollama + Qwen 实战

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online