深度视觉赋能足式机器人极限运动与跑酷技术解析

综述由AI生成深度视觉技术使足式机器人突破本体感知局限，实现跳箱、跨越深沟等极限跑酷动作。文章梳理了从盲行到视觉辅助的运动控制演进，重点分析 Extreme Parkour、WMP、VMTS 及 PIE 四个开源项目的技术架构。涵盖教师 - 学生蒸馏、世界模型、隐式 - 显式双重估计等核心方案，对比了四足与人形机器人的视觉运控差异，为 sim-to-real 迁移提供关键技术参考。

PentesterX发布于 2026/4/10更新于 2026/6/823 浏览

1. 引言：为什么需要深度视觉

在过去数年间，基于强化学习的足式机器人运动控制取得了长足进展。早期的工作——以 ETH 的 legged_gym 框架和 IsaacGym 并行训练环境为代表——已经证明，仅依靠本体感知（关节编码器、IMU 等）就能训练出在连续复杂地形上鲁棒行走的策略。这类方法通常被称为"Blind Locomotion"，即机器人不借助任何外部视觉传感器，完全依赖对自身状态的感知来适应地形变化。DreamWaQ（KAIST, ICRA 2023）等工作进一步证明，通过非对称 Actor-Critic 框架配合隐式地形估计，四足机器人甚至可以在户外多样地形上实现长距离鲁棒行走。

然而，Blind Locomotion 存在一个根本性的局限：机器人无法预知前方地形的具体形态。当面对跳箱、深沟、高台阶等需要提前规划动量和轨迹的极限地形时，纯本体感知的策略往往力不从心。跑酷（Parkour）场景要求机器人在接近障碍物之前就判断出障碍物的高度、宽度和距离，并据此调整步态、积累动量、选择起跳时机。这些决策必须依赖对前方环境的主动感知——深度视觉由此成为从"能走"到"能跑酷"的关键技术跳板。

本文将系统梳理近年来将深度视觉引入足式机器人跑酷运动控制的代表性工作，重点分析三个开源项目——Extreme Parkour（CMU）、WMP（SJTU）和 VMTS（2025）——的技术架构与实现细节，并深入解读 PIE（ZJU, RAL 2024）框架的隐式 - 显式估计机制及其与 AMP 运动先验的结合路径。

2. 技术背景：深度视觉在足式运控中的演进

2.1 从特权信息到可部署感知

足式机器人强化学习运控的核心难题在于 sim-to-real gap。在仿真环境中，策略可以直接访问地形高度图、摩擦系数、接触力等"特权信息"（Privileged Information），但这些信息在真实部署时无法获取。为解决这一矛盾，研究者发展出了两条主要技术路线：

第一条是教师 - 学生（Teacher-Student）框架。ETH 在 2020 年的工作（Learning quadrupedal locomotion over challenging terrain, Science Robotics）首次提出了这一范式：教师策略在仿真中利用特权信息学习最优行为，随后通过在线模仿学习（DAgger）将知识蒸馏给仅使用可观测数据的学生策略。学生策略通常引入一个额外的编码器，从历史本体观测中隐式估计那些无法直接获取的环境信息。

第二条是非对称 Actor-Critic 框架。KAIST 在 2022 年的工作（Concurrent Training of a Control Policy and a State Estimator, RAL）提出了一种更简洁的方案：Actor 网络仅接收可观测信息，而 Critic 网络在训练时直接使用特权信息的真实值。这种非对称结构避免了两阶段训练的复杂性，同时保留了特权信息对价值估计的指导作用。DreamWaQ 进一步在此基础上引入了 beta-VAE 来学习隐式地形表征。

2.2 深度相机的引入

当任务从连续地形行走升级为跑酷时，仅靠本体感知的隐式估计已不足以提供足够的环境信息。深度相机（如 Intel RealSense）的引入为策略提供了前方地形的显式几何信息。但深度图像的引入也带来了新的挑战：

仿真中的深度渲染开销：IsaacGym 的 GPU 相机渲染需要额外的计算资源，且渲染频率通常低于控制频率
深度图像的噪声与延迟：真实深度相机存在测量噪声、边缘失真和固有延迟
高维输入的处理：原始深度图像维度远高于本体观测，需要高效的特征提取网络
sim-to-real 的视觉域差异：仿真渲染的深度图与真实深度图之间存在系统性差异

针对这些挑战，研究者发展出了多种技术方案。其中最具代表性的是"scandots-to-depth 蒸馏"范式：先用地形扫描点（scandots，即仿真中直接采样的地形高度值）训练基础策略，再训练一个深度编码器将真实深度图像映射到与 scandots 编码器相同的隐空间，从而实现从特权感知到可部署视觉感知的迁移。

2.3 训练框架的技术栈

当前主流的深度视觉跑酷训练框架基本遵循以下技术栈：

仿真环境：IsaacGym (NVIDIA, GPU 并行)
训练框架：legged_gym + rsl_rl (ETH 开源)
RL 算法：PPO (Proximal Policy Optimization)
网络结构：MLP Actor-Critic + CNN/Transformer 深度编码器
部署格式：ONNX / TorchScript JIT

这一技术栈最早由 ETH 在 2021 年的里程碑工作（Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning, CoRL）中确立，此后被几乎所有后续工作所采用或改进。IsaacGym 提供的 GPU 并行仿真能力使得数千个环境可以同时运行，将训练时间从数天压缩到数小时。

3. 全网深度视觉跑酷项目梳理

最近人形机器人如火如荼，其中基于强化学习和 sim-to-real 的运控算法更是关键。但人形机器人的强化学习运控算法也是从四足机器人的运控算法中迭代而来。本节首先梳理 RL 足式运控的技术演进脉络——从四足到人形的关键论文，再聚焦深度视觉跑酷的代表性工作。

工作	年份	来源	核心贡献	与深度视觉跑酷的关系
Sim-to-Real Agile Locomotion	2018	RSS	RL+ 电机模型+DR 的 sim2real	奠定四足 RL 运控基础
Learning Agile Motor Skills	2019	ETH	电机网络补偿+DR	ANYmal 系列起点
Teacher-Student Framework	2020	ETH	教师 - 学生+DAgger 蒸馏	蒸馏范式的源头
Imitating Animals	2020	UCB	Motion Retargeting+DeepMimic	动物运动模仿先驱
AMP	2021	UCB	GAN 隐式风格奖励	为跑酷自然运动提供先验
IsaacGym+legged_gym	2021	ETH	GPU 并行训练框架	所有后续工作的技术栈基础
RMA	2021	CMU	快速电机适应+adaptation module	Teacher-Student 的 CMU 变体
Periodic Reward Composition	2021	ICRA	周期函数定义步态	双足步态设计参考
Walk These Ways	2022	MIT	细粒度步态可控 locomotion	步态切换参考
Rapid Locomotion	2022	MIT	速度自适应采样课程	课程学习设计参考
AMP for Hardware	2022	UCB	AMP 首次应用于四足	WMP 项目直接引用
Concurrent Training	2022	KAIST	非对称 Actor-Critic 框架	PIE/DreamWaQ 的框架基础
Elevation Mapping	2022	ETH	GPU 高效高程图构建	地形感知基础工具
Perceptive Locomotion	2022	ETH	深度相机估计高程图	视觉跑酷的直接前驱
DreamWaQ	2023	KAIST	β-VAE 隐式地形估计	PIE 的直接前驱
AMP Agile Locomotion	2023	SJTU	AMP+ 复杂地形自然步态	WMP 的 AMP 方案参考
DTC	2024	ETH	Model-based+Learning-based	精确落足点控制思路
HugWBC	2025	SJTU	人形细粒度步态控制	人形版 Walk These Ways

特性	Extreme Parkour	WMP	VMTS
机器人平台	宇树 A1（四足）	宇树 A1（四足）	PointFoot（双足）
视觉方案	scandots 蒸馏到深度	世界模型 + 深度	教师 - 学生 + 深度
训练阶段	两阶段	单阶段（交替训练）	两阶段
深度编码器	CNN+GRU	DreamerV3 RSSM	CNN+RNN
运动先验	无	AMP	无/可选 PIE
深度分辨率	87x58	64x64	58x87
隐变量维度	32	200(WM)+32	121
并行环境数	6144	4096	4096

深度视觉赋能足式机器人极限运动与跑酷技术解析

1. 引言：为什么需要深度视觉

2. 技术背景：深度视觉在足式运控中的演进

2.1 从特权信息到可部署感知

2.2 深度相机的引入

2.3 训练框架的技术栈

3. 全网深度视觉跑酷项目梳理

3.1 RL 足式运控技术演进脉络

3.1.1 ETH Robotics System Lab 系列

3.1.2 KAIST 系列

3.1.3 其他关键贡献

3.2 四足深度视觉跑酷代表作

3.3 人形深度视觉运控方向

3.4 技术基础工作总结

3.5 开源项目间的引用关系

4. 开源项目深度分析：Extreme Parkour

4.1 整体架构

4.2 两阶段训练流程

4.3 深度相机处理流水线

4.4 地形系统与奖励设计

4.5 Domain Randomization

5. 开源项目深度分析：WMP

5.1 核心思想：用世界模型替代蒸馏

5.2 项目架构

5.3 世界模型的构建与训练

5.4 策略网络与 AMP 集成

5.5 深度预测器：辅助任务

5.6 数据流总览

6. 开源项目深度分析：VMTS

6.1 从四足到双足：新的挑战

6.2 项目架构与策略类型

6.3 深度视觉的 Warp 渲染

6.4 双足步态奖励设计

6.5 三个项目的对比总结

7. PIE 框架详解：隐式 - 显式双重估计

7.1 设计动机

7.2 网络架构

7.3 多头自编码器：PIE 的核心创新

7.4 训练损失函数

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具