人形运控部署框架汇总：rsl_rl 与 unitree_rl_gym 解析

前言

人形机器人运动控制中，强化学习（RL）已成为核心部署方案。RSL-RL 作为经典的 RL 框架，在多个开源项目中被广泛采用，如 legged_gym 及宇树开源的 unitree_rl_gym。本文汇总梳理人形运控部署框架，重点解析 rsl_rl 架构及其在 PPO 算法中的具体实现。

第一部分 rsl_rl：经典 RL 框架封装

RSL-RL 是一个强化学习算法框架，其包含三大主要组件：Runners、Algorithms 和 Networks。

管理环境步进和智能体学习的 Runner
- __init__.py
- distillation_runner.py
- on_policy_runner.py
供算法使用的 Network 结构
- __init__.py
- memory.py
- mlp.py
- normalization.py

定义学习智能体的 Algorithm——包含 ppo.py、distillation.py 即 RSL-RL 包含两种算法：

PPO：一种无模型、基于策略的强化学习方法，能够从零开始学习复杂任务，无需先验知识。
BC 算法：类似于 DAgger 的行为克隆算法，用于将专家策略的行为迁移到学生策略中。在使用 PPO 进行强化学习训练后，如果训练环境与硬件部署环境存在差异，该算法尤其有用。

此外，还有对环境的封装，以及模型组件：

env: __init__.py, vec_env.py
modules: __init__.py, actor_critic.py, actor_critic_recurrent.py, rnd.py, student_teacher.py 等。

具体而言，其代码结构为：

rsl_rl/
  config/          # 配置文件
  algorithms/      # 强化学习算法实现，如 PPO
  env/             # 环境封装
  modules/         # 模型组件
    actor_critic.py        # 基础 Actor-Critic 网络
    actor_critic_depth_cnn.py # 带深度视觉的 Actor-Critic 网络
    actor_critic_history.py # 带历史信息的 Actor-Critic 网络
    actor_critic_recurrent.py # 循环神经网络版 Actor-Critic
    depth_backbone.py      # 深度视觉处理网络
  runners/         # 训练运行器
  storage/         # 数据存储
  utils/           # 工具函数

这个模块定义了强化学习的核心组件，包括 actor-critic 网络架构（有普通版、CNN 版、历史记忆版和 RNN 版）、PPO 算法实现、训练运行器等。从代码中可以看出，它支持不同类型的输入数据 (如关节状态、深度图像等)。

1.1 rsl_rl/algorithms/ppo.py：近端策略优化 PPO 的实现

这段代码定义了一个名为 PPO 的类，它实现了近端策略优化 (Proximal Policy Optimization) 算法。

1.1.1 初始化 init

构造函数接收一个 actor_critic 网络（策略网络和价值网络的组合）以及学习超参数 (如学习周期 num_learning_epochs、小批量数量 num_mini_batches、裁剪参数 clip_param、折扣因子、GAE lambda 等)，以及优化器设置（学习率、梯度裁剪范数）。

def update(self): mean_value_loss = 0 mean_surrogate_loss = 0 # 检查是否为循环网络并选择生成器 if self.actor_critic.is_recurrent: generator = self.storage.reccurent_mini_batch_generator(self.num_mini_batches, self.num_learning_epochs) else: generator = self.storage.mini_batch_generator(self.num_mini_batches, self.num_learning_epochs) for (obs_batch, critic_obs_batch, actions_batch, target_values_batch, advantages_batch, returns_batch, old_actions_log_prob_batch, old_mu_batch, old_sigma_batch, hid_states_batch, masks_batch) in generator: # 计算重要性采样比率 ratio = torch.exp(actions_log_prob_batch - torch.squeeze(old_actions_log_prob_batch)) # 计算未裁剪的代理损失项 surrogate = -torch.squeeze(advantages_batch) * ratio # 计算裁剪后的代理损失项 surrogate_clipped = -torch.squeeze(advantages_batch) * torch.clamp(ratio, 1.0 - self.clip_param, 1.0 + self.clip_param) # 取最大值作为最终损失 surrogate_loss = torch.max(surrogate, surrogate_clipped).mean() # 价值函数损失计算 if self.use_clipped_value_loss: value_clipped = target_values_batch + (value_batch - target_values_batch).clamp(-self.clip_param, self.clip_param) value_losses = (value_batch - returns_batch).pow(2) value_losses_clipped = (value_clipped - returns_batch).pow(2) value_loss = torch.max(value_losses, value_losses_clipped).mean() else: value_loss = (returns_batch - value_batch).pow(2).mean() # 总损失 loss = surrogate_loss + self.value_loss_coef * value_loss - self.entropy_coef * entropy_batch.mean() # 梯度更新 self.optimizer.zero_grad() loss.backward() nn.utils.clip_grad_norm_(self.actor_critic.parameters(), self.max_grad_norm) self.optimizer.step() mean_value_loss += value_loss.item() mean_surrogate_loss += surrogate_loss.item() # 自适应学习率调整 (KL 散度) if self.desired_kl is not None and self.schedule == "adaptive": with torch.inference_mode(): kl = torch.sum(torch.log(sigma_batch / old_sigma_batch + 1.0e-5) + (torch.square(old_sigma_batch) + torch.square(old_mu_batch - mu_batch)) / (2.0 * torch.square(sigma_batch)) - 0.5, axis=-1) kl_mean = torch.mean(kl) if kl_mean > self.desired_kl * 2.0: self.learning_rate = max(1e-5, self.learning_rate / 1.5) elif kl_mean < self.desired_kl / 2.0 and kl_mean > 0.0: self.learning_rate = min(1e-2, self.learning_rate * 1.5) num_updates = self.num_learning_epochs * self.num_mini_batches mean_value_loss /= num_updates mean_surrogate_loss /= num_updates self.storage.clear() return mean_value_loss, mean_surrogate_loss

人形运控部署框架汇总：rsl_rl 与 unitree_rl_gym 解析

前言

第一部分 rsl_rl：经典 RL 框架封装

1.1 rsl_rl/algorithms/ppo.py：近端策略优化 PPO 的实现

1.1.1 初始化 init

更多推荐文章

相关免费在线工具

1.1.2 存储初始化 init_storage

1.1.3 模式切换 test_mode/train_mode

1.1.4 动作选择 act

1.1.5 处理环境步骤 process_env_step

1.1.6 计算回报 compute_returns

1.1.7 update：策略和价值网络参数更新

1.2 rsl_rl/env

1.3 rsl_rl/modules

1.3.0 modules/actor_critic_transformer.py

1.3.1 modules/actor_critic_depth_cnn.py

1.3.2 modules/actor_critic_history.py

1.3.3 modules/actor_critic_recurrent.py

1.3.4 modules/actor_critic.py

1.3.5 modules/depth_backbone.py

1.3.6 modules/normalizer.py

1.4 rsl_rl/runners

更多推荐文章

相关免费在线工具

人形运控部署框架汇总：rsl_rl 与 unitree_rl_gym 解析

前言

第一部分 rsl_rl：经典 RL 框架封装

1.1 rsl_rl/algorithms/ppo.py：近端策略优化 PPO 的实现

1.1.1 初始化 init

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.1.2 存储初始化 init_storage

1.1.3 模式切换 test_mode/train_mode

1.1.4 动作选择 act

1.1.5 处理环境步骤 process_env_step

1.1.6 计算回报 compute_returns

1.1.7 update：策略和价值网络参数更新

1.2 rsl_rl/env

1.3 rsl_rl/modules

1.3.0 modules/actor_critic_transformer.py

1.3.1 modules/actor_critic_depth_cnn.py

1.3.2 modules/actor_critic_history.py

1.3.3 modules/actor_critic_recurrent.py

1.3.4 modules/actor_critic.py

1.3.5 modules/depth_backbone.py

1.3.6 modules/normalizer.py

1.4 rsl_rl/runners

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具