PPO算法在四足机器人上的实现：rsl_rl代码解读 | 极客日志

PythonAI算法

PPO算法在四足机器人上的实现：rsl_rl代码解读

拆解rsl_rl仓库中PPO算法的Python实现，覆盖目录结构、初始化、采样、GAE计算和策略更新。重点介绍概率比率裁剪、价值损失裁剪、自适应学习率控制及训练循环，揭示PPO在四足机器人上的实际代码细节。

LinuxPan发布于 2026/6/80 浏览

最近在看宇树机器人的强化学习控制，顺便把 rsl_rl 仓库里的 PPO 实现走了一遍。这篇文章就是走读过程的记录，主要梳理类结构、关键函数和训练循环，不涉及环境配置的细节（官方文档已经写得很清楚了）。

仓库地址：https://github.com/unitreerobotics/unitree_rl_gym.git ，官方教程：https://github.com/unitreerobotics/unitree_rl_gym/blob/main/doc/setup_zh.md

快速拿到代码：

git clone https://github.com/leggedrobotics/rsl_rl.git
cd rsl_rl
git checkout v1.0.2

项目整体结构用 tree 看一下：

rsl_rl/
├── algorithms/
├── env/
├── modules/
├── runners/
├── storage/
└── utils/

algorithms/：放 RL 算法，目前只有 ppo.py，后续可以扩展 DDPG 之类。
env/：向量化环境封装，对接 PyBullet/Mujoco。
modules/：Actor-Critic 网络定义，包含普通版和 RNN 版。
runners/：训练调度器 on_policy_runner.py，负责采数据、调 update、保存模型。
storage/：轨迹存储 rollout_storage.py，管理 mini-batch 生成和归一化。
utils/：日志、模型存取等工具。

重点在 algorithms/ppo.py。这个文件实现了完整的 PPO，代码大约 150 行（含版权头），下面分段拆解。

初始化与超参数

class PPO:
    actor_critic: ActorCritic

    def __init__(self, actor_critic, num_learning_epochs=1, num_mini_batches=1,
                 clip_param=0.2, gamma=0.998, lam=0.95, value_loss_coef=1.0,
                 entropy_coef=0.0, learning_rate=1e-3, max_grad_norm=1.0,
                 use_clipped_value_loss=True, schedule="fixed",
                 desired_kl=, device=):
        
        .actor_critic = actor_critic
        .actor_critic.to(.device)
        .storage = 
        .optimizer = optim.Adam(.actor_critic.parameters(), lr=learning_rate)
        .transition = RolloutStorage.Transition()
        
        .clip_param = clip_param
        .num_learning_epochs = num_learning_epochs
        .num_mini_batches = num_mini_batches
        .value_loss_coef = value_loss_coef
        .entropy_coef = entropy_coef
        .gamma = gamma
        .lam = lam
        .max_grad_norm = max_grad_norm
        .use_clipped_value_loss = use_clipped_value_loss

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

def act(self, obs, critic_obs):
    if self.actor_critic.is_recurrent:
        self.transition.hidden_states = self.actor_critic.get_hidden_states()
    self.transition.actions = self.actor_critic.act(obs).detach()
    self.transition.values = self.actor_critic.evaluate(critic_obs).detach()
    self.transition.actions_log_prob = self.actor_critic.get_actions_log_prob(
        self.transition.actions).detach()
    self.transition.action_mean = self.actor_critic.action_mean.detach()
    self.transition.action_sigma = self.actor_critic.action_std.detach()
    self.transition.observations = obs
    self.transition.critic_observations = critic_obs
    return self.transition.actions

def process_env_step(self, rewards, dones, infos):
    self.transition.rewards = rewards.clone()
    self.transition.dones = dones
    if 'time_outs' in infos:
        self.transition.rewards += self.gamma * torch.squeeze(
            self.transition.values * infos['time_outs'].unsqueeze(1).to(self.device), 1)
    self.storage.add_transitions(self.transition)
    self.transition.clear()
    self.actor_critic.reset(dones)

def compute_returns(self, last_critic_obs):
    last_values = self.actor_critic.evaluate(last_critic_obs).detach()
    self.storage.compute_returns(last_values, self.gamma, self.lam)

def update(self):
    mean_value_loss = 0
    mean_surrogate_loss = 0
    if self.actor_critic.is_recurrent:
        generator = self.storage.reccurent_mini_batch_generator(
            self.num_mini_batches, self.num_learning_epochs)
    else:
        generator = self.storage.mini_batch_generator(
            self.num_mini_batches, self.num_learning_epochs)
    for ... in generator:
        # ... 损失计算与反向传播

self.actor_critic.act(obs_batch, masks=masks_batch, hidden_states=hid_states_batch[0])
actions_log_prob_batch = self.actor_critic.get_actions_log_prob(actions_batch)
value_batch = self.actor_critic.evaluate(critic_obs_batch, masks=masks_batch,
                                        hidden_states=hid_states_batch[1])
mu_batch = self.actor_critic.action_mean
sigma_batch = self.actor_critic.action_std
entropy_batch = self.actor_critic.entropy

kl = torch.sum(
    torch.log(sigma_batch / old_sigma_batch + 1.e-5) +
    (torch.square(old_sigma_batch) + torch.square(old_mu_batch - mu_batch))
    / (2.0 * torch.square(sigma_batch)) - 0.5,
    axis=-1)
kl_mean = torch.mean(kl)

KL 均值	处理
> desired_kl × 2	更新太猛，学习率除以 1.5
< desired_kl / 2 且>0	更新太慢，学习率乘以 1.5

ratio = torch.exp(actions_log_prob_batch - old_actions_log_prob_batch)

surrogate = -advantages_batch * ratio
surrogate_clipped = -advantages_batch * torch.clamp(
    ratio, 1.0 - self.clip_param, 1.0 + self.clip_param)
surrogate_loss = torch.max(surrogate, surrogate_clipped).mean()

value_clipped = target_values_batch + (value_batch - target_values_batch).clamp(
    -self.clip_param, self.clip_param)
value_losses = (value_batch - returns_batch).pow(2)
value_losses_clipped = (value_clipped - returns_batch).pow(2)
value_loss = torch.max(value_losses, value_losses_clipped).mean()

value_loss = (returns_batch - value_batch).pow(2).mean()

loss = surrogate_loss + self.value_loss_coef * value_loss \
       - self.entropy_coef * entropy_batch.mean()

self.optimizer.zero_grad()
loss.backward()
nn.utils.clip_grad_norm_(self.actor_critic.parameters(), self.max_grad_norm)
self.optimizer.step()

PPO算法在四足机器人上的实现：rsl_rl代码解读

初始化与超参数

更多推荐文章

相关免费在线工具

采样流程：act() 和 process_env_step()

核心更新：update()

总结训练循环

更多推荐文章

相关免费在线工具

PPO算法在四足机器人上的实现：rsl_rl代码解读

初始化与超参数

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

采样流程：act() 和 process_env_step()

核心更新：update()

总结训练循环

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具