Isaac Lab Cartpole 强化学习训练流程详解 | 极客日志

PythonAI算法

Isaac Lab Cartpole 强化学习训练流程详解

综述由AI生成使用 Isaac Lab 和 RSL-RL 框架在 Windows 系统上训练 Cartpole 平衡机器人的完整流程。内容涵盖 Gym 环境注册机制、环境配置（场景、观测、动作、奖励、终止条件）、PPO 算法超参设置以及训练脚本的执行逻辑。通过解析核心代码文件，说明了从命令行启动到策略网络更新的闭环工作流，帮助开发者理解强化学习任务在仿真环境中的具体实现方式。

虚拟内存发布于 2026/4/6更新于 2026/5/2227 浏览

Cartpole 代码是如何工作的

使用 Isaac Lab 进行强化学习时，任务如何被注册？配置中的奖励、终止条件、观测数据在哪里生效？训练脚本如何将环境与 PPO 算法连接起来？本文顺着从注册到训练的流程，解析 Cartpole 项目中的代码逻辑。

执行以下指令：

python scripts/rsl_rl/train.py --task Template-Cartpole-v0 --num_envs 4096

该指令会执行训练 Cartpole 任务（Template-Cartpole-v0），同时调用 4096 个并行环境进行 PPO 训练。背后大致包含以下步骤：

启动 Isaac Sim
解析命令行参数
根据任务名找到「环境配置」和「算法配置」（Cartpole 的 MDP 和 PPO 超参）
用这份配置创建 Gym 环境（多个 Cartpole 并行仿真）
用 RSL-RL 的 PPO Runner 收集数据、更新策略，循环直到达到迭代数

一、任务识别与 Gym 注册

文件路径：source/Cartpole/Cartpole/tasks/manager_based/cartpole/__init__.py

import gymnasium as gym
from . import agents

gym.register(
    id="Template-Cartpole-v0",
    entry_point="isaaclab.envs:ManagerBasedRLEnv",
    disable_env_checker=True,
    kwargs={
        "env_cfg_entry_point": f"{__name__}.cartpole_env_cfg:CartpoleEnvCfg",
        "rsl_rl_cfg_entry_point": f"{agents.__name__}.rsl_rl_ppo_cfg:PPORunnerCfg",
    },
)

id：环境的名字。Gym 通过 id 定位环境。
entry_point：指向「用哪个模块里的哪个类」的字符串。
kwargs：
- env_cfg_entry_point：指定环境配置类 CartpoleEnvCfg 的路径。
- rsl_rl_cfg_entry_point：指定 PPO 配置类 PPORunnerCfg 的路径。

gym.register 将名字、通用环境类以及两个配置类的路径绑定在一起。

二、环境配置 CartpoleEnvCfg

当执行 gym.make("Template-Cartpole-v0", cfg=env_cfg) 时，Isaac Lab 会根据 env_cfg_entry_point 加载。这个类定义了 Cartpole 的场景结构、交互方式、奖励计算及终止条件。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

CartpoleEnvCfg
├── scene: CartpoleSceneCfg      # 场景内容
├── observations: ObservationsCfg # 智能体观测
├── actions: ActionsCfg           # 智能体动作
├── events: EventCfg              # 重置随机化
├── rewards: RewardsCfg           # 奖励计算
├── terminations: TerminationsCfg # 终止条件
└── __post_init__:                # 仿真步长、回合长度等

@configclass
class ActionsCfg:
    """Action specifications for the MDP."""
    joint_effort = mdp.JointEffortActionCfg(
        asset_name="robot",
        joint_names=["slider_to_cart"],
        scale=100.0,
    )

alive = RewTerm(func=mdp.is_alive, weight=1.0)
terminating = RewTerm(func=mdp.is_terminated, weight=-2.0)
pole_pos = RewTerm(func=mdp.joint_pos_target_l2, weight=-1.0, params={...})
cart_vel = RewTerm(func=mdp.joint_vel_l1, ...)
pole_vel = RewTerm(func=mdp.joint_vel_l1, ...)

def joint_pos_target_l2(env, target, asset_cfg):
    asset = env.scene[asset_cfg.name]
    joint_pos = wrap_to_pi(asset.data.joint_pos[:, asset_cfg.joint_ids])
    return torch.sum(torch.square(joint_pos - target), dim=1)

@configclass
class PPORunnerCfg(RslRlOnPolicyRunnerCfg):
    num_steps_per_env = 16
    max_iterations = 150
    save_interval = 50
    experiment_name = "cartpole_direct"
    policy = RslRlPpoActorCriticCfg(
        init_noise_std=1.0,
        actor_obs_normalization=False,
        critic_obs_normalization=False,
        actor_hidden_dims=[32, 32],
        critic_hidden_dims=[32, 32],
        activation="elu",
    )
    algorithm = RslRlPpoAlgorithmCfg(
        value_loss_coef=1.0,
        use_clipped_value_loss=True,
        clip_param=0.2,
        entropy_coef=0.005,
        num_learning_epochs=5,
        num_mini_batches=4,
        learning_rate=1.0e-3,
        schedule="adaptive",
        gamma=0.99,
        lam=0.95,
        desired_kl=0.01,
        max_grad_norm=1.0,
    )

from isaaclab.app import AppLauncher
import cli_args
parser = argparse.ArgumentParser(...)
parser.add_argument("--num_envs", ...)
parser.add_argument("--task", ...)
parser.add_argument("--max_iterations", ...)
cli_args.add_rsl_rl_args(parser)
AppLauncher.add_app_launcher_args(parser)
args_cli, hydra_args = parser.parse_known_args()
sys.argv = [sys.argv[0]] + hydra_args
app_launcher = AppLauncher(args_cli)
simulation_app = app_launcher.app

import Cartpole.tasks

@hydra_task_config(args_cli.task, args_cli.agent)
def main(env_cfg: ManagerBasedRLEnvCfg | ..., agent_cfg: RslRlBaseRunnerCfg):
    # main 里拿到的就是 cartpole_env_cfg.py 和 rsl_rl_ppo_cfg.py 里的两份配置

def main(env_cfg, agent_cfg):
    # 命令行覆盖 num_envs / max_iterations / seed / device 等
    env = gym.make(args_cli.task, cfg=env_cfg, ...)
    env = RslRlVecEnvWrapper(env, clip_actions=agent_cfg.clip_actions)
    runner = OnPolicyRunner(env, agent_cfg.to_dict(), log_dir=log_dir, device=agent_cfg.device)
    runner.learn(num_learning_iterations=agent_cfg.max_iterations, init_at_random_ep_len=True)
    env.close()

if __name__ == "__main__":
    main()
    simulation_app.close()

修改配置 (CartpoleEnvCfg / PPORunnerCfg)
↓
gym.make("Template-Cartpole-v0", cfg=env_cfg) → 建场景 (地面 + 4096 个 Cartpole)
→ 挂 MDP：动作=关节力矩，观测=关节位置 + 速度，奖励=alive+terminating+pole_pos+cart_vel+pole_vel，终止=超时/出界
↓
env.step(actions) → 物理仿真一步 → 调用观测函数 → obs
→ 调用奖励函数 → reward
→ 调用终止函数 → done
↓
OnPolicyRunner 用 obs 跑 policy 得到 actions，再 env.step(actions)，收集整段轨迹
→ 算 returns / advantages → PPO 更新 Actor、Critic → 下一个 iteration

Isaac Lab Cartpole 强化学习训练流程详解

Cartpole 代码是如何工作的

一、任务识别与 Gym 注册

二、环境配置 CartpoleEnvCfg

更多推荐文章

相关免费在线工具

三、动作配置与关节力矩

四、奖励计算

五、PPO 配置：网络与超参

六、训练脚本

1. 启动 App 与解析参数

2. Hydra 注入配置

3. 构建环境与运行

工作流

更多推荐文章

相关免费在线工具

Isaac Lab Cartpole 强化学习训练流程详解

Cartpole 代码是如何工作的

一、任务识别与 Gym 注册

二、环境配置 CartpoleEnvCfg

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、动作配置与关节力矩

四、奖励计算

五、PPO 配置：网络与超参

六、训练脚本

1. 启动 App 与解析参数

2. Hydra 注入配置

3. 构建环境与运行

工作流

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具