Robot Lab 基于 Isaac Lab 的机器人强化学习使用指南 | 极客日志

PythonAI算法

Robot Lab 基于 Isaac Lab 的机器人强化学习使用指南

综述由AI生成Robot Lab 是基于 NVIDIA Isaac Lab 的机器人强化学习扩展库，支持多种机器人在仿真环境中进行强化学习训练。 Isaac Sim 与 Isaac Lab 的核心概念、快捷键操作、支持的机器人列表及安装步骤。内容涵盖四足、轮式及人形机器人的训练示例，包括速度控制、模仿学习及 AMP 舞蹈动作学习。此外还讲解了多 GPU 训练、对称性数据增强、教师 - 学生蒸馏等高级功能，以及如何自定义机器人资产和配置训练参数。最后提供了常见问题解答及部署建议，帮助开发者高效完成从仿真到实物的强化学习流程。

嘘发布于 2026/4/6更新于 2026/5/2433 浏览

1. 项目简介

Robot Lab 是一个基于 NVIDIA Isaac Lab 构建的机器人强化学习扩展库，专注于为各类机器人提供标准化的强化学习训练环境。该项目允许开发者在独立的环境中进行开发，而无需修改核心 Isaac Lab 仓库。

NVIDIA 的机器人平台主要由两大核心组件构成，它们之间是层级关系：基础仿真平台 Isaac Sim，以及构建于其上的机器人学习应用框架 Isaac Lab。要精通 Isaac Sim，必须理解其分层架构中的五个核心概念。

Isaac Sim 是什么？ 它是一个通用的机器人模拟器，提供了高保真的物理引擎（PhysX）和照片级的渲染技术（RTX）。其核心任务是构建和模拟一个精确、逼真的虚拟环境，包括机器人模型、传感器数据和物理交互。

Application (App)：最高层级的管理者，负责所有资源的生命周期，包括启动和销毁仿真进程。即使用户在无头模式（headless）下运行，App 依然是整个程序的总控制器。
Simulation (Sim)：Sim 负责定义虚拟世界的'规则'，例如物理定律（如重力方向）、时间步长（dt）以及渲染频率。它将时间的每一步划分为不同的子步骤（如 physics_step 和 render_step），并掌管着 World 对象。
World：World 为仿真提供了空间背景，定义了笛卡尔坐标系的原点和单位。所有关于尺寸和距离的问题都在 World 的参考系内得以解答。
USD 图元（Prim）：Prim 是 USD 场景的基本构建块，可以理解为一个容器。每个 Prim 都有一个唯一的路径（例如/World/MyRobot/Gripper），并包含定义其特性的属性（Attributes）（如颜色、大小）和与其他 Prim 的关系（Relationships）（如材质指定）。
Scene：Scene 是 Isaac Lab 中一个至关重要的概念，它管理着 Stage 上所有与向量化（vectorization）相关的图元。这些被管理的图元（如机器人、桌子、待抓取物体）被称为仿真实体（simulation entities）。当用户指定需要创建多个环境副本时，Scene 会自动在 Stage 上克隆这些实体，并将它们放置在不同的坐标位置，从而实现在单一世界和舞台上进行大规模并行训练。
Stage：Stage 是世界的'组成结构'。它以通用场景描述（Universal Scene Description，USD）为基础，将仿真中的所有元素（如机器人、灯光、摄像机）表示为一个层级化的树状结构。这个结构中的每一个节点都是一个图元（Prim）。

![图片]

Isaac Lab 是什么？ 它是一个专为机器人学习（特别是强化学习）设计的开源框架。它本身不是一个模拟器，而是利用 Isaac Sim 提供的环境来进行大规模的 AI 模型训练。

![图片]

1.1 Isaac Sim 操作快捷键参考

以下是 Isaac Sim 中常用的操作快捷键，帮助您更高效地使用仿真环境：

基本操作

类型	键位	效果
基本操作	鼠标左键	选中物体
基本操作	ESC	取消选中
基本操作	Ctrl + Z	撤销上一步操作
基本操作	Ctrl + Y / Ctrl + Shift + Z	重做操作
基本操作	Ctrl + S	保存当前场景
基本操作	Ctrl + O	打开场景
基本操作	Ctrl + N	新建场景
基本操作	Delete	删除选中的物体

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

类型	键位	效果
视野操作	鼠标左键点击目标 + F	聚焦于选中的物体（Frame Selected）
视野操作	不选中目标 + F	聚焦于整个场景（Frame All）
视野操作	鼠标左键 + Alt（或鼠标中键）	旋转视野（绕选中物体或场景中心）
视野操作	鼠标右键 + Alt	缩放视野（Zoom）
视野操作	鼠标中键（滚轮按下）	平移视野（Pan）
视野操作	鼠标滚轮	放大/缩小视野
视野操作	鼠标右键 + W	镜头向前移动（第一人称模式）
视野操作	鼠标右键 + S	镜头向后移动（第一人称模式）
视野操作	鼠标右键 + A	镜头向左移动（第一人称模式）
视野操作	鼠标右键 + D	镜头向右移动（第一人称模式）
视野操作	鼠标右键 + Q	镜头向下移动（第一人称模式）
视野操作	鼠标右键 + E	镜头向上移动（第一人称模式）
视野操作	Numpad 0-9	切换预设视角

类型	键位	效果
变换操作	W（或 T）	切换到平移模式（Translate）
变换操作	E（或 R）	切换到旋转模式（Rotate）
变换操作	R（或 Y）	切换到缩放模式（Scale）
变换操作	Q	切换到选择模式（取消变换工具）
变换操作	Shift + 拖拽	在特定轴上进行精确移动
变换操作	Ctrl + 拖拽	启用吸附功能（Snap）
变换操作	Ctrl + Shift + 鼠标左键拖拽	对物体施加力（Apply Force，用于物理交互测试）
变换操作	Alt + 拖拽	复制并移动物体

类型	键位	效果
选择操作	Ctrl + 鼠标左键	多选/取消选择单个物体（Add/Remove from Selection）
选择操作	Shift + 鼠标左键	范围选择（连续选择）
选择操作	Ctrl + A	全选当前层级的所有物体
选择操作	Ctrl + Shift + A	取消全选
选择操作	双击物体	选择物体及其所有子物体

类型	键位	效果
层级操作	Ctrl + G	将选中物体组合成组（Group）
层级操作	Ctrl + Shift + G	取消组合（Ungroup）
层级操作	Ctrl + P	设置父级（Parent）
层级操作	Alt + P	清除父级（Unparent）
层级操作	H	隐藏选中的物体
层级操作	Alt + H	显示所有隐藏的物体
层级操作	Ctrl + H	隐藏未选中的物体

类型	键位	效果
仿真控制	空格键	播放/暂停仿真
仿真控制	Ctrl + 空格	单步执行仿真（Step）
仿真控制	Ctrl + Shift + 空格	停止仿真并重置
仿真控制	. （句号）	前进一帧
仿真控制	, （逗号）	后退一帧

类型	键位	效果
界面操作	Ctrl + Shift + Space	最大化/还原当前视口
界面操作	Ctrl + Tab	在打开的标签页之间切换
界面操作	F1	打开帮助文档
界面操作	F11	全屏模式
界面操作	` （反引号/波浪线键）	打开/关闭控制台（Console）

类型	键位	效果
调试操作	Ctrl + Shift + D	切换调试绘制（Debug Draw）
调试操作	Ctrl + Shift + C	显示/隐藏碰撞体（Collision Meshes）
调试操作	Ctrl + Shift + B	显示/隐藏边界框（Bounding Boxes）
调试操作	Ctrl + Shift + W	显示/隐藏线框模式（Wireframe）
调试操作	Ctrl + Shift + L	切换照明模式

类型	键位	效果
相机操作	Ctrl + Shift + C	从当前视角创建相机
相机操作	Ctrl + [	切换到上一个相机
相机操作	Ctrl + ]	切换到下一个相机
相机操作	Shift + F	进入飞行模式（Fly Mode）

类型	键位	效果
脚本编辑	Ctrl + Shift + P	打开命令面板（Command Palette）
脚本编辑	Ctrl + Shift + E	打开脚本编辑器（Script Editor）
脚本编辑	Ctrl + Enter	执行选中的脚本代码
脚本编辑	Ctrl + /	注释/取消注释代码行

类型	键位	效果
搜索操作	Ctrl + F	在场景中搜索物体
搜索操作	Ctrl + Shift + F	在整个项目中搜索
搜索操作	Ctrl + L	跳转到指定行

类型	键位	效果
视口模式	Numpad 1	前视图（Front View）
视口模式	Numpad 3	右视图（Right View）
视口模式	Numpad 7	顶视图（Top View）
视口模式	Numpad 0	切换到相机视图
视口模式	Numpad .	聚焦到选中物体
视口模式	Numpad /	隔离选中物体（只显示选中对象）
视口模式	Numpad 5	切换正交/透视投影模式
显示模式	Z	切换渲染模式（线框/实体/材质预览）
显示模式	Alt + Z	切换透明显示模式
显示模式	Shift + Z	切换材质预览/渲染视图

类型	键位	效果
网格操作	G	显示/隐藏网格（Grid）
网格操作	Ctrl + G（长按）	显示网格设置
对齐操作	Alt + X	对齐到 X 轴
对齐操作	Alt + Y	对齐到 Y 轴
对齐操作	Alt + Z	对齐到 Z 轴（与透明显示不同，需查看上下文）
吸附操作	Shift + Tab	切换吸附模式（顶点/边/面）

类型	键位	效果
时间轴	Home	跳转到时间轴起始帧
时间轴	End	跳转到时间轴结束帧
时间轴	左箭头	上一帧
时间轴	右箭头	下一帧
时间轴	Shift + 左箭头	快退（10 帧）
时间轴	Shift + 右箭头	快进（10 帧）
动画	I	插入关键帧（Insert Keyframe）
动画	K	删除关键帧

类型	键位	效果
面板操作	N	显示/隐藏属性面板（Properties Panel）
面板操作	T	显示/隐藏工具栏
面板操作	Ctrl + Shift + T	打开/关闭所有面板
属性编辑	Tab	在属性字段间切换焦点
属性编辑	Enter	确认属性值修改
属性编辑	Esc	取消属性值修改

类型	键位	效果
截图	F12	截取当前视口（保存到默认路径）
截图	Ctrl + F12	截图并选择保存位置
截图	Alt + F12	截取整个窗口

类型	键位	效果
性能监控	Shift + ~	显示/隐藏帧率（FPS）和性能统计
性能监控	Ctrl + Shift + I	显示/隐藏统计信息面板
性能监控	Ctrl + Alt + P	性能分析器（Profiler）

类型	键位	效果
物理调试	Ctrl + Shift + P（长按）	显示物理调试信息
物理调试	P	暂停/恢复物理模拟（不影响渲染）
物理调试	Ctrl + R	重置物理场景
碰撞检测	Ctrl + Shift + V	显示/隐藏速度矢量

类型	键位	效果
层操作	M	移动到图层（Move to Layer）
层操作	Shift + M	添加到图层（Add to Layer）
层操作	Ctrl + M	管理图层

类型	键位	效果
测量工具	Ctrl + Shift + M	激活测量工具（Measure Tool）
标注工具	Ctrl + Shift + N	添加注释/标注

类型	键位	效果
刷新	F5	刷新视口/重新加载资源
刷新	Ctrl + F5	强制刷新并清除缓存
聚焦	. （句号，在 3D 视口中）	聚焦到鼠标位置
重复操作	Shift + R	重复上一次操作
快速保存	Ctrl + Shift + S	另存为（Save As）
导出	Ctrl + E	快速导出选中内容
导入	Ctrl + I	快速导入文件

机器人	环境 ID	制造商
ANYmal D	`RobotLab-Isaac-Velocity-Rough-Anymal-D-v0`	ANYbotics
Unitree Go2	`RobotLab-Isaac-Velocity-Rough-Unitree-Go2-v0`	Unitree
Unitree B2	`RobotLab-Isaac-Velocity-Rough-Unitree-B2-v0`	Unitree
Unitree A1	`RobotLab-Isaac-Velocity-Rough-Unitree-A1-v0`	Unitree
Deeprobotics Lite3	`RobotLab-Isaac-Velocity-Rough-Deeprobotics-Lite3-v0`	Deeprobotics
Zsibot ZSL1	`RobotLab-Isaac-Velocity-Rough-Zsibot-ZSL1-v0`	Zsibot
MagicLab Dog	`RobotLab-Isaac-Velocity-Rough-MagicLab-Dog-v0`	MagicLab

机器人	环境 ID	制造商
Unitree Go2W	`RobotLab-Isaac-Velocity-Rough-Unitree-Go2W-v0`	Unitree
Unitree B2W	`RobotLab-Isaac-Velocity-Rough-Unitree-B2W-v0`	Unitree
Deeprobotics M20	`RobotLab-Isaac-Velocity-Rough-Deeprobotics-M20-v0`	Deeprobotics
DDTRobot Tita	`RobotLab-Isaac-Velocity-Rough-DDTRobot-Tita-v0`	DDTRobot
Zsibot ZSL1W	`RobotLab-Isaac-Velocity-Rough-Zsibot-ZSL1W-v0`	Zsibot
MagicLab Dog-W	`RobotLab-Isaac-Velocity-Rough-MagicLab-Dog-W-v0`	MagicLab

机器人	环境 ID	制造商
Unitree G1	`RobotLab-Isaac-Velocity-Rough-Unitree-G1-v0`	Unitree
Unitree H1	`RobotLab-Isaac-Velocity-Rough-Unitree-H1-v0`	Unitree
FFTAI GR1T1	`RobotLab-Isaac-Velocity-Rough-FFTAI-GR1T1-v0`	FFTAI
FFTAI GR1T2	`RobotLab-Isaac-Velocity-Rough-FFTAI-GR1T2-v0`	FFTAI
Booster T1	`RobotLab-Isaac-Velocity-Rough-Booster-T1-v0`	Booster
RobotEra Xbot	`RobotLab-Isaac-Velocity-Rough-RobotEra-Xbot-v0`	RobotEra
Openloong Loong	`RobotLab-Isaac-Velocity-Rough-Openloong-Loong-v0`	Openloong
RoboParty ATOM01	`RobotLab-Isaac-Velocity-Rough-RoboParty-ATOM01-v0`	RoboParty
MagicLab Bot-Gen1	`RobotLab-Isaac-Velocity-Rough-MagicLab-Bot-Gen1-v0`	MagicLab
MagicLab Bot-Z1	`RobotLab-Isaac-Velocity-Rough-MagicLab-Bot-Z1-v0`	MagicLab

# 1. 克隆 Robot Lab（在 IsaacLab 目录外）
cd ~
git clone https://github.com/fan-ziqi/robot_lab.git
cd robot_lab

# 2. 激活 Isaac Lab 环境
conda activate isaaclab

# 3. 安装 Robot Lab 扩展
python -m pip install -e source/robot_lab

# 4. 验证安装
python scripts/tools/list_envs.py

# Copyright (c) 2024-2025 Ziqi Fan
# SPDX-License-Identifier: Apache-2.0
"""Installation script for the 'robot_lab' python package."""
# ============================================================
# 导入必要的模块
# ============================================================
import os
import toml # 用于读取 TOML 格式的配置文件
from setuptools import setup # Python 包的安装工具
# ============================================================
# 获取当前脚本（setup.py）所在的目录路径
# ============================================================
# __file__ 是当前脚本的文件路径
# os.path.realpath() 解析符号链接，获取真实路径
# os.path.dirname() 获取文件所在的目录
EXTENSION_PATH = os.path.dirname(os.path.realpath(__file__))
# ============================================================
# 读取 extension.toml 文件中的元数据
# ============================================================
# extension.toml 包含包的版本、作者、描述等信息
# 使用 toml.load() 解析 TOML 文件并返回字典
EXTENSION_TOML_DATA = toml.load(os.path.join(
    EXTENSION_PATH,
    "config",
    "extension.toml"
))
# ============================================================
# 定义安装时需要自动安装的依赖包列表
# ============================================================
INSTALL_REQUIRES=[
# -------------------- 基础依赖 --------------------
"psutil", # 系统和进程监控工具
# 用途：监控 CPU、内存、GPU 使用情况，训练时显示资源占用
"colorama", # 跨平台终端彩色输出库
# 用途：美化命令行输出，为日志添加颜色（错误红色、警告黄色等）
"xacrodoc", # URDF/Xacro 机器人描述文件处理工具
# 用途：解析和处理机器人模型的 URDF/Xacro 文件
# -------------------- AMP 运动模仿相关 --------------------
"numpy", # 数值计算基础库
# 用途：数组运算、矩阵计算、处理运动数据
"pandas", # 数据分析和处理库
# 用途：读取和处理 CSV 格式的运动捕捉数据
"pinocchio", # 高性能机器人动力学库（C++ + Python 绑定）
# 用途：正向/逆向运动学计算、动力学仿真、运动重定向
# 在 BeyondMimic 中用于将人类动作映射到机器人
# -------------------- 强化学习框架 --------------------
"cusrl[all]", # 自定义强化学习框架
# [all] 表示安装所有可选依赖（torch, tensorboard, wandb 等）
# 用途：提供 PPO、SAC 等强化学习算法实现
]
# ============================================================
# 执行包安装配置
# ============================================================
setup(
# -------------------- 基本信息 --------------------
name="robot_lab", # 包名，安装后可通过 import robot_lab 导入
packages=["robot_lab"], # 要安装的 Python 包列表
# -------------------- 作者和维护者信息 --------------------
# 从 extension.toml 中读取
author=EXTENSION_TOML_DATA["package"]["author"], # 作者名
maintainer=EXTENSION_TOML_DATA["package"]["maintainer"], # 维护者名
url=EXTENSION_TOML_DATA["package"]["repository"], # 项目主页 URL
# -------------------- 版本和描述 --------------------
version=EXTENSION_TOML_DATA["package"]["version"], # 版本号 (如 2.3.0)
description=EXTENSION_TOML_DATA["package"]["description"], # 简短描述
keywords=EXTENSION_TOML_DATA["package"]["keywords"], # 关键词列表
# -------------------- 依赖和许可 --------------------
install_requires=INSTALL_REQUIRES, # 安装时自动安装的依赖列表
license="Apache License 2.0", # 开源许可证类型
# -------------------- 包配置选项 --------------------
include_package_data=True, # 包含 MANIFEST.in 中指定的非 .py 文件
# 如配置文件 (.yaml, .toml)、模型文件 (.usd, .urdf) 等
python_requires=">=3.10", # 要求 Python 版本至少为 3.10
# Isaac Lab 需要 Python 3.10 或更高版本
# -------------------- 分类标签 --------------------
# 用于在 PyPI 上分类和搜索
classifiers=[
"Natural Language :: English", # 自然语言：英语
"Programming Language :: Python :: 3.10", # 支持 Python 3.10
"Programming Language :: Python :: 3.11", # 支持 Python 3.11
"Isaac Sim :: 4.5.0", # 兼容 Isaac Sim 4.5.0
"Isaac Sim :: 5.0.0", # 兼容 Isaac Sim 5.0.0
"Isaac Sim :: 5.1.0", # 兼容 Isaac Sim 5.1.0
],
# -------------------- 打包选项 --------------------
zip_safe=False, # 不要将包压缩为 .egg zip 文件
# False 表示以目录形式安装，保持文件结构
# 这对于包含非 Python 文件（如 USD 模型）的包很重要
)

配置项	说明
`name="robot_lab"`	包名，安装后可通过 `import robot_lab` 导入
`install_requires`	自动安装的依赖列表
`python_requires=">=3.10"`	要求 Python 3.10+
`include_package_data=True`	包含非 .py 文件（如配置文件、模型文件）
`zip_safe=False`	不打包为 zip，保持文件结构（重要！）

包名	版本要求	用途	安装大小
psutil	最新	监控系统资源（CPU、内存、GPU）在训练时显示资源使用情况	~500 KB
colorama	最新	跨平台终端彩色输出美化日志和错误信息	~30 KB
xacrodoc	最新	解析和处理 URDF/Xacro 机器人描述文件用于机器人模型加载	~100 KB

包名	版本要求	用途	安装大小
numpy	最新	数值计算基础库处理运动数据、张量操作	~20 MB
pandas	最新	数据处理和分析读取/处理 CSV 格式的运动数据	~40 MB
pinocchio	最新	高性能机器人动力学库用于运动重定向、正/逆运动学计算	~50 MB

包名	版本要求	用途	安装大小
cusrl[all]	最新	自定义强化学习框架提供 PPO、SAC 等算法实现	~10 MB

# [all] 会安装以下所有可选依赖：
# - torch # PyTorch 深度学习框架（通常已由 Isaac Lab 安装）
# - tensorboard # 训练可视化
# - wandb # 实验跟踪（可选）
# - gym # 环境接口（已被 gymnasium 替代）

# 激活环境
conda activate isaaclab
# 进入 robot_lab 目录
cd ~/robot_lab
# 开始训练（无头模式，适合服务器）
python scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-Velocity-Rough-Unitree-Go2-v0 \
--headless \
--num_envs 4096
# 或者使用 GUI 模式（适合本地开发）
python scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-Velocity-Rough-Unitree-Go2-v0 \
--num_envs 512

cd ~/robot_lab
tensorboard --logdir=logs

# 测试训练好的策略
python scripts/reinforcement_learning/rsl_rl/play.py \
--task=RobotLab-Isaac-Velocity-Rough-Unitree-Go2-v0 \
--checkpoint /media/bigdisk/robot_lab/logs/rsl_rl/unitree_go2_rough/2025-12-10_16-33-55/model_2400.pt \
--num_envs 64
# 使用键盘控制单个机器人
python scripts/reinforcement_learning/rsl_rl/play.py \
--task=RobotLab-Isaac-Velocity-Rough-Unitree-Go2-v0 \
--checkpoint /media/bigdisk/robot_lab/logs/rsl_rl/unitree_go2_rough/2025-12-10_16-33-55/model_2400.pt \
--num_envs 1 \
--keyboard

命令	正向按键	反向按键
X 轴移动	Numpad 8 / Arrow Up	Numpad 2 / Arrow Down
Y 轴移动	Numpad 4 / Arrow Right	Numpad 6 / Arrow Left
Z 轴旋转	Numpad 7 / Z	Numpad 9 / X

# 录制 200 帧的视频（需要安装 ffmpeg）
python scripts/reinforcement_learning/rsl_rl/play.py \
--task=RobotLab-Isaac-Velocity-Rough-Unitree-Go2-v0 \
--num_envs 4 \
--video \
--video_length 200

# 训练
python scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-Velocity-Rough-Unitree-G1-v0 \
--headless
# 测试
python scripts/reinforcement_learning/rsl_rl/play.py \
--task=RobotLab-Isaac-Velocity-Rough-Unitree-G1-v0

# 下载 LAFAN1 数据集（已重定向到 Unitree G1）
# 或使用自己的 .csv 运动数据

# 将 CSV 转换为 NPZ 格式
python scripts/tools/beyondmimic/csv_to_npz.py \
-f path/to/motion.csv \
--input_fps 60 \
--headless
# 预览运动
python scripts/tools/beyondmimic/replay_npz.py \
-f path/to/motion.npz

# 训练
python scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-BeyondMimic-Flat-Unitree-G1-v0 \
--headless
# 测试（同时播放 2 个不同的动作）
python scripts/reinforcement_learning/rsl_rl/play.py \
--task=RobotLab-Isaac-BeyondMimic-Flat-Unitree-G1-v0 \
--num_envs 2

# 训练（使用 skrl 框架）
python scripts/reinforcement_learning/skrl/train.py \
--task=RobotLab-Isaac-G1-AMP-Dance-Direct-v0 \
--algorithm AMP \
--headless
# 测试（32 个机器人同时跳舞）
python scripts/reinforcement_learning/skrl/play.py \
--task=RobotLab-Isaac-G1-AMP-Dance-Direct-v0 \
--algorithm AMP \
--num_envs 32

# 使用 2 个 GPU 训练
python -m torch.distributed.run \
--nnodes=1 \
--nproc_per_node=2 \
scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-Velocity-Rough-Unitree-Go2-v0 \
--headless \
--distributed

python -m torch.distributed.run \
--nproc_per_node=2 \
--nnodes=2 \
--node_rank=0 \
--rdzv_id=123 \
--rdzv_backend=c10d \
--rdzv_endpoint=localhost:5555 \
scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-Velocity-Rough-Unitree-Go2-v0 \
--headless \
--distributed

python -m torch.distributed.run \
--nproc_per_node=2 \
--nnodes=2 \
--node_rank=1 \
--rdzv_id=123 \
--rdzv_backend=c10d \
--rdzv_endpoint=192.168.1.100:5555 \
scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-Velocity-Rough-Unitree-Go2-v0 \
--headless \
--distributed

# 训练 ANYmal D（使用对称性增强）
python scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-Velocity-Rough-Anymal-D-v0 \
--headless \
--agent=rsl_rl_with_symmetry_cfg_entry_point \
--run_name=ppo_with_symmetry \
--agent.algorithm.symmetry_cfg.use_data_augmentation=true
# 测试
python scripts/reinforcement_learning/rsl_rl/play.py \
--task=RobotLab-Isaac-Velocity-Rough-Anymal-D-v0 \
--agent=rsl_rl_with_symmetry_cfg_entry_point \
--run_name=ppo_with_symmetry

# 步骤 1: 训练教师网络
python scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-Velocity-Flat-Anymal-D-v0 \
--headless \
--run_name=teacher
# 步骤 2: 蒸馏到学生网络
python scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-Velocity-Flat-Anymal-D-v0 \
--headless \
--agent=rsl_rl_distillation_cfg_entry_point \
--load_run teacher \
--run_name=student
# 步骤 3: 测试学生网络
python scripts/reinforcement_learning/rsl_rl/play.py \
--task=RobotLab-Isaac-Velocity-Flat-Anymal-D-v0 \
--agent=rsl_rl_distillation_cfg_entry_point \
--load_run student

# 从最新的检查点恢复训练
python scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-Velocity-Rough-Unitree-Go2-v0 \
--headless \
--resume \
--load_run <run_folder_name>
# 从指定检查点恢复
python scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-Velocity-Rough-Unitree-Go2-v0 \
--headless \
--resume \
--load_run <run_folder_name> \
--checkpoint /path/to/model_5000.pt

# 训练
python scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-Velocity-Flat-HandStand-Unitree-A1-v0 \
--headless
# 测试
python scripts/reinforcement_learning/rsl_rl/play.py \
--task=RobotLab-Isaac-Velocity-Flat-HandStand-Unitree-A1-v0

robot_lab/
├── source/
│   └── robot_lab/
│       ├── assets/ # 机器人资产定义
│       │   ├── __init__.py
│       │   └── unitree.py # Unitree 机器人定义
│       ├── tasks/ # 任务环境
│       │   └── manager_based/
│       │       └── locomotion/
│       │           └── velocity/
│       │               ├── velocity_env_cfg.py # 基础任务配置
│       │               └── config/
│       │                   └── unitree_a1/
│       │                       ├── __init__.py # 环境注册
│       │                       ├── flat_env_cfg.py
│       │                       ├── rough_env_cfg.py
│       │                       └── agent/ # 训练配置
│       │                           ├── rsl_rl_ppo_cfg.py
│       │                           └── cusrl_ppo_cfg.py
│       └── ui_extension_example.py
└── scripts/
    ├── reinforcement_learning/
    │   ├── rsl_rl/
    │   │   ├── train.py
    │   │   └── play.py
    │   ├── cusrl/
    │   └── skrl/
    └── tools/

# ============================================================
# 导入必要的模块
# ============================================================
from omni.isaac.lab.actuators import ActuatorNetMLPCfg, DCMotorCfg # 执行器配置
from omni.isaac.lab.assets.articulation import ArticulationCfg # 关节机器人配置
import omni.isaac.lab.sim as sim_utils # 仿真工具
# ============================================================
# 定义机器人配置
# ============================================================
MY_ROBOT_CFG = ArticulationCfg(
# ========== 生成/加载配置 ==========
spawn=sim_utils.UsdFileCfg(
# USD 文件路径（Universal Scene Description）
# USD 是 NVIDIA Omniverse 的场景描述格式
# 包含机器人的几何形状、质量、惯性等信息
usd_path="/path/to/my_robot.usd",
# 是否激活接触传感器
# True = 机器人可以检测与环境的接触（如脚接触地面）
# 用于计算奖励（如脚接触地面奖励）和终止条件
activate_contact_sensors=True,
# ========== 刚体物理属性 ==========
rigid_props=sim_utils.RigidBodyPropertiesCfg(
# 是否禁用重力
# False = 启用重力（机器人会受到重力影响）
disable_gravity=False,
# 是否保留加速度信息
# False = 不保留（节省内存和计算）
# True = 保留加速度信息（某些高级功能需要）
retain_accelerations=False,
# 线性阻尼系数（空气阻力等）
# 0.0 = 无阻尼
linear_damping=0.0,
# 角阻尼系数（旋转阻力）
# 0.0 = 无阻尼
angular_damping=0.0,
# 最大线速度限制 (m/s)
# 1000.0 = 实际上不限制（非常大的值）
# 可以设置为合理值（如 10.0）以防止物理爆炸
max_linear_velocity=1000.0,
# 最大角速度限制 (rad/s)
# 1000.0 = 实际上不限制
max_angular_velocity=1000.0,
# 最大穿透恢复速度 (m/s)
# 当物体穿透时，物理引擎用此速度将其推出
# 较小的值 (1.0) = 更稳定但可能有轻微穿透
# 较大的值 (10.0) = 快速恢复但可能不稳定
max_depenetration_velocity=1.0,
),
# ========== 关节机器人根属性 ==========
articulation_props=sim_utils.ArticulationRootPropertiesCfg(
# 是否启用自碰撞检测
# False = 机器人的不同部分可以穿透（更快但不真实）
# True = 检测并阻止自碰撞（更真实但更慢）
enabled_self_collisions=False,
# 位置求解器迭代次数
# 更多迭代 = 更精确的物理模拟，但更慢
# 4 = 默认值，适合大多数情况
# 增加到 8-16 可以提高精度（但降低性能）
solver_position_iteration_count=4,
# 速度求解器迭代次数
# 0 = 只求解位置，不单独求解速度
# 1-4 = 更精确的速度计算
solver_velocity_iteration_count=0,
),
),
# ========== 初始状态配置 ==========
init_state=ArticulationCfg.InitialStateCfg(
# 机器人初始位置 (x, y, z) 单位：米
# (0.0, 0.0, 0.6) = 原点上方 0.6 米
# z 值通常设置为机器人站立时的高度
pos=(0.0,0.0,0.6),
# 关节初始位置（弧度）
# 使用正则表达式匹配关节名称
joint_pos={
# 髋关节（hip）= 0.0 rad（伸直）
".*_hip_joint":0.0,
# 大腿关节（thigh）= 0.7 rad（约 40 度）
# 正值 = 向前弯曲
".*_thigh_joint":0.7,
# 小腿关节（calf）= -1.4 rad（约 -80 度）
# 负值 = 向后弯曲
# 0.7 + (-1.4) = -0.7，形成站立姿态
".*_calf_joint":-1.4,
},
# 关节初始速度（rad/s）
# ".*" = 匹配所有关节
# 0.0 = 静止状态
joint_vel={".*":0.0},
),
# ========== 执行器配置 ==========
actuators={
# 定义一个名为 "legs" 的执行器组
# 可以有多个组，如 {"legs": ..., "arms": ...}
"legs": DCMotorCfg(
# 使用正则表达式指定该执行器控制的关节
# 列表中的所有关节将使用相同的执行器参数
joint_names_expr=[".*_hip_joint",".*_thigh_joint",".*_calf_joint"],
# 力矩限制 (N·m)
# 33.5 = 最大输出力矩
# 应根据真实电机规格设置
effort_limit=33.5,
# 力矩饱和值 (N·m)
# 通常与 effort_limit 相同
# 超过此值将被截断
saturation_effort=33.5,
# 速度限制 (rad/s)
# 21.0 rad/s ≈ 201 RPM
# 应根据真实电机规格设置
velocity_limit=21.0,
# PD 控制器刚度（比例增益）
# 25.0 = 中等刚度
# 更大的值 = 更硬（快速响应但可能震荡）
# 更小的值 = 更软（缓慢响应但更稳定）
stiffness=25.0,
# PD 控制器阻尼（微分增益）
# 0.5 = 轻度阻尼
# 用于减少震荡，提供平滑运动
damping=0.5,
# 摩擦力系数
# 0.0 = 无摩擦（理想情况）
# 可以设置为 0.1-0.5 来模拟真实摩擦
friction=0.0,
),
},
)

mkdir -p source/robot_lab/tasks/manager_based/locomotion/velocity/config/my_robot/agent

# 你写的配置
prim_path="{ENV_REGEX_NS}/Robot"
# Isaac Lab 自动替换（假设创建 4 个环境）
# 环境 0: prim_path="/World/envs/env_0/Robot"
# 环境 1: prim_path="/World/envs/env_1/Robot"
# 环境 2: prim_path="/World/envs/env_2/Robot"
# 环境 3: prim_path="/World/envs/env_3/Robot"

资产类型	是否需要 {ENV_REGEX_NS}	原因
机器人	✅ 必须使用	每个环境的机器人需要独立控制、独立状态（位置、速度、关节角度）
传感器（如高度扫描器）	✅ 必须使用	每个环境的传感器需要独立读取数据
地面	❌ 不需要	所有环境共享同一个无限大的平面
灯光	❌ 不需要	所有环境共享同一个光源

/World/ ← USD Stage 根节点
│
├── defaultGroundPlane ← 共享：所有环境使用同一个地面
├── Light ← 共享：所有环境使用同一个灯光
│
└── envs/ ← 环境容器
    ├── env_0/ ← 环境 0 的命名空间
    │   └── Robot ← 环境 0 的机器人（独立）
    │       ├── base
    │       ├── FR_hip_joint
    │       └── ...
    ├── env_1/ ← 环境 1 的命名空间
    │   └── Robot ← 环境 1 的机器人（独立）
    ├── env_2/ ← 环境 2 的命名空间
    │   └── Robot ← 环境 2 的机器人（独立）
    └── env_3/ ← 环境 3 的命名空间
        └── Robot ← 环境 3 的机器人（独立）

# Copyright (c) 2024-2025 Your Name
# SPDX-License-Identifier: Apache-2.0
# ============================================================
# 导入必要的模块
# ============================================================
from isaaclab.utils import configclass # Isaac Lab 的配置类装饰器
from robot_lab.assets import MY_ROBOT_CFG # 导入我们定义的机器人配置
from robot_lab.tasks.manager_based.locomotion.velocity.velocity_env_cfg import(
    LocomotionVelocityRoughEnvCfg,# 导入基础的速度跟踪环境配置
)
# ============================================================
# 定义崎岖地形环境配置类
# ============================================================
@configclass # 使用 @configclass 装饰器标记这是一个配置类
class MyRobotRoughEnvCfg(LocomotionVelocityRoughEnvCfg):
""" 自定义机器人的崎岖地形速度跟踪环境配置
继承自 LocomotionVelocityRoughEnvCfg 基类
注意：在 Robot Lab 中，Rough 配置是基础配置，包含所有功能
Flat 配置继承自 Rough，然后禁用一些不需要的功能
"""
# ========== 定义关键链接名称 ==========
# 这些名称必须与 USD 文件中的链接名称匹配
base_link_name = "base" # 机器人基座链接名称
foot_link_name = ".*_foot" # 脚部链接名称（使用正则表达式匹配所有脚）
# ========== 定义关节名称列表 ==========
# 四足机器人的 12 个关节（4 条腿 × 3 个关节/腿）
# FR = 右前腿，FL = 左前腿，RR = 右后腿，RL = 左后腿
joint_names =[
"FR_hip_joint","FR_thigh_joint","FR_calf_joint",# 右前腿
"FL_hip_joint","FL_thigh_joint","FL_calf_joint",# 左前腿
"RR_hip_joint","RR_thigh_joint","RR_calf_joint",# 右后腿
"RL_hip_joint","RL_thigh_joint","RL_calf_joint",# 左后腿
]
def__post_init__(self):
""" 后初始化方法，在配置对象创建后自动调用
用于设置机器人特定的配置
"""
# ========== 调用父类的初始化 ==========
# 必须先调用父类初始化，加载默认配置
super().__post_init__()
# ========== 场景配置 ==========
# 设置机器人资产
# replace() 创建配置的副本并修改 prim_path
# {ENV_REGEX_NS} 会被替换为 env_0, env_1, ... env_N
self.scene.robot = MY_ROBOT_CFG.replace(prim_path="{ENV_REGEX_NS}/Robot")
# 配置高度扫描器的位置（用于检测地形高度）
# 安装在机器人基座上
self.scene.height_scanner.prim_path = "{ENV_REGEX_NS}/Robot/" + self.base_link_name
# ========== 观察空间配置 ==========
# 调整观察值的缩放，使其在合适的范围内
# 基座线速度缩放
# 2.0 = 放大 2 倍，使网络更容易学习速度信息
self.observations.policy.base_lin_vel.scale = 2.0
# 基座角速度缩放
# 0.25 = 缩小到 1/4，因为角速度通常比线速度大
self.observations.policy.base_ang_vel.scale = 0.25
# 关节位置和速度缩放
self.observations.policy.joint_pos.scale = 1.0 # 不缩放
self.observations.policy.joint_vel.scale = 0.05 # 缩小到 1/20
# 指定观察的关节
self.observations.policy.joint_pos.params["asset_cfg"].joint_names = self.joint_names
self.observations.policy.joint_vel.params["asset_cfg"].joint_names = self.joint_names
# ========== 动作空间配置 ==========
# 减小动作缩放，使控制更精细
# hip 关节使用更小的缩放（0.125）
# 其他关节使用 0.25
self.actions.joint_pos.scale = {
".*_hip_joint":0.125, # 髋关节缩放
"^(?!.*_hip_joint).*":0.25 # 其他关节缩放（使用负向前瞻正则）
}
# 动作裁剪范围
self.actions.joint_pos.clip = {".*":(-100.0,100.0)}
# 指定控制的关节
self.actions.joint_pos.joint_names = self.joint_names
# ========== 奖励权重配置 ==========
# 调整各项奖励的权重，平衡不同目标
# 根部惩罚
self.rewards.lin_vel_z_l2.weight = -2.0 # 惩罚 Z 方向速度（防止跳跃）
self.rewards.ang_vel_xy_l2.weight = -0.05 # 惩罚俯仰/滚转角速度
self.rewards.flat_orientation_l2.weight = 0 # 不惩罚方向偏差
self.rewards.base_height_l2.weight = 0 # 不惩罚高度偏差（Rough 地形下）
# 关节惩罚
self.rewards.joint_torques_l2.weight = -2.5e-5 # 惩罚关节力矩（降低能耗）
self.rewards.joint_acc_l2.weight = -2.5e-7 # 惩罚关节加速度（平滑运动）
# ========== 命令范围配置 ==========
# 定义训练时随机生成的目标速度范围
# 根据机器人的能力调整这些范围
self.commands.base_velocity.ranges.lin_vel_x = (-1.0,1.5) # X 方向：-1~1.5 m/s
self.commands.base_velocity.ranges.lin_vel_y = (-0.5,0.5) # Y 方向：-0.5~0.5 m/s
self.commands.base_velocity.ranges.ang_vel_z = (-1.0,1.0) # 旋转：-1~1 rad/s

# Copyright (c) 2024-2025 Your Name
# SPDX-License-Identifier: Apache-2.0
# ============================================================
# 导入必要的模块
# ============================================================
from isaaclab.utils import configclass # Isaac Lab 的配置类装饰器
from .rough_env_cfg import MyRobotRoughEnvCfg # 导入 Rough 环境配置
# ============================================================
# 定义平地环境配置类
# ============================================================
@configclass # 使用 @configclass 装饰器标记这是一个配置类
class MyRobotFlatEnvCfg(MyRobotRoughEnvCfg):
""" 自定义机器人的平地速度跟踪环境配置
继承自 MyRobotRoughEnvCfg，禁用崎岖地形相关功能
在 Robot Lab 中，Flat 配置通过继承 Rough 配置，
然后禁用不需要的功能（如地形生成器、高度扫描器等）
"""
def__post_init__(self):
""" 后初始化方法，在配置对象创建后自动调用
禁用 Rough 环境中的地形相关功能
"""
# ========== 调用父类的初始化 ==========
# 先执行 Rough 配置的所有设置
super().__post_init__()
# ========== 修改地形为平地 ==========
# "plane" = 平坦的无限平面
self.scene.terrain.terrain_type = "plane"
# 禁用地形生成器（不需要生成崎岖地形）
self.scene.terrain.terrain_generator = None
# ========== 禁用高度扫描器 ==========
# 平地不需要扫描地形高度
self.scene.height_scanner = None
# 从观察空间中移除高度扫描数据
self.observations.policy.height_scan = None
self.observations.critic.height_scan = None
# ========== 禁用地形课程学习 ==========
# 平地不需要课程学习
self.curriculum.terrain_levels = None
# ========== 调整奖励配置 ==========
# 在平地上，可以启用基座高度奖励
# 将传感器配置设为 None（使用真实高度而非扫描高度）
self.rewards.base_height_l2.params["sensor_cfg"] = None
# ========== 自动禁用权重为 0 的奖励 ==========
# 如果是 MyRobotFlatEnvCfg 类（而非子类），
# 自动禁用所有权重为 0 的奖励项以提高性能
if self.__class__.__name__ == "MyRobotFlatEnvCfg":
    self.disable_zero_weight_rewards()

LocomotionVelocityRoughEnvCfg (Isaac Lab 基类)
↑
│ 继承
│
MyRobotRoughEnvCfg (完整配置：地形生成、高度扫描、所有传感器)
↑
│ 继承并禁用部分功能
│
MyRobotFlatEnvCfg (简化配置：平地、无高度扫描)

# Copyright (c) 2024-2025 Your Name
# SPDX-License-Identifier: Apache-2.0
# ============================================================
# 导入必要的模块
# ============================================================
from isaaclab.utils import configclass # Isaac Lab 的配置类装饰器
from isaaclab_rl.rsl_rl import(
    RslRlOnPolicyRunnerCfg,# 在线策略训练器配置（PPO 是在线策略算法）
    RslRlPpoActorCriticCfg,# Actor-Critic 神经网络配置
    RslRlPpoAlgorithmCfg,# PPO 算法超参数配置
)
# ============================================================
# 定义崎岖地形环境的 PPO 训练配置（基础配置）
# ============================================================
@configclass # 使用 @configclass 装饰器标记这是一个配置类
class MyRobotRoughPPORunnerCfg(RslRlOnPolicyRunnerCfg):
""" 自定义机器人崎岖地形环境的 PPO 训练器配置
注意：与环境配置一致，Rough 配置是基础配置
Flat 配置继承自 Rough 配置
"""
# ========== 训练器基本参数 ==========
# 每个环境的采样步数
# 24 = 每次收集 24 步数据后进行一次策略更新
# 总样本数 = num_steps_per_env × 环境数量
# 例如：24 × 4096 = 98,304 个样本/次更新
num_steps_per_env = 24
# 最大训练迭代次数
# 20000 = 训练 20000 次策略更新（崎岖地形需要更多训练）
# 总训练步数 = max_iterations × num_steps_per_env × 环境数量
# 例如：20000 × 24 × 4096 ≈ 1.97B 步
max_iterations = 20000
# 模型保存间隔
# 100 = 每 100 次迭代保存一次模型检查点
save_interval = 100
# 实验名称
# 用于组织日志和保存的模型
# 格式：logs/rsl_rl/{experiment_name}/{timestamp}/
experiment_name = "my_robot_rough"
# ========== Actor-Critic 神经网络配置 ==========
policy = RslRlPpoActorCriticCfg(
# 初始化噪声标准差
# 1.0 = 在训练初期为动作添加较大噪声，促进探索
# 随着训练进行，噪声会逐渐减小
init_noise_std=1.0,
# Actor 观察归一化
# False = 不对 actor 的输入观察进行归一化
# 如果观察已经在环境中缩放过，通常设为 False
actor_obs_normalization=False,
# Critic 观察归一化
# False = 不对 critic 的输入观察进行归一化
critic_obs_normalization=False,
# Actor（策略网络）隐藏层维度
# [512, 256, 128] = 三层隐藏层，从 512 逐渐降到 128
# 输入：观察空间 → 512 → 256 → 128 → 输出：动作空间
# 更大的网络 = 更强的表达能力，但训练更慢
actor_hidden_dims=[512,256,128],
# Critic（价值网络）隐藏层维度
# 通常与 Actor 保持相同或相似的结构
# 输入：观察空间 → 512 → 256 → 128 → 输出：状态价值
critic_hidden_dims=[512,256,128],
# 激活函数
# "elu" = Exponential Linear Unit，比 ReLU 更平滑
# 其他选项："relu", "tanh", "leaky_relu"
activation="elu",
)
# ========== PPO 算法超参数配置 ==========
algorithm = RslRlPpoAlgorithmCfg(
# 价值损失系数
# 1.0 = 价值损失和策略损失同等重要
# total_loss = policy_loss + value_loss_coef × value_loss - entropy_coef × entropy
value_loss_coef=1.0,
# 是否使用截断的价值损失
# True = 使用 PPO 的 clipped value loss，更稳定
# False = 使用普通的 MSE loss
use_clipped_value_loss=True,
# PPO 截断参数（epsilon）
# 0.2 = 限制策略更新幅度在 [1-0.2, 1+0.2] = [0.8, 1.2]
# 防止策略更新过大导致性能崩溃
# 较小的值 (0.1) = 更保守的更新
# 较大的值 (0.3) = 更激进的更新
clip_param=0.2,
# 熵正则化系数
# 0.01 = 鼓励策略保持一定随机性，促进探索
# 较大的值 (0.1) = 更多探索
# 较小的值 (0.001) = 更少探索，更确定的策略
entropy_coef=0.01,
# 每次更新的学习轮数
# 5 = 每次收集数据后，用这批数据训练 5 个 epoch
# 更多轮次 = 更充分利用数据，但可能过拟合
num_learning_epochs=5,
# Mini-batch 数量
# 4 = 将收集的数据分成 4 个 mini-batch 进行训练
# batch_size = (num_envs × num_steps_per_env) / num_mini_batches
# 例如：(4096 × 24) / 4 = 24,576
num_mini_batches=4,
# 学习率
# 1.0e-3 = 0.001，Adam 优化器的学习率
# 较大的值 (1e-2) = 更快学习，但可能不稳定
# 较小的值 (1e-4) = 更稳定，但学习较慢
learning_rate=1.0e-3,
# 学习率调度策略
# "adaptive" = 根据 KL 散度自动调整学习率
# "linear" = 线性衰减
# "constant" = 保持不变
schedule="adaptive",
# 折扣因子（gamma）
# 0.99 = 非常重视未来奖励
# 决定了算法的"远见"程度
# 较大 (0.999) = 更长远的规划
# 较小 (0.9) = 更注重短期奖励
gamma=0.99,
# GAE lambda 参数
# 0.95 = 在偏差和方差之间取得平衡
# 用于计算优势函数（Advantage function）
# 较大 (0.99) = 更低偏差，更高方差
# 较小 (0.9) = 更高偏差，更低方差
lam=0.95,
# 期望的 KL 散度
# 0.01 = 当 KL 散度超过此值时，降低学习率
# KL 散度衡量新旧策略的差异
# 用于自适应学习率调度
desired_kl=0.01,
# 梯度裁剪阈值
# 1.0 = 当梯度范数超过 1.0 时进行裁剪
# 防止梯度爆炸，提高训练稳定性
max_grad_norm=1.0,
)
# ============================================================
# 定义平地环境的 PPO 训练配置（继承自 Rough）
# ============================================================
@configclass # 使用 @configclass 装饰器标记这是一个配置类
class MyRobotFlatPPORunnerCfg(MyRobotRoughPPORunnerCfg):
""" 平地环境的训练配置
继承自 MyRobotRoughPPORunnerCfg，只修改迭代次数和实验名称
与环境配置的继承关系保持一致：
- Rough 是基础配置（包含所有参数）
- Flat 继承并修改部分参数
"""
def__post_init__(self):
""" 后初始化方法，在配置对象创建后自动调用
修改平地环境特定的参数
"""
# ========== 调用父类的初始化 ==========
# 先执行 Rough 配置的所有设置
super().__post_init__()
# ========== 修改训练迭代次数 ==========
# 减少迭代次数
# 5000 = 平地环境更简单，不需要太多训练
# 相比 Rough 的 20000 次，减少了 75%
self.max_iterations = 5000
# ========== 修改实验名称 ==========
self.experiment_name = "my_robot_flat"

RslRlOnPolicyRunnerCfg (RSL-RL 基类)
↑
│ 继承
│
MyRobotRoughPPORunnerCfg (完整配置：所有超参数)
↑
│ 继承并修改部分参数
│
MyRobotFlatPPORunnerCfg (简化配置：更少迭代次数)

# Copyright (c) 2024-2025 Your Name
# SPDX-License-Identifier: Apache-2.0
# ============================================================
# 导入必要的模块
# ============================================================
import gymnasium as gym # Gymnasium 是 OpenAI Gym 的升级版，用于注册和管理环境
from . import agents # 导入 agents 子模块（包含训练配置）
# ============================================================
# 注册 Gym 环境
# ============================================================
# ========== 注册平地环境 ==========
gym.register(
# 环境 ID（唯一标识符）
# 命名规则：项目名 - 仿真器 - 任务 - 地形 - 机器人 - 版本
# 例如：RobotLab-Isaac-Velocity-Flat-My-Robot-v0
id="RobotLab-Isaac-Velocity-Flat-My-Robot-v0",
# 入口点：指定环境类的位置
# "isaaclab.envs:ManagerBasedRLEnv" 表示：
# - 模块：isaaclab.envs
# - 类：ManagerBasedRLEnv（基于管理器的强化学习环境）
entry_point="isaaclab.envs:ManagerBasedRLEnv",
# 禁用环境检查器
# True = 跳过 Gymnasium 的环境合规性检查
# Isaac Lab 环境已经过充分测试，跳过检查可以加快启动速度
disable_env_checker=True,
# 关键字参数：传递给环境构造函数的参数
kwargs={
# ========== 环境配置入口点 ==========
# __name__ = 当前模块名（如：robot_lab.tasks....config.my_robot）
# f"{__name__}.flat_env_cfg" = robot_lab....my_robot.flat_env_cfg
# :MyRobotFlatEnvCfg = 导入该模块中的 MyRobotFlatEnvCfg 类
## 格式：模块路径：类名
# 这样可以延迟导入（lazy import），提高启动速度
"env_cfg_entry_point":f"{__name__}.flat_env_cfg:MyRobotFlatEnvCfg",
# ========== RSL-RL 训练配置入口点 ==========
# agents.__name__ = agents 子模块的名称
# 指向我们定义的 PPO 训练配置类
# 训练脚本会使用这个配置来初始化 RSL-RL 训练器
"rsl_rl_cfg_entry_point":f"{agents.__name__}.rsl_rl_ppo_cfg:MyRobotFlatPPORunnerCfg",
# ========== CusRL 训练配置入口点（可选）==========
# 如果你实现了 CusRL 配置，可以添加这个入口点
# CusRL 是一个实验性的强化学习框架
# "cusrl_cfg_entry_point": f"{agents.__name__}.cusrl_ppo_cfg:MyRobotFlatTrainerCfg",
},
)
# ========== 注册崎岖地形环境 ==========
gym.register(
# 环境 ID（包含 "Rough" 表示崎岖地形）
id="RobotLab-Isaac-Velocity-Rough-My-Robot-v0",
# 使用相同的环境类
entry_point="isaaclab.envs:ManagerBasedRLEnv",
# 禁用环境检查器
disable_env_checker=True,
# 指向崎岖地形的配置
kwargs={
# 崎岖地形的环境配置
# 使用 MyRobotRoughEnvCfg（启用程序化地形生成）
"env_cfg_entry_point":f"{__name__}.rough_env_cfg:MyRobotRoughEnvCfg",
# 崎岖地形的 RSL-RL 训练配置
# 使用 MyRobotRoughPPORunnerCfg（更多迭代次数）
"rsl_rl_cfg_entry_point":f"{agents.__name__}.rsl_rl_ppo_cfg:MyRobotRoughPPORunnerCfg",
# 崎岖地形的 CusRL 训练配置（可选）
# "cusrl_cfg_entry_point": f"{agents.__name__}.cusrl_ppo_cfg:MyRobotRoughTrainerCfg",
},
)
# ============================================================
# 使用方法
# ============================================================
# 注册后，可以通过以下方式创建环境：
## 1. 在 Python 代码中：
# import gymnasium as gym
# env = gym.make("RobotLab-Isaac-Velocity-Flat-My-Robot-v0")
## 2. 使用命令行训练（RSL-RL）：
# python scripts/reinforcement_learning/rsl_rl/train.py \
# --task=RobotLab-Isaac-Velocity-Flat-My-Robot-v0
## 3. 使用命令行训练（CusRL，如果实现了）：
# python scripts/reinforcement_learning/cusrl/train.py \
# --task=RobotLab-Isaac-Velocity-Flat-My-Robot-v0

# 验证环境已注册
python scripts/tools/list_envs.py |grep "My-Robot"
# 开始训练
python scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-Velocity-Flat-My-Robot-v0 \
--headless

export ISAAC_SIM_PATH="/path/to/isaac-sim"

python -m pip install --upgrade pip setuptools wheel
python -m pip install -e source/robot_lab

python scripts/reinforcement_learning/rsl_rl/train.py \
--task=<ENV_NAME> \
--num_envs 1024 # 从 4096 减少到 1024

rigid_props=sim_utils.RigidBodyPropertiesCfg(
    max_depenetration_velocity=1.0, # 减小此值
),
articulation_props=sim_utils.ArticulationRootPropertiesCfg(
    solver_position_iteration_count=8, # 增加迭代次数
    solver_velocity_iteration_count=2,
),

self.sim.dt = 0.005 # 从 0.01 降低到 0.005

{"python.analysis.extraPaths":["${workspaceFolder}/source/robot_lab","/path/to/IsaacLab/source/isaaclab","/path/to/IsaacLab/source/isaaclab_assets","/path/to/IsaacLab/source/isaaclab_tasks"]}

# 清理所有 USD 缓存
rm -rf /tmp/IsaacLab/usd_*
# 清理特定日期的缓存
rm -rf /tmp/IsaacLab/usd_2024*

Robot Lab 基于 Isaac Lab 的机器人强化学习使用指南

1. 项目简介

1.1 Isaac Sim 操作快捷键参考

基本操作

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

视野操作

物体操作与变换

选择操作

场景层级操作

仿真控制

窗口与界面

调试与可视化

相机操作

脚本与编辑器

搜索与导航

视口与显示模式

网格与对齐

时间轴与动画

属性与面板

截图与录制

性能与统计

物理与仿真调试

Layer（层）操作

测量与工具

其他实用快捷键

2. 支持的机器人

2.1 四足机器人 (Quadruped)

2.2 轮式机器人 (Wheeled)

2.3 人形机器人 (Humanoid)

3. 环境准备

3.1 步骤 1: 安装 Isaac Lab

3.2 步骤 2: 安装 Robot Lab

深入理解：安装配置详解

setup.py - 安装脚本

基础依赖

运动模仿依赖（BeyondMimic）

强化学习框架

4. 快速开始

4.1 示例 1: 训练四足机器人（Unitree Go2）

4.1.1 训练

4.1.2 监控训练

4.1.3 测试策略

4.1.4 录制视频

4.2 示例 2: 训练人形机器人（Unitree G1）

4.2.1 基础速度控制

4.2.2 模仿策略学习

4.3 示例 3: AMP 舞蹈动作学习

5. 高级功能

5.1 多 GPU 训练

5.1.1 单机多卡

5.1.2 多机多卡

5.2 对称性数据增强

5.3 教师 - 学生蒸馏

5.4 恢复训练

5.5 特技动作训练

6. 自定义机器人

6.1 项目结构

6.2 添加新机器人的步骤

6.2.1 步骤 1: 定义机器人资产

6.2.2 步骤 2: 创建任务配置

理解并行环境与 Interactive Scene

{ENV_REGEX_NS} 魔法变量：实现自动克隆的关键

6.2.3 步骤 3: 配置训练参数

6.2.4 步骤 4: 注册环境

6.2.5 步骤 5: 验证和训练

调优技巧

7. 常见问题

7.1 安装问题

7.2 训练问题

7.3 仿真问题

7.4 部署问题

7.5 Pylance 找不到模块

7.6 清理 USD 缓存

8. 参考链接

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

`{ENV_REGEX_NS}` 魔法变量：实现自动克隆的关键