Go2 机器人强化学习开发实操指南 | 极客日志

PythonAI算法

Go2 机器人强化学习开发实操指南

介绍 Go2 机器人强化学习开发流程，涵盖环境配置、模型训练及实物部署。基于 Isaac Gym 和 Isaac Lab 仿真平台，详细讲解 Conda 虚拟环境搭建、CUDA 与 PyTorch 安装、rsl_rl 库配置及 PPO 算法训练步骤。提供 sim2real 策略导出与 ONNX 格式转换方法，解决显存不足、导入错误等常见问题，帮助开发者完成从仿真到实物的 RL 落地。

ServerBase发布于 2026/4/6更新于 2026/5/2136 浏览

在 Go2 机器人的 RL 开发中，环境配置、模型训练、效果验证与策略部署的实操步骤是核心环节。本文基于宇树科技官方文档及开源资源，以 Isaac Gym 和 Isaac Lab 两大主流仿真平台为核心，提供从环境搭建到实物部署的全流程操作步骤，覆盖关键命令与参数配置，帮助开发者快速落地 RL 开发。

一、基础准备：硬件与系统要求

在开始操作前，需确保硬件与系统满足 RL 开发的基础需求，避免后续因配置不足导致训练中断或性能瓶颈。

类别	具体要求	说明
显卡	NVIDIA RTX 系列（显存≥8GB）	需支持 CUDA 加速，Isaac Gym/Isaac Lab 均依赖 GPU 进行仿真与训练
操作系统	Ubuntu 18.04/20.04/22.04	推荐 20.04 版本，兼容性最佳，避免使用 Windows 系统（部分依赖不支持）
显卡驱动	525 版本及以上	需与 CUDA 版本匹配（如 CUDA 11.3 对应驱动≥465.19.01，CUDA 11.8 对应驱动≥520.61.05）
软件依赖	Conda（Python 包管理）	用于创建独立虚拟环境，避免依赖冲突

二、基于 Isaac Gym 的 Go2 RL 开发实操（官方推荐）

Isaac Gym 是宇树科技官方文档指定的仿真平台，适合快速实现基础 RL 任务（如行走、避障），操作步骤如下：

（一）环境配置：从依赖安装到验证

1. 安装 Conda 与创建虚拟环境

若未安装 Conda，需先下载 Miniconda（轻量版），再创建并激活 Go2 专属 RL 环境：

# 1. 下载 Miniconda（Ubuntu 64 位）
wget https://repo.anaconda.com/miniconda/Miniconda3-py38_23.10.0-1-Linux-x86_64.sh
# 2. 安装 Miniconda（按提示输入 yes，默认路径即可）
bash Miniconda3-py38_23.10.0-1-Linux-x86_64.sh
# 3. 重启终端或执行以下命令加载 Conda
source ~/.bashrc
# 4. 创建虚拟环境（Python 3.8，名称为 rl-go2）
conda create -n rl-go2 python=3.8
# 5. 激活虚拟环境
conda activate rl-go2

2. 安装 CUDA 与 PyTorch

Isaac Gym 需依赖特定版本的 CUDA 与 PyTorch，官方推荐 CUDA 11.3 + PyTorch 1.10.0：

# 1. 安装 CUDA 11.3（若已安装则跳过，需确保驱动兼容）
wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run
sudo sh cuda_11.3.0_465.19.01_linux.run
# 安装时取消勾选"Driver"（已装驱动避免冲突）
# 2. 配置 CUDA 环境变量（添加到~/.bashrc）
echo 'export PATH=/usr/local/cuda-11.3/bin:$PATH' >> ~/.bashrc
echo  >> ~/.bashrc
 ~/.bashrc


pip3 install torch==1.10.0+cu113 torchvision==0.11.1+cu113 torchaudio==0.10.0+cu113 -f https://download.pytorch.org/whl/cu113/torch_stable.html

pip install numpy==1.23.5

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 1. 假设下载的压缩包路径为~/Downloads/IsaacGym_Preview_4_Package.tar.gz，解压到~/IsaacGym
tar -zxvf ~/Downloads/IsaacGym_Preview_4_Package.tar.gz -C ~/
# 2. 进入 Isaac Gym 的 Python 目录，安装依赖
cd ~/IsaacGym/python
pip install -e .
# 3. 验证安装（运行示例脚本，若弹出仿真窗口则成功）
cd examples
python 1080_balls_of_solitude.py

# 1. 克隆 rsl_rl 仓库
git clone https://github.com/leggedrobotics/rsl_rl
# 2. 切换到 1.0.2 版本
cd rsl_rl
git checkout v1.0.2
# 3. 安装 rsl_rl
pip install -e .

# 克隆宇树官方 rl 示例仓库
git clone https://github.com/unitreerobotics/unitree_rl_gym
cd unitree_rl_gym

# 1. 编辑 train.py
nano legged_gym/scripts/train.py
# 2. 找到以下代码行，替换为自己的 unitree_rl_gym 路径（如~/unitree_rl_gym）
sys.path.append("/home/unitree/go2/legged_gym")  # 原路径
sys.path.append("~/unitree_rl_gym/legged_gym")  # 修改后的路径（需与实际一致）
# 3. 按 Ctrl+O 保存，Ctrl+X 退出，重复上述步骤修改 play.py
nano legged_gym/scripts/play.py

# 激活虚拟环境（若已激活则跳过）
conda activate rl-go2
# 进入示例代码目录
cd ~/unitree_rl_gym
# 启动训练（--task=go2 指定任务为 Go2 基础控制，默认开启可视化）
python3 legged_gym/scripts/train.py --task=go2

参数	说明	示例
`--headless`	关闭可视化界面（训练速度提升 50%+）	`python3 train.py --task=go2 --headless`
`--num_envs`	并行训练环境数量（显存足够时调大，推荐 32/64）	`python3 train.py --task=go2 --num_envs=64`
`--max_iterations`	最大训练迭代次数（默认 1500，可按需调整）	`python3 train.py --task=go2 --max_iterations=2000`
`--sim_device`	指定仿真设备（默认 GPU，CPU 训练需设为 cpu）	`python3 train.py --task=go2 --sim_device=cpu`
`--resume`	从上次 checkpoint 继续训练（需有历史日志）	`python3 train.py --task=go2 --resume`

# 基础测试命令（加载最新模型，默认开启可视化）
python3 legged_gym/scripts/play.py --task=go2
# 加载指定 checkpoint（如加载第 1200 次迭代的模型）
python3 legged_gym/scripts/play.py --task=go2 --checkpoint=1200
# 关闭可视化测试（仅输出日志）
python3 legged_gym/scripts/play.py --task=go2 --headless

logs/<experiment_name>/exported/policies/policy_1.pt  # MLP 网络（默认）
# 若使用 RNN 网络，导出为 policy_lstm_1.pt

# 1. 安装系统依赖
sudo apt-get update && sudo apt-get install -y libgl1-mesa-glx libglib2.0-0
# 2. 创建并激活 Isaac Lab 专属虚拟环境
conda create -n isaaclab python=3.8
conda activate isaaclab
# 3. 安装 CUDA 11.8（Isaac Lab 推荐版本）
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
sudo sh cuda_11.8.0_520.61.05_linux.run
# 同样取消勾选 Driver
# 4. 配置 CUDA 11.8 环境变量
echo 'export PATH=/usr/local/cuda-11.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc
# 5. 安装 PyTorch 2.0.0（适配 CUDA 11.8）
pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --extra-index-url https://download.pytorch.org/whl/cu118

# 1. 克隆 Isaac Lab 仓库
git clone https://github.com/isaac-sim/IsaacLab.git
cd IsaacLab
# 2. 运行官方安装脚本（自动安装依赖）
./setup_conda_env.sh
# 3. 验证安装（创建空场景，弹出仿真窗口则成功）
python source/standalone/tutorials/00_sim/create_empty.py

mkdir -p source/extensions/omni.isaac.lab_assets/resources/robots/unitree_go2
cp ~/Downloads/unitree_go2.usd source/extensions/omni.isaac.lab_assets/resources/robots/unitree_go2/

from omni.isaac.lab.app import AppLauncher
from omni.isaac.lab.assets import Robot
from omni.isaac.lab.scene import InteractiveScene
from omni.isaac.lab.envs import ManagerBasedRLEnv

# 1. 启动仿真器（关闭 headless 便于调试）
app_launcher = AppLauncher(headless=False)
simulation_app = app_launcher.app

# 2. 创建场景
scene = InteractiveScene()
# 添加地面
scene.add_ground_plane()
# 添加台阶（尺寸：长 2m、宽 1m、高 0.15m）
scene.add_box(prim_path="/World/Stairs", size=[2.0, 1.0, 0.15], position=[1.0, 0.0, 0.075], mass=0)
# 添加 Go2 机器人（使用 USD 模型）
go2_robot = Robot(
    prim_path="/World/Go2",
    usd_path="source/extensions/omni.isaac.lab_assets/resources/robots/unitree_go2/unitree_go2.usd",
    position=[0.0, 0.0, 0.5]  # 初始位置（地面上方 0.5m）
)
scene.add_robot(go2_robot)

# 3. 创建 RL 环境（绑定场景与 PPO 算法）
env = ManagerBasedRLEnv(scene=scene, policy_cfg="ppo")

# 4. 启动训练（简化版，实际需添加奖励函数与动作空间定义）
num_episodes = 1000
for episode in range(num_episodes):
    obs, _ = env.reset()
    done = False
    while not done:
        action = env.policy.compute_action(obs)
        obs, reward, done, _, _ = env.step(action)
        print(f"Episode {episode+1}, Reward: {reward:.2f}")

# 5. 关闭仿真器
simulation_app.close()

# 激活 Isaac Lab 环境
conda activate isaaclab
# 进入脚本目录
cd IsaacLab/source/standalone/rl
# 启动训练
python go2_stairs.py

ssh [email protected]

python -m torch.onnx.export \
    --model=policy_1.pt \
    --input-shape=(1,32)  # 输入维度需与观测空间一致（如 32 维观测） \
    --output=go2_policy.onnx

# 假设 SDK 解压到~/UnitreeSDK
cd ~/UnitreeSDK
sudo ./install.sh

# 登录 Go2
ssh [email protected]
# 安装依赖（若未安装）
pip install onnxruntime torch
# 执行部署
python deploy_real.py

scp go2_policy.onnx [email protected]:~/
scp deploy_real.py [email protected]:~/

import onnxruntime as ort
from unitree_sdk2py import Go2SDK

# Go2 SDK 接口
# 1. 初始化 Go2 SDK
sdk = Go2SDK()
sdk.connect()

# 2. 加载 ONNX 模型
session = ort.InferenceSession("go2_policy.onnx")

# 3. 实时获取观测数据（如关节角度、IMU 数据）
def get_observation():
    joint_angles = sdk.get_joint_angles()  # 获取关节角度
    imu_data = sdk.get_imu()  # 获取 IMU 数据（加速度、角速度）
    return joint_angles + imu_data  # 拼接为观测向量（需与训练时一致）

# 4. 执行策略并控制机器人
while True:
    obs = get_observation()
    action = session.run(None, {"input": [obs]})[0]  # 模型推理获取动作
    sdk.send_joint_commands(action)

问题现象	原因	解决方案
训练时弹出"CUDA out of memory"	显存不足	1. 降低 `--num_envs`（如从 64 改为 32）；2. 开启 `--headless`；3. 更换更大显存显卡
Isaac Gym 示例脚本运行报错"ImportError: No module named 'isaacgym'"	路径未配置	重新执行 `pip install -e .`（在 Isaac Gym/python 目录下），并确保虚拟环境激活
实物部署时 Go2 无响应	1. 网络未连接；2. SDK 未初始化	1. 检查 IP 是否正确，ping 192.168.123.100；2. 确保 `sdk.connect()` 返回 True
play.py 测试时 Go2 频繁跌倒	训练不充分或奖励函数不合理	1. 增加训练迭代次数（如到 2000 次）；2. 调整奖励函数（如增加姿态稳定奖励）

Go2 机器人强化学习开发实操指南

一、基础准备：硬件与系统要求

二、基于 Isaac Gym 的 Go2 RL 开发实操（官方推荐）

（一）环境配置：从依赖安装到验证

1. 安装 Conda 与创建虚拟环境

2. 安装 CUDA 与 PyTorch

更多推荐文章

相关免费在线工具

3. 安装 Isaac Gym 并验证

4. 安装 rsl_rl 库（RL 算法核心）

5. 下载 Go2 官方 RL 示例代码

6. 修改路径配置（关键步骤）

（二）模型训练：启动 Go2 RL 任务

1. 基础训练命令（默认任务：行走）

2. 关键参数配置（优化训练效率）

3. 训练过程监控

（三）效果验证：使用 play.py 测试训练结果

验证标准

（四）策略导出：为实物部署准备模型

三、基于 Isaac Lab 的 Go2 RL 开发实操（进阶版）

（一）环境配置：安装 Isaac Lab 与依赖

1. 安装基础依赖

2. 安装 Isaac Lab

3. 导入 Go2 的 USD 模型

（二）PPO 算法训练：实现 Go2 复杂动作

1. 创建仿真场景配置文件

2. 启动 PPO 训练

四、sim2real：从仿真到实物部署（关键步骤）

（一）硬件连接

（二）部署准备

（三）执行部署

部署脚本核心逻辑（deploy_real.py 示例）

五、常见问题与解决方案

更多推荐文章

相关免费在线工具

Go2 机器人强化学习开发实操指南

一、基础准备：硬件与系统要求

二、基于 Isaac Gym 的 Go2 RL 开发实操（官方推荐）

（一）环境配置：从依赖安装到验证

1. 安装 Conda 与创建虚拟环境

2. 安装 CUDA 与 PyTorch

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 安装 Isaac Gym 并验证

4. 安装 rsl_rl 库（RL 算法核心）

5. 下载 Go2 官方 RL 示例代码

6. 修改路径配置（关键步骤）

（二）模型训练：启动 Go2 RL 任务

1. 基础训练命令（默认任务：行走）

2. 关键参数配置（优化训练效率）

3. 训练过程监控

（三）效果验证：使用 play.py 测试训练结果

验证标准

（四）策略导出：为实物部署准备模型

三、基于 Isaac Lab 的 Go2 RL 开发实操（进阶版）

（一）环境配置：安装 Isaac Lab 与依赖

1. 安装基础依赖

2. 安装 Isaac Lab

3. 导入 Go2 的 USD 模型

（二）PPO 算法训练：实现 Go2 复杂动作

1. 创建仿真场景配置文件

2. 启动 PPO 训练

四、sim2real：从仿真到实物部署（关键步骤）

（一）硬件连接

（二）部署准备

（三）执行部署

部署脚本核心逻辑（deploy_real.py 示例）

五、常见问题与解决方案

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具