宇树科技Go2机器人强化学习（RL）开发实操指南

优质文章学习记录

08 Apr 2026 — 11 min read

在Go2机器人的RL开发中，环境配置、模型训练、效果验证与策略部署的实操步骤是核心环节。本文基于宇树科技官方文档及开源资源，以Isaac Gym和Isaac Lab两大主流仿真平台为核心，提供从环境搭建到实物部署的全流程操作步骤，覆盖关键命令与参数配置，帮助开发者快速落地RL开发。

一、基础准备：硬件与系统要求

在开始操作前，需确保硬件与系统满足RL开发的基础需求，避免后续因配置不足导致训练中断或性能瓶颈。

类别	具体要求	说明
显卡	NVIDIA RTX系列（显存≥8GB）	需支持CUDA加速，Isaac Gym/Isaac Lab均依赖GPU进行仿真与训练
操作系统	Ubuntu 18.04/20.04/22.04	推荐20.04版本，兼容性最佳，避免使用Windows系统（部分依赖不支持）
显卡驱动	525版本及以上	需与CUDA版本匹配（如CUDA 11.3对应驱动≥465.19.01，CUDA 11.8对应驱动≥520.61.05）
软件依赖	Conda（Python包管理）	用于创建独立虚拟环境，避免依赖冲突

二、基于Isaac Gym的Go2 RL开发实操（官方推荐）

Isaac Gym是宇树科技官方文档指定的仿真平台，适合快速实现基础RL任务（如行走、避障），操作步骤如下：

（一）环境配置：从依赖安装到验证

1. 安装Conda与创建虚拟环境

若未安装Conda，需先下载Miniconda（轻量版），再创建并激活Go2专属RL环境：

# 1. 下载Miniconda（Ubuntu 64位）wget https://repo.anaconda.com/miniconda/Miniconda3-py38_23.10.0-1-Linux-x86_64.sh # 2. 安装Miniconda（按提示输入yes，默认路径即可）bash Miniconda3-py38_23.10.0-1-Linux-x86_64.sh # 3. 重启终端或执行以下命令加载Condasource ~/.bashrc # 4. 创建虚拟环境（Python 3.8，名称为rl-go2） conda create -n rl-go2 python=3.8# 5. 激活虚拟环境 conda activate rl-go2

2. 安装CUDA与PyTorch

Isaac Gym需依赖特定版本的CUDA与PyTorch，官方推荐CUDA 11.3 + PyTorch 1.10.0：

# 1. 安装CUDA 11.3（若已安装则跳过，需确保驱动兼容）wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run sudosh cuda_11.3.0_465.19.01_linux.run # 安装时取消勾选"Driver"（已装驱动避免冲突）# 2. 配置CUDA环境变量（添加到~/.bashrc）echo'export PATH=/usr/local/cuda-11.3/bin:$PATH'>> ~/.bashrc echo'export LD_LIBRARY_PATH=/usr/local/cuda-11.3/lib64:$LD_LIBRARY_PATH'>> ~/.bashrc source ~/.bashrc # 生效环境变量# 3. 安装PyTorch 1.10.0（含CUDA 11.3支持） pip3 installtorch==1.10.0+cu113 torchvision==0.11.1+cu113 torchaudio==0.10.0+cu113 -f https://download.pytorch.org/whl/cu113/torch_stable.html # 4. 安装低版本numpy（避免与Isaac Gym冲突，推荐1.23.5） pip installnumpy==1.23.5

3. 安装Isaac Gym并验证

需从NVIDIA官网下载Isaac Gym Preview 4（需注册账号），解压后安装并验证：

# 1. 假设下载的压缩包路径为~/Downloads/IsaacGym_Preview_4_Package.tar.gz，解压到~/IsaacGymtar -zxvf ~/Downloads/IsaacGym_Preview_4_Package.tar.gz -C ~/ # 2. 进入Isaac Gym的Python目录，安装依赖cd ~/IsaacGym/python pip install -e .# 3. 验证安装（运行示例脚本，若弹出仿真窗口则成功）cd examples python 1080_balls_of_solitude.py

4. 安装rsl_rl库（RL算法核心）

rsl_rl是legged_gym依赖的RL算法库，需安装1.0.2版本以适配Go2：

# 1. 克隆rsl_rl仓库git clone https://github.com/leggedrobotics/rsl_rl # 2. 切换到1.0.2版本cd rsl_rl git checkout v1.0.2 # 3. 安装rsl_rl pip install -e .

5. 下载Go2官方RL示例代码

# 克隆宇树官方rl示例仓库git clone https://github.com/unitreerobotics/unitree_rl_gym cd unitree_rl_gym

6. 修改路径配置（关键步骤）

需修改train.py和play.py中的路径，确保脚本能找到legged_gym：

# 1. 编辑train.pynano legged_gym/scripts/train.py # 2. 找到以下代码行，替换为自己的unitree_rl_gym路径（如~/unitree_rl_gym） sys.path.append("/home/unitree/go2/legged_gym")# 原路径 sys.path.append("~/unitree_rl_gym/legged_gym")# 修改后的路径（需与实际一致）# 3. 按Ctrl+O保存，Ctrl+X退出，重复上述步骤修改play.pynano legged_gym/scripts/play.py

（二）模型训练：启动Go2 RL任务

1. 基础训练命令（默认任务：行走）

# 激活虚拟环境（若已激活则跳过） conda activate rl-go2 # 进入示例代码目录cd ~/unitree_rl_gym # 启动训练（--task=go2指定任务为Go2基础控制，默认开启可视化） python3 legged_gym/scripts/train.py --task=go2

2. 关键参数配置（优化训练效率）

参数	说明	示例
`--headless`	关闭可视化界面（训练速度提升50%+）	`python3 train.py --task=go2 --headless`
`--num_envs`	并行训练环境数量（显存足够时调大，推荐32/64）	`python3 train.py --task=go2 --num_envs=64`
`--max_iterations`	最大训练迭代次数（默认1500，可按需调整）	`python3 train.py --task=go2 --max_iterations=2000`
`--sim_device`	指定仿真设备（默认GPU，CPU训练需设为cpu）	`python3 train.py --task=go2 --sim_device=cpu`
`--resume`	从上次 checkpoint 继续训练（需有历史日志）	`python3 train.py --task=go2 --resume`

3. 训练过程监控

可视化界面：若未开启--headless，会弹出Isaac Gym窗口，实时显示Go2的训练动作（如站立、行走）。
终端输出：会打印每轮迭代的奖励值（Reward）、成功率（Success Rate）等指标，当奖励值稳定在较高水平（如1000+）时，说明训练效果良好。
模型保存：训练结果默认保存在logs/<experiment_name>/<date_time>_<run_name>/，包含模型文件（model_xxx.pt）和日志。

（三）效果验证：使用play.py测试训练结果

当训练迭代达到1500次后，可通过play.py验证策略效果：

# 基础测试命令（加载最新模型，默认开启可视化） python3 legged_gym/scripts/play.py --task=go2 # 加载指定checkpoint（如加载第1200次迭代的模型） python3 legged_gym/scripts/play.py --task=go2 --checkpoint=1200# 关闭可视化测试（仅输出日志） python3 legged_gym/scripts/play.py --task=go2 --headless

验证标准

成功指标：Go2能稳定站立、连续行走，无跌倒或动作卡顿。
失败处理：若出现跌倒，需返回训练步骤，增加迭代次数或调整--num_envs参数，重新训练。

（四）策略导出：为实物部署准备模型

play.py会自动导出Actor网络（决策模型），路径为：

logs/<experiment_name>/exported/policies/policy_1.pt # MLP网络（默认） # 若使用RNN网络，导出为policy_lstm_1.pt

导出的模型可用于后续的sim2sim（跨仿真器部署）和sim2real（实物部署）。

三、基于Isaac Lab的Go2 RL开发实操（进阶版）

Isaac Lab是NVIDIA推出的新一代机器人RL框架，支持更复杂的任务（如上下台阶、后空翻），且兼容Go2，操作步骤如下：

（一）环境配置：安装Isaac Lab与依赖

1. 安装基础依赖

# 1. 安装系统依赖sudoapt-get update &&sudoapt-getinstall -y libgl1-mesa-glx libglib2.0-0 # 2. 创建并激活Isaac Lab专属虚拟环境 conda create -n isaaclab python=3.8 conda activate isaaclab # 3. 安装CUDA 11.8（Isaac Lab推荐版本）wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run sudosh cuda_11.8.0_520.61.05_linux.run # 同样取消勾选Driver# 4. 配置CUDA 11.8环境变量echo'export PATH=/usr/local/cuda-11.8/bin:$PATH'>> ~/.bashrc echo'export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH'>> ~/.bashrc source ~/.bashrc # 5. 安装PyTorch 2.0.0（适配CUDA 11.8） pip installtorch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --extra-index-url https://download.pytorch.org/whl/cu118

2. 安装Isaac Lab

# 1. 克隆Isaac Lab仓库git clone https://github.com/isaac-sim/IsaacLab.git cd IsaacLab # 2. 运行官方安装脚本（自动安装依赖） ./setup_conda_env.sh # 3. 验证安装（创建空场景，弹出仿真窗口则成功） python source/standalone/tutorials/00_sim/create_empty.py

3. 导入Go2的USD模型

USD模型是Isaac Lab中Go2的仿真载体，需从宇树官方或Isaac Lab社区获取：

下载Go2的USD模型文件（如unitree_go2.usd）。

将模型放入Isaac Lab的资源目录：

mkdir -p source/extensions/omni.isaac.lab_assets/resources/robots/unitree_go2 cp ~/Downloads/unitree_go2.usd source/extensions/omni.isaac.lab_assets/resources/robots/unitree_go2/

（二）PPO算法训练：实现Go2复杂动作

Isaac Lab默认使用PPO算法（机器人RL主流算法），以“上下台阶”任务为例，操作步骤如下：

1. 创建仿真场景配置文件

在source/standalone/rl目录下创建go2_stairs.py，定义场景（地面、台阶、Go2机器人）：

from omni.isaac.lab.app import AppLauncher from omni.isaac.lab.assets import Robot from omni.isaac.lab.scene import InteractiveScene from omni.isaac.lab.envs import ManagerBasedRLEnv # 1. 启动仿真器（关闭headless便于调试） app_launcher = AppLauncher(headless=False) simulation_app = app_launcher.app # 2. 创建场景 scene = InteractiveScene()# 添加地面 scene.add_ground_plane()# 添加台阶（尺寸：长2m、宽1m、高0.15m） scene.add_box(prim_path="/World/Stairs", size=[2.0,1.0,0.15], position=[1.0,0.0,0.075], mass=0.0)# 添加Go2机器人（使用USD模型） go2_robot = Robot( prim_path="/World/Go2", usd_path="source/extensions/omni.isaac.lab_assets/resources/robots/unitree_go2/unitree_go2.usd", position=[0.0,0.0,0.5]# 初始位置（地面上方0.5m）) scene.add_robot(go2_robot)# 3. 创建RL环境（绑定场景与PPO算法） env = ManagerBasedRLEnv(scene=scene, policy_cfg="ppo")# 4. 启动训练（简化版，实际需添加奖励函数与动作空间定义） num_episodes =1000for episode inrange(num_episodes): obs, _ = env.reset() done =Falsewhilenot done: action = env.policy.compute_action(obs) obs, reward, done, _, _ = env.step(action)print(f"Episode {episode+1}, Reward: {reward:.2f}")# 5. 关闭仿真器 simulation_app.close()

2. 启动PPO训练

# 激活Isaac Lab环境 conda activate isaaclab # 进入脚本目录cd IsaacLab/source/standalone/rl # 启动训练 python go2_stairs.py

四、sim2real：从仿真到实物部署（关键步骤）

当仿真训练效果达标后，需将策略部署到Go2实物机器人，核心步骤如下：

（一）硬件连接

网络连接：将开发电脑与Go2通过以太网或Wi-Fi连接（推荐以太网，延迟更低），确保两者在同一局域网。

权限配置：通过SSH登录Go2的嵌入式系统（默认IP：192.168.123.100，用户名：unitree，密码：unitree）：

ssh [email protected]

（二）部署准备

转换模型格式：将仿真导出的policy_1.pt（PyTorch模型）转换为Go2支持的格式（如ONNX）：

python -m torch.onnx.export \ --model=policy_1.pt \ --input-shape=(1,32)# 输入维度需与观测空间一致（如32维观测） \ --output=go2_policy.onnx

安装Go2 SDK：在开发电脑上安装Go2 SDK（从宇树官网下载），确保能调用机器人的运动控制接口：

# 假设SDK解压到~/UnitreeSDKcd ~/UnitreeSDK sudo ./install.sh

（三）执行部署

在Go2上运行部署脚本：

# 登录Go2ssh [email protected] # 安装依赖（若未安装） pip install onnxruntime torch # 执行部署 python deploy_real.py

上传模型与脚本：将转换后的go2_policy.onnx与部署脚本（如deploy_real.py）上传到Go2：

scp go2_policy.onnx [email protected]:~/ scp deploy_real.py [email protected]:~/

部署脚本核心逻辑（deploy_real.py示例）

import onnxruntime as ort from unitree_sdk2py import Go2SDK # Go2 SDK接口# 1. 初始化Go2 SDK sdk = Go2SDK() sdk.connect()# 2. 加载ONNX模型 session = ort.InferenceSession("go2_policy.onnx")# 3. 实时获取观测数据（如关节角度、IMU数据）defget_observation(): joint_angles = sdk.get_joint_angles()# 获取关节角度 imu_data = sdk.get_imu()# 获取IMU数据（加速度、角速度）return joint_angles + imu_data # 拼接为观测向量（需与训练时一致）# 4. 执行策略并控制机器人whileTrue: obs = get_observation()# 模型推理获取动作 action = session.run(None,{"input":[obs]})[0]# 发送动作到Go2 sdk.send_joint_commands(action)

五、常见问题与解决方案

问题现象	原因	解决方案
训练时弹出“CUDA out of memory”	显存不足	1. 降低`--num_envs`（如从64改为32）；2. 开启`--headless`；3. 更换更大显存显卡
Isaac Gym示例脚本运行报错“ImportError: No module named ‘isaacgym’”	路径未配置	重新执行`pip install -e .`（在Isaac Gym/python目录下），并确保虚拟环境激活
实物部署时Go2无响应	1. 网络未连接；2. SDK未初始化	1. 检查IP是否正确，ping 192.168.123.100；2. 确保`sdk.connect()`返回True
play.py测试时Go2频繁跌倒	训练不充分或奖励函数不合理	1. 增加训练迭代次数（如到2000次）；2. 调整奖励函数（如增加姿态稳定奖励）

通过以上步骤，开发者可完成从仿真训练到实物部署的全流程操作。建议先基于Isaac Gym完成基础任务（如行走），再通过Isaac Lab挑战复杂任务（如上下台阶），逐步积累RL开发经验。