宇树 G1 机器人强化学习训练实战：环境配置与奖励函数 | 极客日志

PythonAI算法

宇树 G1 机器人强化学习训练实战：环境配置与奖励函数

基于宇树 G1 人形机器人，介绍强化学习训练实战。涵盖 Isaac Gym 物理仿真环境与 RSL-RL 框架的基础搭建，解析 12 自由度与 23 自由度模型的配置差异，包括观测空间、动作空间及 PD 控制参数调整。重点剖析模块化奖励函数架构，详解轨迹跟踪、稳定性约束及动作平滑性惩罚的设计逻辑与代码实现，为高自由度机器人运动控制提供配置参考。

moshang发布于 2026/4/6更新于 2026/7/2270 浏览

0. 前言

人形机器人的运动控制一直是机器人领域的重要挑战，而强化学习为解决这一问题提供了强有力的工具。本教程将基于宇树 G1 人形机器人，从基础的强化学习环境搭建开始，逐步深入到高自由度模型的训练配置、奖励函数设计与优化，最终实现复杂动作的训练控制。

1. 强化学习训练环境配置

1.1 基础环境搭建

宇树机器人的强化学习训练基于 Isaac Gym 物理仿真环境和 RSL-RL 强化学习框架。首先需要确保这两个核心组件正确安装和配置。

在开始训练之前，我们通过简单的命令来启动 12 自由度 G1 机器人的基础训练：

python legged_gym/scripts/train.py --task=g1

这个命令背后的机制涉及到任务注册系统。在 legged_gym/envs/__init__.py 文件中，我们可以看到各种机器人任务的注册代码：

from legged_gym import LEGGED_GYM_ROOT_DIR, LEGGED_GYM_ENVS_DIR
from legged_gym.envs.go2.go2_config import GO2RoughCfg, GO2RoughCfgPPO
from legged_gym.envs.h1.h1_config import H1RoughCfg, H1RoughCfgPPO
from legged_gym.envs.h1.h1_env import H1Robot
from legged_gym.envs.h1_2.h1_2_config import H1_2RoughCfg, H1_2RoughCfgPPO
from legged_gym.envs.h1_2.h1_2_env import H1_2Robot
from legged_gym.envs.g1.g1_config import G1RoughCfg, G1RoughCfgPPO
from legged_gym.envs.g1.g1_env import G1Robot
from base.legged_robot import LeggedRobot
from legged_gym.utils.task_registry import task_registry

# 任务注册
task_registry.register("go2", LeggedRobot, GO2RoughCfg(), GO2RoughCfgPPO())
task_registry.register("h1", H1Robot, H1RoughCfg(), H1RoughCfgPPO())
task_registry.register("h1_2", H1_2Robot, H1_2RoughCfg(), H1_2RoughCfgPPO())
task_registry.register("g1", G1Robot, G1RoughCfg(), G1RoughCfgPPO())

1.2 G1 机器人 12 自由度配置解析

标准的 G1 机器人配置文件位于 legged_gym/envs/g1/g1_config.py 中，其中定义了机器人的各项参数。让我们深入分析关键配置：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from legged_gym.envs.base.legged_robot_config import LeggedRobotCfg, LeggedRobotCfgPPO

class G1RoughCfg(LeggedRobotCfg):
    class init_state(LeggedRobotCfg.init_state):
        pos = [0.0, 0.0, 0.8]  # x,y,z [m] 初始位置
        default_joint_angles = {
            # 各关节默认角度 [rad]
            'left_hip_yaw_joint': 0.,
            'left_hip_roll_joint': 0,
            'left_hip_pitch_joint': -0.1,
            'left_knee_joint': 0.3,
            'left_ankle_pitch_joint': -0.2,
            'left_ankle_roll_joint': 0,
            'right_hip_yaw_joint': 0.,
            'right_hip_roll_joint': 0,
            'right_hip_pitch_joint': -0.1,
            'right_knee_joint': 0.3,
            'right_ankle_pitch_joint': -0.2,
            'right_ankle_roll_joint': 0,
            'torso_joint': 0
        }

    class env(LeggedRobotCfg.env):
        num_observations = 47  # 观测维度
        num_privileged_obs = 50  # 特权观测维度
        num_actions = 12  # 动作维度

from legged_gym.envs.base.legged_robot_config import LeggedRobotCfg, LeggedRobotCfgPPO

class G1_23RoughCfg(LeggedRobotCfg):
    class init_state(LeggedRobotCfg.init_state):
        pos = [0.0, 0.0, 0.8]
        default_joint_angles = {
            # 腿部关节（保持原有配置）
            'left_hip_yaw_joint': 0.,
            'left_hip_roll_joint': 0,
            'left_hip_pitch_joint': -0.1,
            'left_knee_joint': 0.3,
            'left_ankle_pitch_joint': -0.2,
            'left_ankle_roll_joint': 0,
            'right_hip_yaw_joint': 0.,
            'right_hip_roll_joint': 0,
            'right_hip_pitch_joint': -0.1,
            'right_knee_joint': 0.3,
            'right_ankle_pitch_joint': -0.2,
            'right_ankle_roll_joint': 0,
            # 新增的上肢关节
            'waist_yaw_joint': 0,  # 注意：torso_joint 改名为 waist_yaw_joint
            'left_shoulder_pitch_joint': 0.,
            'left_shoulder_roll_joint': 0,
            'left_shoulder_yaw_joint': 0.,
            'left_elbow_joint': 0.,
            'left_wrist_roll_joint': 0.,
            'right_shoulder_pitch_joint': 0.,
            'right_shoulder_roll_joint': 0.0,
            'right_shoulder_yaw_joint': 0.,
            'right_elbow_joint': 0.,
            'right_wrist_roll_joint': 0.
        }

class env(LeggedRobotCfg.env):
    num_observations = 80  # 普通观测维度
    num_privileged_obs = 83  # 特权观测维度（多了基座线速度 3 维）
    num_actions = 23  # 动作维度

class control(LeggedRobotCfg.control):
    control_type = 'P'  # PD 控制
    # 关节刚度配置 [N*m/rad]
    stiffness = {
        'hip_yaw': 100,
        'hip_roll': 100,
        'hip_pitch': 100,
        'knee': 150,
        'ankle': 40,
        'waist_yaw': 250,  # 腰部需要更高刚度
        'shoulder': 100,  # 肩部关节
        'elbow': 50,  # 肘部关节
        'wrist': 50  # 手腕关节
    }
    # 关节阻尼配置 [N*m*s/rad]
    damping = {
        'hip_yaw': 2,
        'hip_roll': 2,
        'hip_pitch': 2,
        'knee': 4,
        'ankle': 2,
        'waist_yaw': 6,  # 腰部阻尼
        'shoulder': 2,
        'elbow': 2,
        'wrist': 2,
    }
    action_scale = 0.25  # 动作缩放因子
    decimation = 4  # 控制频率分频

class asset(LeggedRobotCfg.asset):
    file = '{LEGGED_GYM_ROOT_DIR}/resources/robots/g1_description/g1_23dof_rev_1_0.urdf'
    name = "g1"
    foot_name = "ankle_roll"
    penalize_contacts_on = ["hip", "knee"]
    terminate_after_contacts_on = ["pelvis"]
    self_collisions = 0
    flip_visual_attachments = False

from legged_gym.envs.g1.g1_config_23 import G1_23RoughCfg, G1_23RoughCfgPPO
task_registry.register("g1_23", G1Robot, G1_23RoughCfg(), G1_23RoughCfgPPO())

python legged_gym/scripts/train.py --task=g1_23

class G1RoughCfg(LeggedRobotCfg):
    class rewards(LeggedRobotCfg.rewards):
        # 基础参数设置
        soft_dof_pos_limit = 0.9  # 柔性关节位置限制，保护机械结构
        base_height_target = 0.78  # 期望的机器人身体高度

    class scales(LeggedRobotCfg.rewards.scales):
        # 轨迹跟踪奖励
        tracking_lin_vel = 1.0  # 线速度跟踪奖励权重
        tracking_ang_vel = 0.5  # 角速度跟踪奖励权重
        # 稳定性相关惩罚
        lin_vel_z = -2.0  # z 方向线速度惩罚（防跳跃）
        ang_vel_xy = -0.05  # xy 轴角速度惩罚（防翻滚）
        orientation = -1.0  # 姿态偏离惩罚
        base_height = -10.0  # 高度偏离惩罚
        # 动作平滑性惩罚
        dof_acc = -2.5e-7  # 关节加速度惩罚
        dof_vel = -1e-3  # 关节速度惩罚
        action_rate = -0.01  # 动作变化率惩罚
        # 步态相关奖励
        feet_air_time = 0.0  # 足部离地时间奖励
        contact = 0.18  # 足部接触奖励
        contact_no_vel = -0.2  # 接触时无速度惩罚
        feet_swing_height = -20.0  # 足部摆动高度惩罚
        # 安全性奖励
        collision = 0.0  # 碰撞惩罚
        dof_pos_limits = -5.0  # 关节位置限制惩罚
        alive = 0.15  # 存活奖励
        hip_pos = -1.0  # 髋部位置惩罚

class LeggedRobotCfg:
    class rewards:
        class scales:
            termination = -0.0  # 终止惩罚
            torques = -0.00001  # 扭矩惩罚
            feet_stumble = -0.0  # 足部绊倒惩罚
            stand_still = -0.  # 静止时动作惩罚
            only_positive_rewards = True  # 限制负奖励，避免早期终止
            tracking_sigma = 0.25  # 跟踪奖励的衰减参数
            soft_dof_vel_limit = 1.  # 关节速度软限制
            soft_torque_limit = 1.  # 扭矩软限制
            max_contact_force = 100.  # 最大接触力阈值

def _prepare_reward_function(self):
    """准备奖励函数列表，查找所有非零权重的奖励函数"""
    # 移除零权重项，并将非零权重乘以时间步长
    for key in list(self.reward_scales.keys()):
        scale = self.reward_scales[key]
        if scale == 0:
            self.reward_scales.pop(key)  # 移除零权重项
        else:
            self.reward_scales[key] *= self.dt  # 转换为每秒奖励
    # 构建函数列表
    self.reward_functions = []
    self.reward_names = []
    for name, scale in self.reward_scales.items():
        if name == "termination":
            continue  # 终止奖励单独处理
        self.reward_names.append(name)
        function_name = '_reward_' + name
        self.reward_functions.append(getattr(self, function_name))
    # 初始化累积奖励记录
    self.episode_sums = {
        name: torch.zeros(self.num_envs, dtype=torch.float, device=self.device, requires_grad=False)
        for name in self.reward_scales.keys()
    }

def compute_reward(self):
    """计算总奖励，调用所有非零权重的奖励函数"""
    self.rew_buf[:] = 0.  # 初始化奖励缓冲区
    # 计算各项奖励
    for i in range(len(self.reward_functions)):
        name = self.reward_names[i]
        rew = self.reward_functions[i]() * self.reward_scales[name]
        self.rew_buf += rew
        self.episode_sums[name] += rew
    # 可选：限制负奖励
    if self.cfg.rewards.only_positive_rewards:
        self.rew_buf[:] = torch.clip(self.rew_buf[:], min=0.)
    # 单独处理终止奖励
    if "termination" in self.reward_scales:
        rew = self._reward_termination() * self.reward_scales["termination"]
        self.rew_buf += rew
        self.episode_sums["termination"] += rew

def _reward_tracking_lin_vel(self):
    """线速度跟踪奖励 - 鼓励机器人按指令移动"""
    lin_vel_error = torch.sum(torch.square(
        self.commands[:, :2] - self.base_lin_vel[:, :2]), dim=1)
    return torch.exp(-lin_vel_error / self.cfg.rewards.tracking_sigma)

def _reward_tracking_ang_vel(self):
    """角速度跟踪奖励 - 鼓励机器人按指令转向"""
    ang_vel_error = torch.square(
        self.commands[:, 2] - self.base_ang_vel[:, 2])
    return torch.exp(-ang_vel_error / self.cfg.rewards.tracking_sigma)

def _reward_orientation(self):
    """姿态稳定性奖励 - 惩罚身体倾斜"""
    return torch.sum(torch.square(self.projected_gravity[:, :2]), dim=1)

def _reward_base_height(self):
    """高度控制奖励 - 保持目标高度"""
    base_height = self.root_states[:, 2]
    return torch.square(base_height - self.cfg.rewards.base_height_target)

def _reward_action_rate(self):
    """动作变化率惩罚 - 鼓励平滑控制"""
    return torch.sum(torch.square(self.last_actions - self.actions), dim=1)

def _reward_dof_acc(self):
    """关节加速度惩罚 - 避免剧烈动作"""
    return torch.sum(torch.square((self.last_dof_vel - self.dof_vel) / self.dt), dim=1)

宇树 G1 机器人强化学习训练实战：环境配置与奖励函数

0. 前言

1. 强化学习训练环境配置

1.1 基础环境搭建

1.2 G1 机器人 12 自由度配置解析

更多推荐文章

相关免费在线工具

2. 扩展到 23 自由度模型

2.1 高自由度模型的挑战

2.2 创建 23 自由度配置

2.3 观测维度的重新计算

2.4 控制参数配置

2.5 资源文件更新

3. 奖励函数架构深度解析

3.1 奖励函数的核心作用

3.2 G1 机器人奖励函数配置详解

3.3 奖励函数的初始化机制

3.4 奖励计算的执行机制

3.5 核心奖励函数解析

更多推荐文章

相关免费在线工具

宇树 G1 机器人强化学习训练实战：环境配置与奖励函数

0. 前言

1. 强化学习训练环境配置

1.1 基础环境搭建

1.2 G1 机器人 12 自由度配置解析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 扩展到 23 自由度模型

2.1 高自由度模型的挑战

2.2 创建 23 自由度配置

2.3 观测维度的重新计算

2.4 控制参数配置

2.5 资源文件更新

3. 奖励函数架构深度解析

3.1 奖励函数的核心作用

3.2 G1 机器人奖励函数配置详解

3.3 奖励函数的初始化机制

3.4 奖励计算的执行机制

3.5 核心奖励函数解析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具