Isaac Lab 机器人强化学习实战：配置架构、机器人添加流程与调参技巧 | 极客日志

PythonAI算法

Isaac Lab 机器人强化学习实战：配置架构、机器人添加流程与调参技巧

综述由AI生成Isaac Lab 机器人强化学习实战涵盖配置架构、机器人添加流程与调参技巧。文章解析了 Robot Lab 基于 Isaac Sim 的分层设计，详解配置继承体系、环境模块及 Agent 配置。提供 Unitree G1、Go2 等机器人集成步骤，并针对四足、人形、轮式机器人给出奖励函数权重调整策略与常见问题诊断方法。

奶糖兔发布于 2026/3/22更新于 2026/6/227 浏览

前言

Robot Lab 是基于 NVIDIA Isaac Lab 构建的机器人强化学习扩展库，专注于足式机器人的运动控制任务。该项目目前已支持包括 Unitree Go2、G1、H1 在内的十余款主流机器人平台。与原生 Isaac Lab 相比，Robot Lab 提供了更加完善的奖励函数库、域随机化配置以及针对不同机器人形态优化的训练参数。

在深入技术细节之前，有必要先理解 Isaac Lab 的基本架构。Isaac Lab 构建于 Isaac Sim 之上，采用分层设计：最底层是 Omniverse 渲染引擎与 PhysX 物理引擎，中间层是 Isaac Sim 提供的机器人仿真接口，最上层则是 Isaac Lab 封装的强化学习环境。Robot Lab 在此基础上进一步抽象，将运动控制任务的通用配置提取为基类，使得添加新机器人变得简单高效。

1. 配置继承体系解析

1.1 整体架构概览

Robot Lab 的环境配置采用面向对象的继承体系，这一设计决策源于对机器人强化学习任务共性的深刻理解。无论是四足机器人、人形机器人还是轮式机器人，其速度跟踪任务都包含相似的核心组件：观测空间定义、动作空间设计、奖励函数构建等。将这些共性抽象为基类，可以显著减少重复代码，同时保持各机器人配置的独立性与可维护性。

以 Unitree G1 人形机器人为例，其配置继承链如下图所示：（图：配置继承链示意图）

继承链从 Isaac Lab 的 ManagerBasedRLEnvCfg 基类开始，该类定义了强化学习环境的基本框架。Robot Lab 在此基础上派生出 LocomotionVelocityRoughEnvCfg，封装了运动控制任务的通用配置。针对具体机器人，如 G1，则进一步派生出粗糙地形配置 UnitreeG1RoughEnvCfg，最后是针对平地训练的简化配置 UnitreeG1FlatEnvCfg。

这种多层继承结构带来三个核心优势。首先是代码复用：基类中定义的 30 余个奖励项、8 种域随机化事件、多组传感器配置等均可被所有子类继承，无需重复编写。其次是灵活定制：每个机器人可以通过 __post_init__ 方法选择性地覆盖父类参数，例如 G1 需要启用摔倒惩罚而四足机器人可能不需要。最后是易于维护：当基类的奖励函数实现优化后，所有子类自动受益，无需逐一修改。

1.2 基类详解：LocomotionVelocityRoughEnvCfg

LocomotionVelocityRoughEnvCfg 是 Robot Lab 运动控制任务的核心基类，位于 velocity_env_cfg.py 文件中。该类定义了构成马尔可夫决策过程（MDP）的全部要素，包括状态空间、动作空间、奖励函数、状态转移规则等。理解这个基类的设计，是掌握整个 Robot Lab 配置体系的关键。

（图：基类结构图）

基类的核心结构如下，包含 8 个配置模块：

@configclass
class LocomotionVelocityRoughEnvCfg(ManagerBasedRLEnvCfg):
    """运动速度跟踪环境配置基类"""
    # 场景配置：定义物理世界
    scene: MySceneCfg = MySceneCfg(num_envs=4096, env_spacing=2.5)
    # MDP 输入配置
    observations: ObservationsCfg = ObservationsCfg()
    actions: ActionsCfg = ActionsCfg()
    commands: CommandsCfg = CommandsCfg()
    # MDP 训练配置
    rewards: RewardsCfg = RewardsCfg()
    terminations: TerminationsCfg = TerminationsCfg()
    events: EventCfg = EventCfg()
    curriculum: CurriculumCfg = CurriculumCfg()

这 8 个模块可以分为两类：输入配置（Scene、Commands、Actions、Observations）定义了智能体与环境的交互接口；训练配置（Rewards、Terminations、Events、Curriculum）则控制训练过程的行为。以下逐一详解各模块的设计原理与关键参数。

1.2.1 场景配置 (MySceneCfg)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

@configclass
class MySceneCfg(InteractiveSceneCfg):
    """场景配置：定义地形、机器人、传感器"""
    # 地形配置
    terrain = TerrainImporterCfg(
        prim_path="/World/ground",
        terrain_type="generator",
        terrain_generator=ROUGH_TERRAINS_CFG,
        max_init_terrain_level=5,
        collision_group=-1,
        physics_material=sim_utils.RigidBodyMaterialCfg(
            friction_combine_mode="multiply",
            static_friction=1.0,
            dynamic_friction=1.0,
        ),
    )
    # 机器人配置（由子类具体指定）
    robot: ArticulationCfg = MISSING
    # 高度扫描传感器：用于感知前方地形起伏
    height_scanner = RayCasterCfg(
        prim_path="{ENV_REGEX_NS}/Robot/base",
        offset=RayCasterCfg.OffsetCfg(pos=(0.0,0.0,20.0)),
        pattern_cfg=patterns.GridPatternCfg(resolution=0.1, size=[1.6,1.0]),
        mesh_prim_paths=["/World/ground"],
    )
    # 接触力传感器：检测机器人与环境的接触
    contact_forces = ContactSensorCfg(
        prim_path="{ENV_REGEX_NS}/Robot/.*",
        history_length=3,
        track_air_time=True,
    )

@configclass
class CommandsCfg:
    """命令配置：定义目标速度的采样范围与重采样策略"""
    base_velocity = mdp.UniformThresholdVelocityCommandCfg(
        asset_name="robot",
        resampling_time_range=(10.0,10.0),
        rel_standing_envs=0.02,
        rel_heading_envs=1.0,
        heading_command=True,
        heading_control_stiffness=0.5,
        ranges=mdp.UniformThresholdVelocityCommandCfg.Ranges(
            lin_vel_x=(-1.0,1.0),
            lin_vel_y=(-1.0,1.0),
            ang_vel_z=(-1.0,1.0),
            heading=(-math.pi, math.pi),
        ),
    )

@configclass
class ActionsCfg:
    """动作配置：定义策略输出到关节控制的映射"""
    joint_pos = mdp.JointPositionActionCfg(
        asset_name="robot",
        joint_names=[".*"],
        scale=0.5,
        use_default_offset=True,
        clip=None,
        preserve_order=True,
    )

# 轮式机器人的混合动作配置
@configclass
class UnitreeGo2WActionsCfg(ActionsCfg):
    # 腿部关节：位置控制
    joint_pos = mdp.JointPositionActionCfg(
        joint_names=[".*_hip_joint",".*_thigh_joint",".*_calf_joint"],
        scale=0.25,
    )
    # 轮子关节：速度控制
    joint_vel = mdp.JointVelocityActionCfg(
        joint_names=[".*_foot_joint"],
        scale=5.0,
    )

@configclass
class ObservationsCfg:
    """观测配置：定义策略和评论家的输入"""
    @configclass
class PolicyCfg(ObsGroup):
        """策略网络观测组 - 带噪声以模拟真实传感器"""
        base_lin_vel = ObsTerm(
            func=mdp.base_lin_vel,
            noise=Unoise(n_min=-0.1, n_max=0.1),
            clip=(-100.0,100.0),
            scale=1.0,
        )
        base_ang_vel = ObsTerm(
            func=mdp.base_ang_vel,
            noise=Unoise(n_min=-0.2, n_max=0.2),
        )
        projected_gravity = ObsTerm(
            func=mdp.projected_gravity,
            noise=Unoise(n_min=-0.05, n_max=0.05),
        )
        velocity_commands = ObsTerm(func=mdp.generated_commands)
        joint_pos = ObsTerm(func=mdp.joint_pos_rel, noise=Unoise(n_min=-0.01, n_max=0.01))
        joint_vel = ObsTerm(func=mdp.joint_vel_rel, noise=Unoise(n_min=-1.5, n_max=1.5))
        actions = ObsTerm(func=mdp.last_action)
        height_scan = ObsTerm(func=mdp.height_scan, noise=Unoise(n_min=-0.1, n_max=0.1))
    
    def __post_init__(self):
        self.enable_corruption = True
        self.concatenate_terms = True

    @configclass
class CriticCfg(ObsGroup):
        """评论家网络观测组 - 无噪声的特权信息"""
        # 与 PolicyCfg 相同的观测项，但不添加噪声
        pass

    policy: PolicyCfg = PolicyCfg()
    critic: CriticCfg = CriticCfg()

@configclass
class EventCfg:
    """事件配置：定义域随机化策略"""
    # startup 事件：每个仿真会话执行一次
    randomize_rigid_body_material = EventTerm(
        func=mdp.randomize_rigid_body_material,
        mode="startup",
        params={"asset_cfg": SceneEntityCfg("robot", body_names=".*"),
                "static_friction_range":(0.3,1.0),
                "dynamic_friction_range":(0.3,0.8),
                "restitution_range":(0.0,0.5),
                "num_buckets":64},
    )
    # reset 事件：每个 episode 开始时执行
    randomize_actuator_gains = EventTerm(
        func=mdp.randomize_actuator_gains,
        mode="reset",
        params={"asset_cfg": SceneEntityCfg("robot", joint_names=".*"),
                "stiffness_distribution_params":(0.5,2.0),
                "damping_distribution_params":(0.5,2.0),
                "operation":"scale",},
    )
    # interval 事件：episode 进行中周期执行
    randomize_push_robot = EventTerm(
        func=mdp.push_by_setting_velocity,
        mode="interval",
        interval_range_s=(10.0,15.0),
        params={"velocity_range":{"x":(-0.5,0.5),"y":(-0.5,0.5)}},
    )

@configclass
class RewardsCfg:
    """奖励配置：定义强化学习的目标函数"""
    # 核心任务奖励
    track_lin_vel_xy_exp = RewTerm(
        func=mdp.track_lin_vel_xy_exp,
        weight=0.0,
        params={"command_name":"base_velocity","std": math.sqrt(0.25)},
    )
    track_ang_vel_z_exp = RewTerm(
        func=mdp.track_ang_vel_z_exp,
        weight=0.0,
        params={"command_name":"base_velocity","std": math.sqrt(0.25)},
    )
    # 基座稳定性惩罚
    lin_vel_z_l2 = RewTerm(func=mdp.lin_vel_z_l2, weight=0.0)
    ang_vel_xy_l2 = RewTerm(func=mdp.ang_vel_xy_l2, weight=0.0)
    flat_orientation_l2 = RewTerm(func=mdp.flat_orientation_l2, weight=0.0)
    # 能耗与平滑性惩罚
    joint_torques_l2 = RewTerm(func=mdp.joint_torques_l2, weight=0.0)
    joint_acc_l2 = RewTerm(func=mdp.joint_acc_l2, weight=0.0)
    action_rate_l2 = RewTerm(func=mdp.action_rate_l2, weight=0.0)
    joint_power = RewTerm(func=mdp.joint_power, weight=0.0)
    # 步态相关奖励
    feet_air_time = RewTerm(func=mdp.feet_air_time, weight=0.0)
    feet_gait = RewTerm(func=mdp.GaitReward, weight=0.0)
    feet_slide = RewTerm(func=mdp.feet_slide, weight=0.0)
    feet_stumble = RewTerm(func=mdp.feet_stumble, weight=0.0)
    # 安全与约束
    joint_pos_limits = RewTerm(func=mdp.joint_pos_limits, weight=0.0)
    undesired_contacts = RewTerm(func=mdp.undesired_contacts, weight=0.0)
    is_terminated = RewTerm(func=mdp.is_terminated, weight=0.0)

@configclass
class TerminationsCfg:
    """终止条件配置"""
    time_out = DoneTerm(func=mdp.time_out, time_out=True)
    terrain_out_of_bounds = DoneTerm(
        func=mdp.terrain_out_of_bounds,
        params={"asset_cfg": SceneEntityCfg("robot"),"distance_buffer":3.0},
        time_out=True,
    )
    illegal_contact = DoneTerm(
        func=mdp.illegal_contact,
        params={"sensor_cfg": SceneEntityCfg("contact_forces", body_names=""),"threshold":1.0},
    )

@configclass
class CurriculumCfg:
    """课程学习配置"""
    terrain_levels = CurrTerm(func=mdp.terrain_levels_vel)
    command_levels_lin_vel = CurrTerm(
        func=mdp.command_levels_lin_vel,
        params={"reward_term_name":"track_lin_vel_xy_exp","range_multiplier":(0.1,1.0)},
    )
    command_levels_ang_vel = CurrTerm(
        func=mdp.command_levels_ang_vel,
        params={"reward_term_name":"track_ang_vel_z_exp","range_multiplier":(0.1,1.0)},
    )

@configclass
class UnitreeG1RoughEnvCfg(LocomotionVelocityRoughEnvCfg):
    """Unitree G1 人形机器人粗糙地形环境配置"""
    base_link_name = "torso_link"
    foot_link_name = ".*_ankle_roll_link"

    def __post_init__(self):
        super().__post_init__()
        # 场景配置
        self.scene.robot = UNITREE_G1_29DOF_CFG.replace(prim_path="{ENV_REGEX_NS}/Robot")
        self.scene.height_scanner.prim_path = "{ENV_REGEX_NS}/Robot/" + self.base_link_name
        # 观测配置
        self.observations.policy.base_lin_vel.scale = 2.0
        self.observations.policy.base_ang_vel.scale = 0.25
        self.observations.policy.joint_vel.scale = 0.05
        self.observations.policy.base_lin_vel = None
        self.observations.policy.height_scan = None
        # 动作配置
        self.actions.joint_pos.scale = UNITREE_G1_29DOF_ACTION_SCALE
        # 奖励配置
        self.rewards.is_terminated.weight = -200.0
        self.rewards.track_lin_vel_xy_exp.weight = 3.0
        self.rewards.track_lin_vel_xy_exp.func = mdp.track_lin_vel_xy_yaw_frame_exp
        self.rewards.track_ang_vel_z_exp.weight = 3.0
        self.rewards.ang_vel_xy_l2.weight = -0.1
        self.rewards.flat_orientation_l2.weight = -0.2
        self.rewards.joint_torques_l2.weight = -1.5e-7
        self.rewards.joint_acc_l2.weight = -1.25e-7
        self.rewards.action_rate_l2.weight = -0.005
        self.rewards.feet_air_time.weight = 0.25
        self.rewards.feet_air_time.func = mdp.feet_air_time_positive_biped
        self.rewards.feet_slide.weight = -0.2
        self.rewards.upward.weight = 1.0
        if self.__class__.__name__ == "UnitreeG1RoughEnvCfg":
            self.disable_zero_weight_rewards()
        # 课程学习配置
        self.curriculum.terrain_levels = None
        self.curriculum.command_levels_lin_vel = None
        self.curriculum.command_levels_ang_vel = None

@configclass
class UnitreeG1FlatEnvCfg(UnitreeG1RoughEnvCfg):
    def __post_init__(self):
        super().__post_init__()
        self.scene.terrain.terrain_type = "plane"
        self.scene.terrain.terrain_generator = None
        self.scene.height_scanner = None
        self.observations.policy.height_scan = None
        self.curriculum.terrain_levels = None
        self.rewards.track_ang_vel_z_exp.weight = 1.0

@configclass
class UnitreeG1RoughPPORunnerCfg(RslRlOnPolicyRunnerCfg):
    num_steps_per_env = 24
    max_iterations = 20000
    save_interval = 200
    experiment_name = "unitree_g1_rough"
    policy = RslRlPpoActorCriticCfg(
        init_noise_std=1.0,
        actor_obs_normalization=False,
        critic_obs_normalization=False,
        actor_hidden_dims=[512,256,128],
        critic_hidden_dims=[512,256,128],
        activation="elu",
    )
    algorithm = RslRlPpoAlgorithmCfg(
        value_loss_coef=1.0,
        use_clipped_value_loss=True,
        clip_param=0.2,
        entropy_coef=0.008,
        num_learning_epochs=5,
        num_mini_batches=4,
        learning_rate=1.0e-3,
        schedule="adaptive",
        gamma=0.99,
        lam=0.95,
        desired_kl=0.01,
        max_grad_norm=1.0,
    )

参数	默认值	说明
`num_steps_per_env`	24	每个环境在一次更新中采样的步数
`actor_hidden_dims`	[512, 256, 128]	Actor 网络架构
`clip_param`	0.2	PPO 裁剪范围
`entropy_coef`	0.008-0.01	熵系数
`gamma`	0.99	折扣因子
`lam`	0.95	GAE 参数
`desired_kl`	0.01	目标 KL 散度

参数	G1 (人形)	GO2 (四足)	Agibot D1
`max_iterations`	20000	20000	20000
`entropy_coef`	0.008	0.01	0.01
`save_interval`	200	100	100

robot_lab/
├── assets/
│   └── agibot.py
└── tasks/manager_based/locomotion/velocity/config/quadruped/agibot_d1/
    ├── __init__.py
    ├── rough_env_cfg.py
    ├── flat_env_cfg.py
    └── agents/
        ├── __init__.py
        ├── rsl_rl_ppo_cfg.py
        └── cusrl_ppo_cfg.py

import isaaclab.sim as sim_utils
from isaaclab.actuators import DCMotorCfg
from isaaclab.assets.articulation import ArticulationCfg
from robot_lab.assets import ISAACLAB_ASSETS_DATA_DIR

AGIBOT_D1_CFG = ArticulationCfg(
    spawn=sim_utils.UrdfFileCfg(
        fix_base=False,
        merge_fixed_joints=True,
        asset_path=f"{ISAACLAB_ASSETS_DATA_DIR}/Robots/agibot/d1/urdf/edu.urdf",
        activate_contact_sensors=True,
        rigid_props=sim_utils.RigidBodyPropertiesCfg(
            disable_gravity=False,
            max_linear_velocity=1000.0,
            max_angular_velocity=1000.0,
        ),
        articulation_props=sim_utils.ArticulationRootPropertiesCfg(
            enabled_self_collisions=False,
            solver_position_iteration_count=4,
        ),
    ),
    init_state=ArticulationCfg.InitialStateCfg(
        pos=(0.0,0.0,0.42),
        joint_pos={".*L_ABAD_JOINT":0.0,".*R_ABAD_JOINT":0.0,"F.*_HIP_JOINT":0.8,"R.*_HIP_JOINT":0.8,".*_KNEE_JOINT":-1.5},
        joint_vel={".*":0.0},
    ),
    actuators={"legs": DCMotorCfg(
        joint_names_expr=[".*_(ABAD|HIP|KNEE)_JOINT"],
        effort_limit=33.5,
        saturation_effort=33.5,
        velocity_limit=21.0,
        stiffness=20.0,
        damping=0.5,
    ),},
)

from isaaclab.utils import configclass
from isaaclab_rl.rsl_rl import RslRlOnPolicyRunnerCfg, RslRlPpoActorCriticCfg, RslRlPpoAlgorithmCfg

@configclass
class AgibotD1RoughPPORunnerCfg(RslRlOnPolicyRunnerCfg):
    num_steps_per_env = 24
    max_iterations = 20000
    save_interval = 100
    experiment_name = "agibot_d1_rough"
    policy = RslRlPpoActorCriticCfg(
        init_noise_std=1.0,
        actor_hidden_dims=[512,256,128],
        critic_hidden_dims=[512,256,128],
        activation="elu",
    )
    algorithm = RslRlPpoAlgorithmCfg(
        clip_param=0.2,
        entropy_coef=0.01,
        learning_rate=1.0e-3,
        gamma=0.99,
        lam=0.95,
    )

@configclass
class AgibotD1FlatPPORunnerCfg(AgibotD1RoughPPORunnerCfg):
    def __post_init__(self):
        super().__post_init__()
        self.max_iterations = 5000
        self.experiment_name = "agibot_d1_flat"

from isaaclab.utils import configclass
from robot_lab.tasks.manager_based.locomotion.velocity.velocity_env_cfg import LocomotionVelocityRoughEnvCfg
from robot_lab.assets.agibot import AGIBOT_D1_CFG

@configclass
class AgibotD1RoughEnvCfg(LocomotionVelocityRoughEnvCfg):
    base_link_name = "BASE_LINK"
    foot_link_name = ".*_FOOT_LINK"
    joint_names = ["FR_ABAD_JOINT","FR_HIP_JOINT","FR_KNEE_JOINT","FL_ABAD_JOINT","FL_HIP_JOINT","FL_KNEE_JOINT","RR_ABAD_JOINT","RR_HIP_JOINT","RR_KNEE_JOINT","RL_ABAD_JOINT","RL_HIP_JOINT","RL_KNEE_JOINT"]

    def __post_init__(self):
        super().__post_init__()
        self.scene.robot = AGIBOT_D1_CFG.replace(prim_path="{ENV_REGEX_NS}/Robot")
        self.scene.height_scanner.prim_path = "{ENV_REGEX_NS}/Robot/" + self.base_link_name
        self.observations.policy.base_lin_vel.scale = 2.0
        self.observations.policy.base_ang_vel.scale = 0.25
        self.observations.policy.base_lin_vel = None
        self.observations.policy.height_scan = None
        self.observations.policy.joint_pos.params["asset_cfg"].joint_names = self.joint_names
        self.actions.joint_pos.scale = {".*_ABAD_JOINT":0.125,"^(?!.*_ABAD_JOINT).*":0.25}
        self.actions.joint_pos.joint_names = self.joint_names
        self.rewards.lin_vel_z_l2.weight = -2.0
        self.rewards.ang_vel_xy_l2.weight = -0.05
        self.rewards.joint_torques_l2.weight = -2.5e-5
        self.rewards.joint_acc_l2.weight = -2.5e-7
        self.rewards.track_lin_vel_xy_exp.weight = 3.0
        self.rewards.track_ang_vel_z_exp.weight = 1.5
        self.rewards.action_rate_l2.weight = -0.01
        self.rewards.feet_height_body.weight = -5.0
        self.rewards.upward.weight = 1.0
        self.rewards.feet_gait.params["synced_feet_pair_names"] = (("FL_FOOT_LINK","RR_FOOT_LINK"),("FR_FOOT_LINK","RL_FOOT_LINK"))
        self.terminations.illegal_contact = None
        if self.__class__.__name__ == "AgibotD1RoughEnvCfg":
            self.disable_zero_weight_rewards()

from isaaclab.utils import configclass
from .rough_env_cfg import AgibotD1RoughEnvCfg

@configclass
class AgibotD1FlatEnvCfg(AgibotD1RoughEnvCfg):
    def __post_init__(self):
        super().__post_init__()
        self.scene.terrain.terrain_type = "plane"
        self.scene.terrain.terrain_generator = None
        self.scene.height_scanner = None
        self.observations.policy.height_scan = None
        self.curriculum.terrain_levels = None
        if self.__class__.__name__ == "AgibotD1FlatEnvCfg":
            self.disable_zero_weight_rewards()

import gymnasium as gym
from . import agents

gym.register(id="RobotLab-Isaac-Velocity-Flat-Agibot-D1-v0", entry_point="isaaclab.envs:ManagerBasedRLEnv", disable_env_checker=True, kwargs={"env_cfg_entry_point":f"{__name__}.flat_env_cfg:AgibotD1FlatEnvCfg","rsl_rl_cfg_entry_point":f"{agents.__name__}.rsl_rl_ppo_cfg:AgibotD1FlatPPORunnerCfg",})

gym.register(id="RobotLab-Isaac-Velocity-Rough-Agibot-D1-v0", entry_point="isaaclab.envs:ManagerBasedRLEnv", disable_env_checker=True, kwargs={"env_cfg_entry_point":f"{__name__}.rough_env_cfg:AgibotD1RoughEnvCfg","rsl_rl_cfg_entry_point":f"{agents.__name__}.rsl_rl_ppo_cfg:AgibotD1RoughPPORunnerCfg",})

奖励项	推荐值	作用
`track_lin_vel_xy_exp`	3.0	线速度跟踪
`track_ang_vel_z_exp`	1.5	角速度跟踪
`lin_vel_z_l2`	-2.0	抑制垂直跳动
`ang_vel_xy_l2`	-0.05	抑制翻滚
`joint_torques_l2`	-2.5e-5	能耗惩罚
`joint_acc_l2`	-2.5e-7	动作平滑
`action_rate_l2`	-0.01	动作变化率
`feet_air_time`	0.1	腾空时间奖励
`feet_gait`	0.5	步态同步
`feet_slide`	-0.1	滑动惩罚
`upward`	1.0	保持直立

奖励项	G1	H1	GR1T2	XBot	说明
`track_lin_vel_xy_exp`	3.0	3.0	5.0	2.0	核心任务奖励
`track_ang_vel_z_exp`	3.0	3.0	5.0	2.0	角速度跟踪
`feet_air_time`	0.25	1.0	1.0	2.0	迈腿奖励
`upward`	1.0	1.0	1.0	0.2	站立奖励
`is_terminated`	-200	-200	-200	-200	摔倒惩罚
`flat_orientation_l2`	-0.2	-0.2	-0.5	0	姿态惩罚
`joint_torques_l2`	-1.5e-7	-1.0e-8	-2.5e-5	-2.5e-5	能耗惩罚
`joint_acc_l2`	-1.25e-7	-2.5e-7	-2.5e-7	-2.5e-7	动作平滑
`action_rate_l2`	-0.005	-0.01	-0.005	-0.01	动作变化率
`feet_slide`	-0.2	-0.4	-0.2	-0.2	滑动惩罚

self.rewards.feet_air_time.func = mdp.feet_air_time_positive_biped
self.rewards.feet_air_time.params["threshold"] = 0.4
self.rewards.track_lin_vel_xy_exp.func = mdp.track_lin_vel_xy_yaw_frame_exp

self.observations.policy.base_lin_vel.scale = 2.0
self.observations.policy.base_ang_vel.scale = 0.25
self.observations.policy.joint_pos.scale = 1.0
self.observations.policy.joint_vel.scale = 0.05

self.actions.joint_pos.joint_names = self.leg_joint_names
self.actions.joint_vel.joint_names = self.wheel_joint_names
self.rewards.joint_acc_wheel_l2.weight = -2.5e-9

配置项	GO2W (轮式)	GO2 (四足)
`feet_air_time`	0 (禁用)	0.1
`feet_gait`	0 (禁用)	0.5
`feet_slide`	0 (禁用)	-0.1
`base_height_l2.target_height`	0.40	0.33
`joint_acc_wheel_l2`	-2.5e-9	N/A

配置类别	四足机器人	人形机器人	原因
速度跟踪	3.0	3.0-5.0	人形需要更强激励
腾空时间	0.1	0.25-2.0	人形步态关键
腾空函数	`feet_air_time`	`feet_air_time_positive_biped`	双足专用
步态同步	0.5	0（禁用）	人形无对角步态
直立奖励	1.0	1.0-2.0	人形平衡困难
终止惩罚	0	-200	人形摔倒不可恢复
力矩惩罚	-2.5e-5	-1.5e-7	人形需要更大力矩
地形课程	启用	禁用	人形初期无法应对复杂地形
训练步数	200k	500k-1M	人形收敛慢

指标模式	可能问题	解决方向
Mean Reward 不增长	策略困在局部最优	增大探索或调整奖励权重
Episode Length 很短	机器人频繁摔倒	增大 `is_terminated` 惩罚
Episode Length 满值但 Reward 低	机器人站着不动	增大 `feet_air_time`、`track_lin_vel`
track_lin_vel 奖励为 0	没有速度跟踪	检查命令配置
feet_air_time 奖励为 0	没有迈腿	检查函数是否正确
joint_torques 惩罚很大	力矩输出过高	检查执行器配置

def __post_init__(self):
    super().__post_init__()
    self.rewards.track_lin_vel_xy_exp.weight = 3.0
    self.rewards.track_lin_vel_xy_exp.func = mdp.track_lin_vel_xy_yaw_frame_exp
    self.rewards.track_ang_vel_z_exp.weight = 3.0
    self.rewards.feet_air_time.weight = 1.0
    self.rewards.feet_air_time.func = mdp.feet_air_time_positive_biped
    self.rewards.feet_air_time.params["threshold"] = 0.4
    self.rewards.upward.weight = 1.0
    self.rewards.is_terminated.weight = -200.0
    self.rewards.flat_orientation_l2.weight = -0.2
    self.rewards.ang_vel_xy_l2.weight = -0.1
    self.rewards.joint_torques_l2.weight = -1.5e-7
    self.rewards.joint_acc_l2.weight = -1.25e-7
    self.rewards.action_rate_l2.weight = -0.005
    self.rewards.feet_slide.weight = -0.2
    self.curriculum.terrain_levels = None
    self.curriculum.command_levels_lin_vel = None
    self.curriculum.command_levels_ang_vel = None

def __post_init__(self):
    super().__post_init__()
    self.rewards.track_lin_vel_xy_exp.weight = 3.0
    self.rewards.track_ang_vel_z_exp.weight = 1.5
    self.rewards.feet_air_time.weight = 0.1
    self.rewards.feet_gait.weight = 0.5
    self.rewards.upward.weight = 1.0
    self.rewards.lin_vel_z_l2.weight = -2.0
    self.rewards.ang_vel_xy_l2.weight = -0.05
    self.rewards.joint_torques_l2.weight = -2.5e-5
    self.rewards.joint_acc_l2.weight = -2.5e-7
    self.rewards.action_rate_l2.weight = -0.01
    self.rewards.feet_slide.weight = -0.1
    self.rewards.feet_height_body.weight = -5.0

# RSL-RL 训练 - 粗糙地形
python scripts/reinforcement_learning/rsl_rl/train.py --task=RobotLab-Isaac-Velocity-Rough-Unitree-G1-v0 --headless --num_envs 4096

# RSL-RL 训练 - 平地
python scripts/reinforcement_learning/rsl_rl/train.py --task=RobotLab-Isaac-Velocity-Flat-Unitree-G1-v0 --headless --num_envs 4096

# 从检查点继续训练
python scripts/reinforcement_learning/rsl_rl/train.py --task=RobotLab-Isaac-Velocity-Rough-Unitree-G1-v0 --resume --load_run="2024-01-01_12-00-00"

# 加载训练好的模型进行测试
python scripts/reinforcement_learning/rsl_rl/play.py --task=RobotLab-Isaac-Velocity-Rough-Unitree-G1-v0 --num_envs 16

# 录制视频
python scripts/reinforcement_learning/rsl_rl/play.py --task=RobotLab-Isaac-Velocity-Rough-Unitree-G1-v0 --video --video_length 200

tensorboard --logdir=logs/rsl_rl

Isaac Lab 机器人强化学习实战：配置架构、机器人添加流程与调参技巧

前言

1. 配置继承体系解析

1.1 整体架构概览

1.2 基类详解：LocomotionVelocityRoughEnvCfg

1.2.1 场景配置 (MySceneCfg)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.2.2 命令配置 (CommandsCfg)

1.2.3 动作配置 (ActionsCfg)

1.2.4 观测配置 (ObservationsCfg)

1.2.5 事件配置 (EventCfg) - 域随机化

1.2.6 奖励配置 (RewardsCfg)

1.2.7 终止条件配置 (TerminationsCfg)

1.2.8 课程学习配置 (CurriculumCfg)

1.3 子类配置示例：UnitreeG1RoughEnvCfg

1.4 简化配置：UnitreeG1FlatEnvCfg

2. 强化学习 Agent 配置

2.1 RSL-RL PPO 配置详解

2.2 关键参数说明

2.3 不同机器人的 Agent 配置对比

3. 添加新机器人（以 Agibot 为例）

3.1 完整流程概览

3.2 步骤 1: 创建资产配置

3.3 步骤 2: 创建 RL Agent 配置

3.4 步骤 3: 创建粗糙地形环境配置

3.5 步骤 4: 创建平地环境配置

3.6 步骤 5: 注册 Gym 环境

4. 调参指南

4.1 四足机器人调参（以 GO2 为例）

4.1.1 核心奖励权重

4.1.2 调参技巧

4.2 人形机器人调参（以 G1 为例）

4.2.1 核心奖励权重

4.2.2 人形机器人'坐着不走'问题诊断

4.2.3 人形特殊配置

4.2.4 观测配置对行走的影响

4.2.5 常见问题诊断

4.3 轮式机器人调参（以 GO2W 为例）

4.3.1 特殊配置

4.3.2 核心差异

4.3.3 调参技巧

4.4 综合调参策略与奖励函数设计

4.4.1 奖励函数完整列表

4.4.2 人形 vs 四足 配置差异总结

4.4.3 从 TensorBoard 诊断问题

4.4.4 调参优先级

4.4.5 快速调参模板

5. 训练与测试命令

5.1 训练命令

5.2 测试命令

5.3 TensorBoard 监控

6. 总结

参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4.4.2 人形 vs 四足配置差异总结