Isaac Lab 机器人强化学习：配置架构、添加流程与调参技巧 | 极客日志

Python

Isaac Lab 机器人强化学习：配置架构、添加流程与调参技巧

综述由AI生成前言 Robot Lab 是基于 NVIDIA Isaac Lab 构建的机器人强化学习扩展库，专注于足式机器人的运动控制任务。该项目由 Ziqi Fan 开发维护，目前已支持包括 Unitree Go2、G1、H1 在内的十余款主流机器人平台。与原生 Isaac Lab 相比，Robot Lab 提供了更加完善的奖励函数库、域随机化配置以及针对不同机器人形态优化的训练参数。在深入技术细节之前，…

深海蔚蓝发布于 2026/4/6更新于 2026/5/2915K 浏览

0. 前言

Robot Lab 是基于 NVIDIA Isaac Lab 构建的机器人强化学习扩展库，专注于足式机器人的运动控制任务。该项目由 Ziqi Fan 开发维护，目前已支持包括 Unitree Go2、G1、H1 在内的十余款主流机器人平台。与原生 Isaac Lab 相比，Robot Lab 提供了更加完善的奖励函数库、域随机化配置以及针对不同机器人形态优化的训练参数。

在深入技术细节之前，有必要先理解 Isaac Lab 的基本架构。Isaac Lab 构建于 Isaac Sim 之上，采用分层设计：最底层是 Omniverse 渲染引擎与 PhysX 物理引擎，中间层是 Isaac Sim 提供的机器人仿真接口，最上层则是 Isaac Lab 封装的强化学习环境。Robot Lab 在此基础上进一步抽象，将运动控制任务的通用配置提取为基类，使得添加新机器人变得简单高效。

1. 配置继承体系解析

1.1 整体架构概览

Robot Lab 的环境配置采用面向对象的继承体系，这一设计决策源于对机器人强化学习任务共性的深刻理解。无论是四足机器人、人形机器人还是轮式机器人，其速度跟踪任务都包含相似的核心组件：观测空间定义、动作空间设计、奖励函数构建等。将这些共性抽象为基类，可以显著减少重复代码，同时保持各机器人配置的独立性与可维护性。

继承链从 Isaac Lab 的 ManagerBasedRLEnvCfg 基类开始，该类定义了强化学习环境的基本框架。Robot Lab 在此基础上派生出 LocomotionVelocityRoughEnvCfg，封装了运动控制任务的通用配置。针对具体机器人，如 G1，则进一步派生出粗糙地形配置 UnitreeG1RoughEnvCfg，最后是针对平地训练的简化配置 UnitreeG1FlatEnvCfg。

这种多层继承结构带来三个核心优势。首先是代码复用：基类中定义的 30 余个奖励项、8 种域随机化事件、多组传感器配置等均可被所有子类继承，无需重复编写。其次是灵活定制：每个机器人可以通过 __post_init__ 方法选择性地覆盖父类参数，例如 G1 需要启用摔倒惩罚而四足机器人可能不需要。最后是易于维护：当基类的奖励函数实现优化后，所有子类自动受益，无需逐一修改。

1.2 基类详解：LocomotionVelocityRoughEnvCfg

LocomotionVelocityRoughEnvCfg 是 Robot Lab 运动控制任务的核心基类，位于 velocity_env_cfg.py 文件中。该类定义了构成马尔可夫决策过程（MDP）的全部要素，包括状态空间、动作空间、奖励函数、状态转移规则等。理解这个基类的设计，是掌握整个 Robot Lab 配置体系的关键。

基类的核心结构如下，包含 8 个配置模块：

@configclass
class LocomotionVelocityRoughEnvCfg(ManagerBasedRLEnvCfg):
    """运动速度跟踪环境配置基类"""
    # 场景配置：定义物理世界
    scene: MySceneCfg = MySceneCfg(num_envs=4096, env_spacing=2.5)
    # MDP 输入配置
    observations: ObservationsCfg = ObservationsCfg()
    # 观测空间
    actions: ActionsCfg = ActionsCfg()
    # 动作空间
    commands: CommandsCfg = CommandsCfg()
    # 目标命令
    # MDP 训练配置
    rewards: RewardsCfg = RewardsCfg()
    # 奖励函数
    terminations: TerminationsCfg = TerminationsCfg()
    # 终止条件
    events: EventCfg = EventCfg()
    
    curriculum: CurriculumCfg = CurriculumCfg()

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

@configclass
class MySceneCfg(InteractiveSceneCfg):
    """场景配置：定义地形、机器人、传感器"""
    # 地形配置
    terrain = TerrainImporterCfg(
        prim_path="/World/ground",
        terrain_type="generator",
        # 程序化地形生成
        terrain_generator=ROUGH_TERRAINS_CFG,
        # 使用预定义的粗糙地形配置
        max_init_terrain_level=5,
        # 课程学习的初始最大难度等级
        collision_group=-1,
        # 碰撞组，-1 表示与所有物体碰撞
        physics_material=sim_utils.RigidBodyMaterialCfg(
            friction_combine_mode="multiply",
            # 摩擦力计算采用乘法模式
            static_friction=1.0,
            # 静摩擦系数
            dynamic_friction=1.0,
            # 动摩擦系数
        ),
    )
    # 机器人配置（由子类具体指定）
    robot: ArticulationCfg = MISSING
    # 高度扫描传感器：用于感知前方地形起伏
    height_scanner = RayCasterCfg(
        prim_path="{ENV_REGEX_NS}/Robot/base",
        offset=RayCasterCfg.OffsetCfg(pos=(0.0,0.0,20.0)),
        # 从 20m 高度向下发射射线
        pattern_cfg=patterns.GridPatternCfg(resolution=0.1, size=[1.6,1.0]),
        mesh_prim_paths=["/World/ground"],
    )
    # 接触力传感器：检测机器人与环境的接触
    contact_forces = ContactSensorCfg(
        prim_path="{ENV_REGEX_NS}/Robot/.*",
        # 监测所有机器人部件
        history_length=3,
        # 保存 3 帧历史数据
        track_air_time=True,
        # 追踪腾空时间
    )

@configclass
class CommandsCfg:
    """命令配置：定义目标速度的采样范围与重采样策略"""
    base_velocity = mdp.UniformThresholdVelocityCommandCfg(
        asset_name="robot",
        resampling_time_range=(10.0,10.0),
        # 每 10 秒重新采样一次目标速度
        rel_standing_envs=0.02,
        # 2% 的环境会收到零速度命令（站立）
        rel_heading_envs=1.0,
        # 100% 的环境使用朝向命令模式
        heading_command=True,
        # 启用朝向命令
        heading_control_stiffness=0.5,
        # 朝向控制的刚度参数
        ranges=mdp.UniformThresholdVelocityCommandCfg.Ranges(
            lin_vel_x=(-1.0,1.0),
            # 前后方向线速度范围 [m/s]
            lin_vel_y=(-1.0,1.0),
            # 左右方向线速度范围 [m/s]
            ang_vel_z=(-1.0,1.0),
            # 偏航角速度范围 [rad/s]
            heading=(-math.pi, math.pi),
            # 目标朝向范围 [rad]
        ),
    )

@configclass
class ActionsCfg:
    """动作配置：定义策略输出到关节控制的映射"""
    joint_pos = mdp.JointPositionActionCfg(
        asset_name="robot",
        joint_names=[".*"],
        # 正则表达式匹配所有关节
        scale=0.5,
        # 动作缩放因子
        use_default_offset=True,
        # 使用默认关节位置作为偏移基准
        clip=None,
        # 不对动作进行裁剪
        preserve_order=True,
        # 保持关节的定义顺序
    )

# 轮式机器人的混合动作配置
@configclass
class UnitreeGo2WActionsCfg(ActionsCfg):
    # 腿部关节：位置控制
    joint_pos = mdp.JointPositionActionCfg(
        joint_names=[".*_hip_joint",".*_thigh_joint",".*_calf_joint"],
        scale=0.25,
    )
    # 轮子关节：速度控制
    joint_vel = mdp.JointVelocityActionCfg(
        joint_names=[".*_foot_joint"],
        scale=5.0,
        # 轮子速度控制需要更大的缩放
    )

@configclass
class ObservationsCfg:
    """观测配置：定义策略和评论家的输入"""
    @configclass
class PolicyCfg(ObsGroup):
        """策略网络观测组 - 带噪声以模拟真实传感器"""
        # 基座线速度（机体坐标系）
        base_lin_vel = ObsTerm(
            func=mdp.base_lin_vel,
            noise=Unoise(n_min=-0.1, n_max=0.1),
            # 均匀噪声 ±0.1 m/s
            clip=(-100.0,100.0),
            scale=1.0,
        )
        # 基座角速度
        base_ang_vel = ObsTerm(
            func=mdp.base_ang_vel,
            noise=Unoise(n_min=-0.2, n_max=0.2),
            # 角速度噪声更大
        )
        # 重力投影向量（用于感知姿态倾斜）
        projected_gravity = ObsTerm(
            func=mdp.projected_gravity,
            noise=Unoise(n_min=-0.05, n_max=0.05),
        )
        # 目标速度命令
        velocity_commands = ObsTerm(func=mdp.generated_commands)
        # 关节位置（相对于默认位置）
        joint_pos = ObsTerm(func=mdp.joint_pos_rel, noise=Unoise(n_min=-0.01, n_max=0.01))
        # 关节速度
        joint_vel = ObsTerm(func=mdp.joint_vel_rel, noise=Unoise(n_min=-1.5, n_max=1.5))
        # 上一步动作（提供时序信息）
        actions = ObsTerm(func=mdp.last_action)
        # 高度扫描（地形感知）
        height_scan = ObsTerm(func=mdp.height_scan, noise=Unoise(n_min=-0.1, n_max=0.1))
    
    def __post_init__(self):
        self.enable_corruption = True
        # 启用噪声
        self.concatenate_terms = True
        # 将所有观测项拼接为单一向量

@configclass
class CriticCfg(ObsGroup):
    """评论家网络观测组 - 无噪声的特权信息"""
    # 与 PolicyCfg 相同的观测项，但不添加噪声
    # ... (结构相同，省略噪声参数)
    def __post_init__(self):
        self.enable_corruption = False
        # 不启用噪声

policy: PolicyCfg = PolicyCfg()
critic: CriticCfg = CriticCfg()

@configclass
class EventCfg:
    """事件配置：定义域随机化策略"""
    # ========== startup 事件：每个仿真会话执行一次 ==========
    # 这类事件在整个训练过程中只执行一次，用于设置不会动态变化的参数
    randomize_rigid_body_material = EventTerm(
        func=mdp.randomize_rigid_body_material,
        mode="startup",
        params={
            "asset_cfg": SceneEntityCfg("robot", body_names=".*"),
            "static_friction_range":(0.3,1.0),
            # 静摩擦系数范围
            "dynamic_friction_range":(0.3,0.8),
            # 动摩擦系数范围
            "restitution_range":(0.0,0.5),
            # 弹性恢复系数
            "num_buckets":64,
            # 离散化桶数
        },
    )
    randomize_rigid_body_mass_base = EventTerm(
        func=mdp.randomize_rigid_body_mass,
        mode="startup",
        params={
            "asset_cfg": SceneEntityCfg("robot", body_names="base"),
            "mass_distribution_params":(-1.0,3.0),
            # 质量变化范围 kg
            "operation":"add",
            # 加法操作
            "recompute_inertia":True,
            # 重新计算惯性张量
        },
    )
    # ========== reset 事件：每个 episode 开始时执行 ==========
    # 这类事件在每次环境重置时触发，用于模拟初始条件的不确定性
    randomize_actuator_gains = EventTerm(
        func=mdp.randomize_actuator_gains,
        mode="reset",
        params={
            "asset_cfg": SceneEntityCfg("robot", joint_names=".*"),
            "stiffness_distribution_params":(0.5,2.0),
            # 刚度缩放范围
            "damping_distribution_params":(0.5,2.0),
            # 阻尼缩放范围
            "operation":"scale",
        },
    )
    randomize_reset_base = EventTerm(
        func=mdp.reset_root_state_uniform,
        mode="reset",
        params={
            "pose_range":{"x":(-0.5,0.5),"y":(-0.5,0.5),"yaw":(-3.14,3.14)},
            "velocity_range":{"x":(-0.5,0.5),"y":(-0.5,0.5)},
        },
    )
    # ========== interval 事件：episode 进行中周期执行 ==========
    # 这类事件在 episode 运行过程中按指定间隔触发，模拟外部扰动
    randomize_push_robot = EventTerm(
        func=mdp.push_by_setting_velocity,
        mode="interval",
        interval_range_s=(10.0,15.0),
        # 每 10-15 秒触发一次
        params={
            "velocity_range":{"x":(-0.5,0.5),"y":(-0.5,0.5)},
        },
    )

@configclass
class RewardsCfg:
    """奖励配置：定义强化学习的目标函数"""
    # ==================== 核心任务奖励 ====================
    # 线速度跟踪（指数形式，越接近目标奖励越高）
    track_lin_vel_xy_exp = RewTerm(
        func=mdp.track_lin_vel_xy_exp,
        weight=0.0,
        # 默认禁用，由子类设置具体权重
        params={"command_name":"base_velocity","std": math.sqrt(0.25)},
    )
    # 角速度跟踪
    track_ang_vel_z_exp = RewTerm(
        func=mdp.track_ang_vel_z_exp,
        weight=0.0,
        params={"command_name":"base_velocity","std": math.sqrt(0.25)},
    )
    # ==================== 基座稳定性惩罚 ====================
    lin_vel_z_l2 = RewTerm(func=mdp.lin_vel_z_l2, weight=0.0)
    # 垂直速度
    ang_vel_xy_l2 = RewTerm(func=mdp.ang_vel_xy_l2, weight=0.0)
    # 横滚/俯仰角速度
    flat_orientation_l2 = RewTerm(func=mdp.flat_orientation_l2, weight=0.0)
    # 姿态水平
    # ==================== 能耗与平滑性惩罚 ====================
    joint_torques_l2 = RewTerm(func=mdp.joint_torques_l2, weight=0.0)
    # 关节力矩
    joint_acc_l2 = RewTerm(func=mdp.joint_acc_l2, weight=0.0)
    # 关节加速度
    action_rate_l2 = RewTerm(func=mdp.action_rate_l2, weight=0.0)
    # 动作变化率
    joint_power = RewTerm(func=mdp.joint_power, weight=0.0)
    # 关节功率
    # ==================== 步态相关奖励 ====================
    feet_air_time = RewTerm(func=mdp.feet_air_time, weight=0.0)
    # 腾空时间
    feet_gait = RewTerm(func=mdp.GaitReward, weight=0.0)
    # 步态同步（对角小跑）
    feet_slide = RewTerm(func=mdp.feet_slide, weight=0.0)
    # 滑动惩罚
    feet_stumble = RewTerm(func=mdp.feet_stumble, weight=0.0)
    # 绊倒惩罚
    # ==================== 安全与约束 ====================
    joint_pos_limits = RewTerm(func=mdp.joint_pos_limits, weight=0.0)
    # 关节限位
    undesired_contacts = RewTerm(func=mdp.undesired_contacts, weight=0.0)
    # 非期望接触
    is_terminated = RewTerm(func=mdp.is_terminated, weight=0.0)
    # 终止惩罚

@configclass
class TerminationsCfg:
    """终止条件配置"""
    # 超时终止：达到最大 episode 长度
    time_out = DoneTerm(func=mdp.time_out, time_out=True)
    # 越界终止：机器人离开地形边界
    terrain_out_of_bounds = DoneTerm(
        func=mdp.terrain_out_of_bounds,
        params={"asset_cfg": SceneEntityCfg("robot"),"distance_buffer":3.0},
        time_out=True,
        # 标记为超时而非失败，不影响价值估计
    )
    # 非法接触终止：检测到不期望的接触（如躯干碰地）
    illegal_contact = DoneTerm(
        func=mdp.illegal_contact,
        params={"sensor_cfg": SceneEntityCfg("contact_forces", body_names=""),"threshold":1.0},
    )

@configclass
class CurriculumCfg:
    """课程学习配置"""
    # 地形难度课程：根据表现自动调整地形难度
    terrain_levels = CurrTerm(func=mdp.terrain_levels_vel)
    # 线速度命令课程：逐步增加速度命令范围
    command_levels_lin_vel = CurrTerm(
        func=mdp.command_levels_lin_vel,
        params={"reward_term_name":"track_lin_vel_xy_exp","range_multiplier":(0.1,1.0)},
    )
    # 角速度命令课程
    command_levels_ang_vel = CurrTerm(
        func=mdp.command_levels_ang_vel,
        params={"reward_term_name":"track_ang_vel_z_exp","range_multiplier":(0.1,1.0)},
    )

@configclass
class UnitreeG1RoughEnvCfg(LocomotionVelocityRoughEnvCfg):
    """Unitree G1 人形机器人粗糙地形环境配置"""
    # 机器人结构信息
    base_link_name = "torso_link"
    # 基座链接名称
    foot_link_name = ".*_ankle_roll_link"
    # 足部链接（正则匹配）

    def __post_init__(self):
        # 必须首先调用父类初始化
        super().__post_init__()
        # ==================== 场景配置 ====================
        # 指定机器人资产（29 自由度配置）
        self.scene.robot = UNITREE_G1_29DOF_CFG.replace(prim_path="{ENV_REGEX_NS}/Robot")
        # 配置传感器安装位置
        self.scene.height_scanner.prim_path = "{ENV_REGEX_NS}/Robot/" + self.base_link_name
        # ==================== 观测配置 ====================
        # 调整观测缩放因子（人形机器人的速度范围与四足不同）
        self.observations.policy.base_lin_vel.scale = 2.0
        self.observations.policy.base_ang_vel.scale = 0.25
        self.observations.policy.joint_vel.scale = 0.05
        # 禁用不需要的观测项
        self.observations.policy.base_lin_vel = None
        # G1 不使用线速度观测
        self.observations.policy.height_scan = None
        # 禁用地形扫描
        # ==================== 动作配置 ====================
        # 使用针对 G1 优化的动作缩放参数
        self.actions.joint_pos.scale = UNITREE_G1_29DOF_ACTION_SCALE
        # ==================== 奖励配置（核心定制部分）====================
        # 人形机器人需要强烈惩罚摔倒
        self.rewards.is_terminated.weight = -200.0
        # 速度跟踪奖励
        self.rewards.track_lin_vel_xy_exp.weight = 3.0
        self.rewards.track_lin_vel_xy_exp.func = mdp.track_lin_vel_xy_yaw_frame_exp
        self.rewards.track_ang_vel_z_exp.weight = 3.0
        # 姿态稳定性惩罚（人形机器人更容易翻倒）
        self.rewards.ang_vel_xy_l2.weight = -0.1
        self.rewards.flat_orientation_l2.weight = -0.2
        # 能耗惩罚（人形机器人关节更多，使用更小的系数）
        self.rewards.joint_torques_l2.weight = -1.5e-7
        self.rewards.joint_acc_l2.weight = -1.25e-7
        self.rewards.action_rate_l2.weight = -0.005
        # 步态相关
        self.rewards.feet_air_time.weight = 0.25
        self.rewards.feet_air_time.func = mdp.feet_air_time_positive_biped
        self.rewards.feet_slide.weight = -0.2
        # 保持直立
        self.rewards.upward.weight = 1.0
        # 禁用零权重奖励项以优化性能
        if self.__class__.__name__ == "UnitreeG1RoughEnvCfg":
            self.disable_zero_weight_rewards()
        # ==================== 课程学习配置 ====================
        # 人形机器人训练初期不稳定，禁用地形课程
        self.curriculum.terrain_levels = None
        self.curriculum.command_levels_lin_vel = None
        self.curriculum.command_levels_ang_vel = None

@configclass
class UnitreeG1FlatEnvCfg(UnitreeG1RoughEnvCfg):
    def __post_init__(self):
        super().__post_init__()
        # 改为平地
        self.scene.terrain.terrain_type = "plane"
        self.scene.terrain.terrain_generator = None
        # 禁用高度扫描
        self.scene.height_scanner = None
        self.observations.policy.height_scan = None
        # 禁用地形课程
        self.curriculum.terrain_levels = None
        # 调整奖励权重
        self.rewards.track_ang_vel_z_exp.weight = 1.0

@configclass
class UnitreeG1RoughPPORunnerCfg(RslRlOnPolicyRunnerCfg):
    # ===== 训练控制参数 =====
    num_steps_per_env = 24
    # 每个环境采样步数
    max_iterations = 20000
    # 最大训练迭代次数
    save_interval = 200
    # 模型保存间隔
    experiment_name = "unitree_g1_rough"
    # ===== 网络架构配置 =====
    policy = RslRlPpoActorCriticCfg(
        init_noise_std=1.0,
        # 初始动作噪声标准差
        actor_obs_normalization=False,
        # Actor 观测归一化
        critic_obs_normalization=False,
        # Critic 观测归一化
        actor_hidden_dims=[512,256,128],
        # Actor 网络隐藏层
        critic_hidden_dims=[512,256,128],
        # Critic 网络隐藏层
        activation="elu",
        # 激活函数
    )
    # ===== PPO 算法超参数 =====
    algorithm = RslRlPpoAlgorithmCfg(
        value_loss_coef=1.0,
        # 价值损失系数
        use_clipped_value_loss=True,
        # 使用裁剪价值损失
        clip_param=0.2,
        # PPO 裁剪参数
        entropy_coef=0.008,
        # 熵系数（探索）
        num_learning_epochs=5,
        # 每次更新的 epoch 数
        num_mini_batches=4,
        # mini-batch 数量
        learning_rate=1.0e-3,
        # 学习率
        schedule="adaptive",
        # 学习率调度策略
        gamma=0.99,
        # 折扣因子
        lam=0.95,
        # GAE lambda
        desired_kl=0.01,
        # 目标 KL 散度
        max_grad_norm=1.0,
        # 梯度裁剪
    )

参数	默认值	说明
`num_steps_per_env`	24	每个环境在一次更新中采样的步数
`actor_hidden_dims`	[512, 256, 128]	Actor 网络架构
`clip_param`	0.2	PPO 裁剪范围，防止策略更新过大
`entropy_coef`	0.008-0.01	熵系数，控制探索程度
`gamma`	0.99	折扣因子，决定对未来奖励的重视程度
`lam`	0.95	GAE 参数，平衡偏差和方差
`desired_kl`	0.01	目标 KL 散度，用于自适应学习率

参数	G1 (人形)	GO2 (四足)	Agibot D1
`max_iterations`	20000	20000	20000
`entropy_coef`	0.008	0.01	0.01
`save_interval`	200	100	100

robot_lab/
├── assets/
│   └── agibot.py # 步骤 1: 资产配置
└── tasks/manager_based/locomotion/velocity/config/quadruped/agibot_d1/
    ├── __init__.py # 步骤 5: 环境注册
    ├── rough_env_cfg.py # 步骤 3: 粗糙地形配置
    ├── flat_env_cfg.py # 步骤 4: 平地配置
    └── agents/
        ├── __init__.py
        ├── rsl_rl_ppo_cfg.py # 步骤 2: RL 配置
        └── cusrl_ppo_cfg.py

import isaaclab.sim as sim_utils
from isaaclab.actuators import DCMotorCfg
from isaaclab.assets.articulation import ArticulationCfg
from robot_lab.assets import ISAACLAB_ASSETS_DATA_DIR

AGIBOT_D1_CFG = ArticulationCfg(
    # 模型加载配置
    spawn=sim_utils.UrdfFileCfg(
        fix_base=False,
        # 基座不固定
        merge_fixed_joints=True,
        # 合并固定关节
        asset_path=f"{ISAACLAB_ASSETS_DATA_DIR}/Robots/agibot/d1/urdf/edu.urdf",
        activate_contact_sensors=True,
        # 启用接触传感器
        rigid_props=sim_utils.RigidBodyPropertiesCfg(
            disable_gravity=False,
            max_linear_velocity=1000.0,
            max_angular_velocity=1000.0,
        ),
        articulation_props=sim_utils.ArticulationRootPropertiesCfg(
            enabled_self_collisions=False,
            solver_position_iteration_count=4,
        ),
    ),
    # 初始状态配置
    init_state=ArticulationCfg.InitialStateCfg(
        pos=(0.0,0.0,0.42),
        # 初始位置 (x, y, z)
        joint_pos={
            ".*L_ABAD_JOINT":0.0,
            # 左侧外展关节
            ".*R_ABAD_JOINT":0.0,
            # 右侧外展关节
            "F.*_HIP_JOINT":0.8,
            # 前腿髋关节
            "R.*_HIP_JOINT":0.8,
            # 后腿髋关节
            ".*_KNEE_JOINT":-1.5,
            # 膝关节
        },
        joint_vel={".*":0.0},
        # 初始速度为 0
    ),
    # 执行器配置
    actuators={"legs": DCMotorCfg(
        joint_names_expr=[".*_(ABAD|HIP|KNEE)_JOINT"],
        effort_limit=33.5,
        # 力矩限制 Nm
        saturation_effort=33.5,
        # 饱和力矩
        velocity_limit=21.0,
        # 速度限制 rad/s
        stiffness=20.0,
        # PD 控制刚度
        damping=0.5,
        # PD 控制阻尼
    ),},
)

from isaaclab.utils import configclass
from isaaclab_rl.rsl_rl import RslRlOnPolicyRunnerCfg, RslRlPpoActorCriticCfg, RslRlPpoAlgorithmCfg

@configclass
class AgibotD1RoughPPORunnerCfg(RslRlOnPolicyRunnerCfg):
    num_steps_per_env = 24
    max_iterations = 20000
    save_interval = 100
    experiment_name = "agibot_d1_rough"
    policy = RslRlPpoActorCriticCfg(
        init_noise_std=1.0,
        actor_hidden_dims=[512,256,128],
        critic_hidden_dims=[512,256,128],
        activation="elu",
    )
    algorithm = RslRlPpoAlgorithmCfg(
        clip_param=0.2,
        entropy_coef=0.01,
        learning_rate=1.0e-3,
        gamma=0.99,
        lam=0.95,
    )

@configclass
class AgibotD1FlatPPORunnerCfg(AgibotD1RoughPPORunnerCfg):
    def __post_init__(self):
        super().__post_init__()
        self.max_iterations = 5000
        self.experiment_name = "agibot_d1_flat"

from isaaclab.utils import configclass
from robot_lab.tasks.manager_based.locomotion.velocity.velocity_env_cfg import LocomotionVelocityRoughEnvCfg
from robot_lab.assets.agibot import AGIBOT_D1_CFG

@configclass
class AgibotD1RoughEnvCfg(LocomotionVelocityRoughEnvCfg):
    # 机器人特定参数
    base_link_name = "BASE_LINK"
    foot_link_name = ".*_FOOT_LINK"
    joint_names = [
        "FR_ABAD_JOINT","FR_HIP_JOINT","FR_KNEE_JOINT",
        "FL_ABAD_JOINT","FL_HIP_JOINT","FL_KNEE_JOINT",
        "RR_ABAD_JOINT","RR_HIP_JOINT","RR_KNEE_JOINT",
        "RL_ABAD_JOINT","RL_HIP_JOINT","RL_KNEE_JOINT",
    ]

    def __post_init__(self):
        super().__post_init__()
        # === 场景配置 ===
        self.scene.robot = AGIBOT_D1_CFG.replace(prim_path="{ENV_REGEX_NS}/Robot")
        self.scene.height_scanner.prim_path = "{ENV_REGEX_NS}/Robot/" + self.base_link_name
        # === 观测配置 ===
        self.observations.policy.base_lin_vel.scale = 2.0
        self.observations.policy.base_ang_vel.scale = 0.25
        self.observations.policy.base_lin_vel = None
        self.observations.policy.height_scan = None
        self.observations.policy.joint_pos.params["asset_cfg"].joint_names = self.joint_names
        # === 动作配置 ===
        self.actions.joint_pos.scale = {
            ".*_ABAD_JOINT":0.125,
            "^(?!.*_ABAD_JOINT).*":0.25
        }
        self.actions.joint_pos.joint_names = self.joint_names
        # === 奖励配置 ===
        self.rewards.lin_vel_z_l2.weight = -2.0
        self.rewards.ang_vel_xy_l2.weight = -0.05
        self.rewards.joint_torques_l2.weight = -2.5e-5
        self.rewards.joint_acc_l2.weight = -2.5e-7
        self.rewards.track_lin_vel_xy_exp.weight = 3.0
        self.rewards.track_ang_vel_z_exp.weight = 1.5
        self.rewards.action_rate_l2.weight = -0.01
        self.rewards.feet_height_body.weight = -5.0
        self.rewards.upward.weight = 1.0
        # 步态配置
        self.rewards.feet_gait.params["synced_feet_pair_names"] = (
            ("FL_FOOT_LINK","RR_FOOT_LINK"),
            ("FR_FOOT_LINK","RL_FOOT_LINK"),
        )
        # === 终止条件 ===
        self.terminations.illegal_contact = None
        # 禁用零权重奖励
        if self.__class__.__name__ == "AgibotD1RoughEnvCfg":
            self.disable_zero_weight_rewards()

from isaaclab.utils import configclass
from .rough_env_cfg import AgibotD1RoughEnvCfg

@configclass
class AgibotD1FlatEnvCfg(AgibotD1RoughEnvCfg):
    def __post_init__(self):
        super().__post_init__()
        # 改为平地
        self.scene.terrain.terrain_type = "plane"
        self.scene.terrain.terrain_generator = None
        # 禁用高度扫描和地形课程
        self.scene.height_scanner = None
        self.observations.policy.height_scan = None
        self.curriculum.terrain_levels = None
        if self.__class__.__name__ == "AgibotD1FlatEnvCfg":
            self.disable_zero_weight_rewards()

import gymnasium as gym
from . import agents

# 注册平地环境
gym.register(
    id="RobotLab-Isaac-Velocity-Flat-Agibot-D1-v0",
    entry_point="isaaclab.envs:ManagerBasedRLEnv",
    disable_env_checker=True,
    kwargs={
        "env_cfg_entry_point":f"{__name__}.flat_env_cfg:AgibotD1FlatEnvCfg",
        "rsl_rl_cfg_entry_point":f"{agents.__name__}.rsl_rl_ppo_cfg:AgibotD1FlatPPORunnerCfg",
    },
)

# 注册粗糙地形环境
gym.register(
    id="RobotLab-Isaac-Velocity-Rough-Agibot-D1-v0",
    entry_point="isaaclab.envs:ManagerBasedRLEnv",
    disable_env_checker=True,
    kwargs={
        "env_cfg_entry_point":f"{__name__}.rough_env_cfg:AgibotD1RoughEnvCfg",
        "rsl_rl_cfg_entry_point":f"{agents.__name__}.rsl_rl_ppo_cfg:AgibotD1RoughPPORunnerCfg",
    },
)

python -c "import gymnasium as gym; print([e for e in gym.envs.registry if 'Agibot' in e])"

类型	支持的机器人
人形机器人	Unitree G1、Unitree H1、FFTAI GR1T1/GR1T2、Magiclab MagicBot Gen1/Z1、Booster T1、Robotera XBot、OpenLoong Loong、RoboParty Atom01
四足机器人	Unitree Go2/A1/B2、Anymal D、Agibot D1、Magiclab MagicDog、DeepRobotics Lite3、ZSIBot ZSL1
轮式机器人	Unitree Go2W、DeepRobotics M20 等

奖励项	推荐值	作用
`track_lin_vel_xy_exp`	3.0	线速度跟踪（核心目标）
`track_ang_vel_z_exp`	1.5	角速度跟踪
`lin_vel_z_l2`	-2.0	抑制垂直跳动
`ang_vel_xy_l2`	-0.05	抑制翻滚
`joint_torques_l2`	-2.5e-5	能耗惩罚
`joint_acc_l2`	-2.5e-7	动作平滑
`action_rate_l2`	-0.01	动作变化率
`feet_air_time`	0.1	腾空时间奖励
`feet_gait`	0.5	步态同步
`feet_slide`	-0.1	滑动惩罚
`upward`	1.0	保持直立

# 增大速度跟踪奖励
self.rewards.track_lin_vel_xy_exp.weight = 5.0  # 从 3.0 增加
# 减小其他惩罚
self.rewards.action_rate_l2.weight = -0.005

# 增大步态奖励
self.rewards.feet_gait.weight = 1.0  # 从 0.5 增加
# 增大腾空时间方差惩罚
self.rewards.feet_air_time_variance.weight = -2.0

# 增大力矩惩罚
self.rewards.joint_torques_l2.weight = -5e-5  # 加倍
# 增大关节功率惩罚
self.rewards.joint_power.weight = -4e-5

奖励项	G1	H1	GR1T2	XBot	说明
`track_lin_vel_xy_exp`	3.0	3.0	5.0	2.0	核心任务奖励
`track_ang_vel_z_exp`	3.0	3.0	5.0	2.0	角速度跟踪
`feet_air_time`	0.25	1.0	1.0	2.0	迈腿奖励（关键）
`upward`	1.0	1.0	1.0	0.2	站立奖励（关键）
`is_terminated`	-200	-200	-200	-200	摔倒惩罚
`flat_orientation_l2`	-0.2	-0.2	-0.5	0	姿态惩罚
`joint_torques_l2`	-1.5e-7	-1.0e-8	-2.5e-5	-2.5e-5	能耗惩罚
`joint_acc_l2`	-1.25e-7	-2.5e-7	-2.5e-7	-2.5e-7	动作平滑
`action_rate_l2`	-0.005	-0.01	-0.005	-0.01	动作变化率
`feet_slide`	-0.2	-0.4	-0.2	-0.2	滑动惩罚

检查项	正确配置	常见错误
`feet_air_time.weight`	≥ 0.25	0 或未设置
`feet_air_time.func`	`mdp.feet_air_time_positive_biped`	使用四足函数
`upward.weight`	≥ 1.0	0 或未设置
`track_lin_vel_xy_exp.weight`	≥ 3.0	太小（< 2.0）
`joint_pos_penalty.weight`	0 或较小	太大（> -2.0）

# 方案 1：启用并增大迈腿奖励（最重要）
self.rewards.feet_air_time.weight = 1.0  # 从 0.25 增加到 1.0
self.rewards.feet_air_time.func = mdp.feet_air_time_positive_biped  # 必须用双足函数
self.rewards.feet_air_time.params["threshold"] = 0.4  # 腾空时间阈值
# 方案 2：增大站立奖励
self.rewards.upward.weight = 2.0  # 从 1.0 增加
# 方案 3：增大速度跟踪奖励
self.rewards.track_lin_vel_xy_exp.weight = 5.0  # 从 3.0 增加
self.rewards.track_ang_vel_z_exp.weight = 3.0
# 方案 4：减小关节位置惩罚（让机器人敢于动）
self.rewards.joint_pos_penalty.weight = -0.5  # 或直接设为 0

# 使用双足专用腾空时间函数（关键配置！）
self.rewards.feet_air_time.func = mdp.feet_air_time_positive_biped
self.rewards.feet_air_time.params["threshold"] = 0.4  # 最小站立相时间
self.rewards.feet_air_time.params["sensor_cfg"].body_names = self.foot_link_name
# 使用偏航坐标系速度跟踪（适应身体朝向变化）
self.rewards.track_lin_vel_xy_exp.func = mdp.track_lin_vel_xy_yaw_frame_exp
# 关节偏差惩罚（保持自然姿态，但不要太大）
self.rewards.create_joint_deviation_l1_rewterm("joint_deviation_hip_l1", -0.1, [".*hip_yaw.*",".*hip_roll.*"])
self.rewards.create_joint_deviation_l1_rewterm("joint_deviation_arms_l1", -0.1, [".*shoulder.*",".*elbow.*"])
self.rewards.create_joint_deviation_l1_rewterm("joint_deviation_torso_l1", -0.1, [".*torso.*",".*waist.*"])

# 推荐的观测缩放配置
self.observations.policy.base_lin_vel.scale = 2.0  # 放大线速度感知
self.observations.policy.base_ang_vel.scale = 0.25  # 压缩角速度（范围较大）
self.observations.policy.joint_pos.scale = 1.0  # 关节位置保持原始
self.observations.policy.joint_vel.scale = 0.05  # 压缩关节速度（范围很大）
# 注意：G1/H1 禁用了 base_lin_vel 观测
# 如果你的机器人学不会行走，尝试启用它
self.observations.policy.base_lin_vel = None  # 原配置禁用
# 改为:
self.observations.policy.base_lin_vel.scale = 2.0  # 启用并设置缩放

# 增大终止惩罚
self.rewards.is_terminated.weight = -500.0
# 增大姿态惩罚
self.rewards.flat_orientation_l2.weight = -0.5
# 增大角速度惩罚（抑制身体晃动）
self.rewards.ang_vel_xy_l2.weight = -0.2

# 增大直立奖励
self.rewards.upward.weight = 2.0
# 增大角速度惩罚
self.rewards.ang_vel_xy_l2.weight = -0.2
# 增大姿态惩罚
self.rewards.flat_orientation_l2.weight = -0.3

# 增大速度跟踪奖励
self.rewards.track_lin_vel_xy_exp.weight = 5.0
# 增大腾空时间奖励
self.rewards.feet_air_time.weight = 1.5
# 减小动作变化率惩罚（允许更大动作）
self.rewards.action_rate_l2.weight = -0.001
# 增大动作缩放
self.actions.joint_pos.scale = 0.35  # 从 0.25 增加

# 调整腾空时间阈值
self.rewards.feet_air_time.params["threshold"] = 0.5  # 增大站立相要求
# 增大关节对称性惩罚（如果有）
self.rewards.joint_mirror.weight = -0.1

# 禁用地形课程（关键！）
self.curriculum.terrain_levels = None
# 禁用速度命令课程
self.curriculum.command_levels_lin_vel = None
self.curriculum.command_levels_ang_vel = None

# 分离腿部和轮子控制
self.actions.joint_pos.joint_names = self.leg_joint_names  # 位置控制
self.actions.joint_vel.joint_names = self.wheel_joint_names  # 速度控制
# 分离腿部和轮子惩罚
self.rewards.joint_torques_l2.params["asset_cfg"].joint_names = self.leg_joint_names
self.rewards.joint_acc_wheel_l2.weight = -2.5e-9  # 轮子加速度惩罚较小
self.rewards.joint_acc_wheel_l2.params["asset_cfg"].joint_names = self.wheel_joint_names

配置项	GO2W (轮式)	GO2 (四足)
`feet_air_time`	0 (禁用)	0.1
`feet_gait`	0 (禁用)	0.5
`feet_slide`	0 (禁用)	-0.1
`base_height_l2.target_height`	0.40	0.33
`joint_acc_wheel_l2`	-2.5e-9	N/A

# 增大轮子加速度惩罚
self.rewards.joint_acc_wheel_l2.weight = -2.5e-8

# 参考四足调参，增大相关惩罚
self.rewards.joint_pos_penalty.weight = -2.0

奖励项	函数	推荐范围	说明
`track_lin_vel_xy_exp`	指数形式速度跟踪	2.0-5.0	线速度跟踪，核心目标
`track_ang_vel_z_exp`	指数形式角速度跟踪	1.5-5.0	角速度跟踪
`feet_air_time`	腾空时间奖励	0.1-2.0	鼓励迈腿，人形必需
`feet_gait`	步态同步	0.3-1.0	四足对角步态
`upward`	直立奖励	0.5-2.0	保持身体直立

奖励项	函数	推荐范围	说明
`lin_vel_z_l2`	垂直速度 L2	-1.0 ~ -3.0	抑制蹦跳
`ang_vel_xy_l2`	横滚俯仰角速度	-0.05 ~ -0.3	抑制身体晃动
`flat_orientation_l2`	姿态偏差	-0.1 ~ -0.5	保持水平
`base_height_l2`	高度偏差	0 ~ -1.0	保持目标高度

奖励项	函数	四足推荐值	人形推荐值	说明
`joint_torques_l2`	关节力矩 L2	-2.5e-5	-1.5e-7	能耗惩罚
`joint_acc_l2`	关节加速度 L2	-2.5e-7	-1.25e-7	动作平滑
`action_rate_l2`	动作变化率	-0.01	-0.005	控制平滑
`joint_power`	关节功率	-4e-5	0	机械功率
`joint_vel_l2`	关节速度 L2	0	0	速度惩罚

奖励项	函数	推荐范围	说明
`feet_slide`	滑动惩罚	-0.1 ~ -0.4	脚接触时的滑动
`feet_stumble`	绊倒惩罚	-0.5 ~ -2.0	脚部意外碰撞
`feet_height`	抬脚高度	0 ~ -5.0	控制抬脚高度
`feet_height_body`	相对身体抬脚	0 ~ -5.0	四足常用

奖励项	函数	推荐范围	说明
`is_terminated`	终止惩罚	-100 ~ -500	人形必需
`joint_pos_limits`	关节限位	-0.5 ~ -2.0	接近限位惩罚
`undesired_contacts`	非期望接触	-0.5 ~ -2.0	膝盖/手肘触地
`joint_pos_penalty`	关节位置偏差	0 ~ -2.0	保持默认姿态

配置类别	四足机器人	人形机器人	原因
速度跟踪	3.0	3.0-5.0	人形需要更强激励
腾空时间	0.1	0.25-2.0	人形步态关键
腾空函数	`feet_air_time`	`feet_air_time_positive_biped`	双足专用
步态同步	0.5	0（禁用）	人形无对角步态
直立奖励	1.0	1.0-2.0	人形平衡困难
终止惩罚	0	-200	人形摔倒不可恢复
力矩惩罚	-2.5e-5	-1.5e-7	人形需要更大力矩
地形课程	启用	禁用	人形初期无法应对复杂地形
训练步数	200k	500k-1M	人形收敛慢

指标模式	可能问题	解决方向
Mean Reward 不增长	策略困在局部最优	增大探索（entropy_coef）或调整奖励权重
Episode Length 很短	机器人频繁摔倒	增大 `is_terminated` 惩罚，检查终止条件
Episode Length 满值但 Reward 低	机器人站着不动	增大 `feet_air_time`、`track_lin_vel`
track_lin_vel 奖励为 0	没有速度跟踪	检查命令配置，确认速度范围
feet_air_time 奖励为 0	没有迈腿	检查函数是否正确，权重是否为 0
joint_torques 惩罚很大	力矩输出过高	检查执行器配置，增大力矩惩罚

def __post_init__(self):
    super().__post_init__()
    # ===== 核心奖励（让机器人动起来）=====
    self.rewards.track_lin_vel_xy_exp.weight = 3.0
    self.rewards.track_lin_vel_xy_exp.func = mdp.track_lin_vel_xy_yaw_frame_exp
    self.rewards.track_ang_vel_z_exp.weight = 3.0
    # ===== 关键：腾空时间奖励（让机器人迈腿）=====
    self.rewards.feet_air_time.weight = 1.0  # 必须 > 0
    self.rewards.feet_air_time.func = mdp.feet_air_time_positive_biped  # 必须用双足函数
    self.rewards.feet_air_time.params["threshold"] = 0.4
    # ===== 直立奖励（让机器人站起来）=====
    self.rewards.upward.weight = 1.0
    # ===== 摔倒惩罚 =====
    self.rewards.is_terminated.weight = -200.0
    # ===== 稳定性惩罚 =====
    self.rewards.flat_orientation_l2.weight = -0.2
    self.rewards.ang_vel_xy_l2.weight = -0.1
    # ===== 能耗惩罚（人形用较小值）=====
    self.rewards.joint_torques_l2.weight = -1.5e-7
    self.rewards.joint_acc_l2.weight = -1.25e-7
    self.rewards.action_rate_l2.weight = -0.005
    # ===== 足部惩罚 =====
    self.rewards.feet_slide.weight = -0.2
    # ===== 关键：禁用地形课程 =====
    self.curriculum.terrain_levels = None
    self.curriculum.command_levels_lin_vel = None
    self.curriculum.command_levels_ang_vel = None

def __post_init__(self):
    super().__post_init__()
    # ===== 核心奖励 =====
    self.rewards.track_lin_vel_xy_exp.weight = 3.0
    self.rewards.track_ang_vel_z_exp.weight = 1.5
    # ===== 步态奖励 =====
    self.rewards.feet_air_time.weight = 0.1
    self.rewards.feet_gait.weight = 0.5  # 对角步态同步
    # ===== 直立奖励 =====
    self.rewards.upward.weight = 1.0
    # ===== 稳定性惩罚 =====
    self.rewards.lin_vel_z_l2.weight = -2.0
    self.rewards.ang_vel_xy_l2.weight = -0.05
    # ===== 能耗惩罚 =====
    self.rewards.joint_torques_l2.weight = -2.5e-5
    self.rewards.joint_acc_l2.weight = -2.5e-7
    self.rewards.action_rate_l2.weight = -0.01
    # ===== 足部惩罚 =====
    self.rewards.feet_slide.weight = -0.1
    self.rewards.feet_height_body.weight = -5.0  # 控制抬脚高度

# RSL-RL 训练 - 粗糙地形
python scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-Velocity-Rough-Unitree-G1-v0 \
--headless \
--num_envs 4096

# RSL-RL 训练 - 平地
python scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-Velocity-Flat-Unitree-G1-v0 \
--headless \
--num_envs 4096

# 从检查点继续训练
python scripts/reinforcement_learning/rsl_rl/train.py \
--task=RobotLab-Isaac-Velocity-Rough-Unitree-G1-v0 \
--resume \
--load_run="2024-01-01_12-00-00"

# 加载训练好的模型进行测试
python scripts/reinforcement_learning/rsl_rl/play.py \
--task=RobotLab-Isaac-Velocity-Rough-Unitree-G1-v0 \
--num_envs 16

# 录制视频
python scripts/reinforcement_learning/rsl_rl/play.py \
--task=RobotLab-Isaac-Velocity-Rough-Unitree-G1-v0 \
--video \
--video_length 200

# 启动 TensorBoard
tensorboard --logdir=logs/rsl_rl
# 在浏览器中打开
# http://localhost:6006

Isaac Lab 机器人强化学习：配置架构、添加流程与调参技巧

0. 前言

1. 配置继承体系解析

1.1 整体架构概览

1.2 基类详解：LocomotionVelocityRoughEnvCfg

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.2.1 场景配置 (MySceneCfg)

1.2.2 命令配置 (CommandsCfg)

1.2.3 动作配置 (ActionsCfg)

1.2.4 观测配置 (ObservationsCfg)

1.2.5 事件配置 (EventCfg) - 域随机化

1.2.6 奖励配置 (RewardsCfg)

1.2.7 终止条件配置 (TerminationsCfg)

1.2.8 课程学习配置 (CurriculumCfg)

1.3 子类配置示例：UnitreeG1RoughEnvCfg

1.4 简化配置：UnitreeG1FlatEnvCfg

2. 强化学习 Agent 配置

2.1 RSL-RL PPO 配置详解

2.2 关键参数说明

2.3 不同机器人的 Agent 配置对比

3. 添加新机器人（以 Agibot 为例）

3.1 完整流程概览

3.2 步骤 1: 创建资产配置

3.3 步骤 2: 创建 RL Agent 配置

3.4 步骤 3: 创建粗糙地形环境配置

3.5 步骤 4: 创建平地环境配置

3.6 步骤 5: 注册 Gym 环境

4. 调参指南

4.1 四足机器人调参（以 GO2 为例）

4.1.1 核心奖励权重

4.1.2 调参技巧

4.2 人形机器人调参（以 G1 为例）

4.2.1 核心奖励权重

4.2.2 人形机器人"坐着不走"问题诊断

4.2.3 人形特殊配置

4.2.4 观测配置对行走的影响

4.2.5 常见问题诊断

4.3 轮式机器人调参（以 GO2W 为例）

4.3.1 特殊配置

4.3.2 核心差异

4.3.3 调参技巧

4.4 综合调参策略与奖励函数设计

4.4.1 奖励函数完整列表

4.4.2 人形 vs 四足 配置差异总结

4.4.3 从 TensorBoard 诊断问题

4.4.4 调参优先级

4.4.5 快速调参模板

5. 训练与测试命令

5.1 训练命令

5.2 测试命令

5.3 TensorBoard 监控

6. 总结

参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4.4.2 人形 vs 四足配置差异总结