HIL-SERL 算法在真实机器人上的训练实战指南

HIL-SERL 算法在真实机器人上的训练实战指南 | 极客日志

pip install -e ".[hilserl]"

class HILSerlRobotEnvConfig(EnvConfig):
    robot: RobotConfig | None = None  # 主机器人代理配置（defined in `lerobot/robots`）
    teleop: TeleoperatorConfig | None = None  # 遥操作设备配置（e.g., gamepad or leader arm, defined in `lerobot/teleoperators`）
    wrapper: EnvTransformConfig | None = None  # 环境包装器设置（check `lerobot/scripts/server/gym_manipulator.py`）
    fps: int = 10  # 控制频率
    name: str = "real_robot"  # 环境名称
    mode: str = None  # 模式："record"、"replay" 或 None（训练）
    repo_id: str | None = None  # LeRobot 数据集仓库 ID
    dataset_root: str | None = None  # 本地数据集根目录 (可选项)
    task: str = ""  # 任务标识符
    num_episodes: int = 10  # 录制的回合数
    episode: int = 0  # 回放的回合索引
    device: str = "cuda"  # 计算设备
    push_to_hub: bool = True  # 是否推送数据集到 Hub
    pretrained_policy_name_or_path: str | None = None  # 预训练策略路径（For policy loading）
    reward_classifier_pretrained_path: str | None = None  # 奖励模型路径（For reward model）
    number_of_steps_after_success: int = 0  # 成功后收集的额外步数（For reward classifier, collect more positive examples after a success to train a classifier）

python -m lerobot.scripts.find_joint_limits \
  --robot.type=so100_follower \
  --robot.port=/dev/tty.usbmodem58760431541 \
  --robot.id=black \
  --teleop.type=so100_leader \
  --teleop.port=/dev/tty.usbmodem58760431551 \
  --teleop.id=blue

Max ee position [0.2417 0.2012 0.1027]
Min ee position [0.1663 -0.0823 0.0336]
Max joint positions [-20.0, -20.0, -20.0, -20.0, -20.0, -20.0]
Min joint positions [50.0, 50.0, 50.0, 50.0, 50.0, 50.0]

"end_effector_bounds": {"max": [0.24, 0.20, 0.10], "min": [0.16, -0.08, 0.03]}

{"mode":"record","repo_id":"username/pick_lift_cube","dataset_root":null,"task":"pick_and_lift","num_episodes":15,"episode":0,"push_to_hub":true}

class SO100FollowerEndEffectorConfig(SO100FollowerConfig):
    """SO100FollowerEndEffector 机器人的配置类"""
    # 末端执行器工作空间边界（单位：米）
    end_effector_bounds: dict[str, list[float]] = field(
        default_factory=lambda: {
            "min": [-1.0, -1.0, -1.0],  # x、y、z 方向的最小边界
            "max": [1.0, 1.0, 1.0]  # x、y、z 方向的最大边界
        }
    )
    max_gripper_pos: float = 50  # 夹爪完全打开时的位置值
    end_effector_step_sizes: dict[str, float] = field(
        # 各方向的最大单步移动距离
        default_factory=lambda: {
            "x": 0.02,  # x 方向最大步长（米）
            "y": 0.02,  # y 方向最大步长（米）
            "z": 0.02  # z 方向最大步长（米）
        }
    )

"teleop": {"type": "gamepad", "use_gripper": true},

"teleop": {"type": "so101_leader", "port": "/dev/tty.usbmodem585A0077921", # 根据实际情况修改端口号 "use_degrees": true},

python -m lerobot.scripts.rl.gym_manipulator --config_path src/lerobot/configs/env_config_so100.json

python -m lerobot.scripts.rl.crop_dataset_roi --repo-id username/pick_lift_cube

Selected Rectangular Regions of Interest (top, left, height, width): observation.images.side: [180, 207, 180, 200] observation.images.front: [180, 250, 120, 150]

"crop_params_dict": {"observation.images.side": [180, 207, 180, 200], "observation.images.front": [180, 250, 120, 150]}, "resize_size": [128, 128]

python -m lerobot.scripts.rl.gym_manipulator --config_path src/lerobot/configs/reward_classifier_train_config.json

{"mode":"record","repo_id":"hf_username/dataset_name","dataset_root":"data/your_dataset","num_episodes":20,"push_to_hub":true,"fps":10,"number_of_steps_after_success":15}

{"policy":{"type":"reward_classifier","model_name":"helper2424/resnet10","model_type":"cnn","num_cameras":2,"num_classes":2,"hidden_dim":256,"dropout_rate":0.1,"learning_rate":1e-4,"device":"cuda","use_amp":true,"input_features":{"observation.images.front":{"type":"VISUAL","shape":[3,128,128]},"observation.images.side":{"type":"VISUAL","shape":[3,128,128]}}}}

python -m lerobot.scripts.train --config_path path/to/reward_classifier_train_config.json

env_config = HILSerlRobotEnvConfig(
    reward_classifier_pretrained_path="path_to_your_pretrained_trained_model",
    # 其他环境参数
)

{"reward_classifier_pretrained_path":"path_to_your_pretrained_model"}

python -m lerobot.scripts.rl.gym_manipulator --config_path path/to/env_config.json

python -m lerobot.scripts.rl.gym_manipulator --config_path src/lerobot/configs/env_config.json

python -m lerobot.scripts.train --config_path src/lerobot/configs/reward_classifier_train_config.json

python -m lerobot.scripts.rl.gym_manipulator --config_path src/lerobot/configs/env_config.json

python -m lerobot.scripts.rl.learner --config_path src/lerobot/configs/train_config_hilserl_so100.json

python -m lerobot.scripts.rl.actor --config_path src/lerobot/configs/train_config_hilserl_so100.json

HIL-SERL 算法在真实机器人上的训练实战指南

引言

10.1 HIL-SERL 方法概述

10.2 系统需求与准备工作

硬件需求

适用任务类型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

软件安装

10.3 配置系统

核心配置类

配置参数详解

10.4 确定机器人工作空间边界

边界设置的重要性

使用 find_joint_limits.py 脚本

边界确定工作流程

边界设置的最佳实践

10.5 收集演示数据

演示数据的作用

配置录制模式

演示数据收集的最佳实践

10.6 配置遥操作设备

游戏手柄配置

SO101 引导臂配置

10.7 演示数据录制

10.8 数据集预处理

交互式裁剪参数确定

配置文件更新

图像分辨率选择建议

10.9 奖励分类器训练

为奖励分类器收集数据集

数据收集的关键参数

奖励分类器配置

训练分类器

部署和测试模型

训练奖励分类器的示例工作流程

10.10 使用演员 - 学习者进行训练

配置设置

启动学习者

启动演员

训练流程

10.11 人在环路

监控和调试

人工干预指南

10.12 关键超参数调优

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具