强化学习框架 VeRL 全面解析：架构、调试与应用 | 极客日志

环境配置：conda create -n myenv python=3.9 conda activate myenv pip install "ray[default]" debugpy

ray start --head

bash examples/grpo_trainer/run_qwen3-0.6b.sh

yaml 文件中主要包括如下配置：
data: # 数据
actor_rollout_ref: #核心配置，包括 model、actor、ref、rollout
reward_model: #奖励模型，用于计算输出样本及时分数
critic: #批评家模型，用于估计期望回报
custom_reward_function: # 自定义奖励模型
trainer: # 训练器