强化学习框架 VeRL 深度解析：架构、调试与应用实战 | 极客日志

强化学习框架 VeRL 深度解析：架构、调试与应用实战 | 极客日志

conda create -n myenv python=3.9
conda activate myenv
pip install "ray[default]" debugpy

ray start --head

bash examples/grpo_trainer/run_qwen3-0.6b.sh

data:
actor_rollout_ref: # 核心配置，包括 model、actor、ref、rollout
reward_model: # 奖励模型，用于计算输出样本及时分数
critic: # 批评家模型，用于估计期望回报
custom_reward_function: # 自定义奖励模型
trainer: # 训练器配置