前言
自 DeepSeek-R1 发布以来,大模型的强化学习(RL)训练掀起了新一轮的技术热潮。各大厂商与开源社区纷纷投入实践,持续探索更高效的 RL 训练体系。本文将基于 cann-recipes-train 仓库,解读两个实践样例:DeepSeek-R1 的 RL 训练优化实践、基于 verl 框架的 Qwen2.5 强化学习实践。
cann-recipes-train 仓库全景解析
在大模型训练拼效率的阶段,CANN 直接帮我们搞定了底层异构硬件适配、资源调度这些麻烦事,不用再从零研究 GPU 和 NPU 怎么协同,现有模型代码也不用大改就能对接。训 LLM 或多模态模型时还能通过算子优化、内存复用提升速度、减少资源浪费。
cann-recipes-train 仓库不搞抽象理论,全是能直接复用的代码样例,比如具体 LLM 的训练优化步骤、多模态模型的算子调试方法,帮我们跳过'看官方文档懂了但不会用'的坑,不用自己反复试错,快速掌握 CANN 的优化技巧,把精力集中在模型本身。
首批版本中,cann-recipes-train 将上线两个基于 Verl 强化学习框架的典型训练样例,分别覆盖 Qwen2.5 与 DeepSeek-R1-671B 两大模型:
- DeepSeek-R1 RL 训练优化样例:基于开源 verl 框架,搭配 MindSpeed+vLLM-Ascend 框架,在 Atlas A3 集群实现 GRPO 算法的高吞吐 RL 训练,并达到 120TPS/卡的系统吞吐量。
- 基于 verl 框架的 Qwen2.5 强化学习(入门样例):基于 Qwen2.5-1.5B-Instruct 模型,采用 verl 强化学习框架,在 MATH-lighteval 数学推理数据集上进行了训练,只需要单卡 Atlas A2 环境,快速上手使用昇腾 NPU 完成 RL 训练任务。
环境部署准备
Notebook 资源配置
- 计算资源:NPU:1*NPU 910B,32vCPU + 64GB 内存
- 容器镜像:ubuntu22.04-py3.11-cann8.2.rc1-sglang-main-notebook
启动成功后使用 npu-smi 查看 NPU 状态、利用率。当前 Notebook 的昇腾 910B3 NPU 状态正常,功耗 96.5W、温 46℃,HBM 显存仅用 3.3G(总 64G),无运行进程,资源低负载。
克隆仓库与目录结构
克隆 cann-recipes-train 到本地后,进入 rl_train 目录,可以看到特定模型的 RL(强化学习)训练相关样例集合:
deepseek:DeepSeek-R1 RL 训练优化实践样例qwen2_5:基于 verl 框架的 Qwen2.5 强化学习实践样例
DeepSeek-R1 RL 训练优化实践
部署要求
针对 DeepSeek-R1 模型,基于 verl 开源框架,配合 MindSpeed-LLM 和 vLLM-Ascend 框架,完成 RL 训练全流程的优化适配。
- 硬件要求:产品型号 Atlas A3 系列,最少卡数 128 张 A3。
依赖安装与配置
- 安装样例依赖:基础环境适配(安装核心依赖如 verl、torch_npu等)。虽有部分版本冲突,但不影响核心功能。
- 下载依赖的开源框架代码:拉取 Verl(指定 Commit)、vLLM(v0.9.1)、vLLM-Ascend(打补丁)及 Megatron-LM、MindSpeed 等多个指定版本的 AI 相关依赖框架,将其复制到
cann-recipes-train/rl_train/deepseek/目录,为该目录下的 deepseek 样例运行搭建适配的依赖环境。 - 修改 verl 代码:为了使能 patch 修改,需要修改以下 verl 源码。
优化点解读
框架适配:Verl × vLLM-Ascend 适配
vLLM-Ascend 社区已经做好了 DeepSeek-R1 的昇腾适配,能直接用它提推理性能,但要让 verl 和它兼容,得改关键接口,主要是初始化 vLLMRollout 对象的 文件:


