cann-recipes-train 仓库深度解读：昇腾平台下 DeepSeek-R1 与 Qwen2.5 强化学习训练优化实践

前言

自 DeepSeek-R1 发布以来，大模型的强化学习（RL）训练掀起了新一轮的技术热潮。各大厂商与开源社区纷纷投入实践，持续探索更高效的 RL 训练体系。本文将基于 cann-recipes-train 仓库，解读两个实践样例：DeepSeek-R1 的 RL 训练优化实践样例、基于 verl 框架的 Qwen2.5 强化学习实践样例

cann-recipes-train 仓库全景解析：昇腾训练优化的"实战底座"

在这里插入图片描述

大模型训练拼效率的阶段，CANN 直接帮我们搞定了底层异构硬件适配、资源调度这些麻烦事，不用再从零研究 GPU 和 NPU 怎么协同，现有模型代码也不用大改就能对接，训 LLM 或多模态模型时还能通过算子优化、内存复用提升速度、减少资源浪费

cann-recipes-train 仓库不搞抽象理论，全是能直接复用的代码样例，比如具体 LLM 的训练优化步骤、多模态模型的算子调试方法，帮我们跳过 '看官方文档懂了但不会用' 的坑，不用自己反复试错，快速掌握 CANN 的优化技巧，把精力集中在模型本身。

方便广大开发者在昇腾环境中高效开展大模型的微调与续训，将开源的 cann-recipes-train 仓库面向典型的 LLM 与多模态模型训练任务，提供基于 CANN 平台优化样例与实践指南，帮助开发者简单、快速、高效在昇腾平台上完成模型训练与优化部署。首批版本中，cann-recipes-train 将上线两个基于 Verl 强化学习框架的典型训练样例，分别覆盖 Qwen2.5 与 DeepSeek-R1-671B 两大模型DeepSeek-R1 RL训练优化样例：基于开源veRL框架，搭配MindSpeed+vLLM-Ascend框架，在Atlas A3集群实现GRPO算法的高吞吐RL训练，并达到120TPS/卡的系统吞吐量基于verl框架的Qwen2.5强化学习（入门样例）：基于Qwen2.5-1.5B-Instruct模型，采用verl强化学习框架，在MATH-lighteval数学推理数据集上进行了训练，只需要单卡Atlas A2环境，快速上手使用昇腾NPU完成RL训练任务

cann-recipes-train 仓库 GitCode NoteBook 部署准备

1、NoteBook 资源配置计算资源：NPU：1*NPU 910B 32vCPU + 64GB 内存容器镜像：ubuntu22.04-py3.11-cann8.2.rc1-sglang-main-notebook

2、NoteBook 启动成功后使用 npu-smi 查看 NPU 状态、利用率当前 Notebook 的昇腾 910B3 NPU 状态正常，功耗 96.5W、温 46℃，HBM 显存仅用 3.3G（总 64G），无运行进程，资源低负载

3、cann-recipes-train 克隆到本地

4、进入 cann-recipes-train/rl_train 目录，可以看到特定模型的 RL（强化学习）训练相关样例集合

deepseek：DeepSeek-R1 RL训练优化实践样例
qwen2_5：基于verl框架的Qwen2.5强化学习实践样例

DeepSeek-R1 RL训练优化实践样例

GitCode Notebook 部署

针对DeepSeek-R1模型，基于 verl 开源框架，配合MindSpeed-LLM和vLLM-Ascend框架，完成RL训练全流程的优化适配

**硬件要求：**产品型号：Atlas A3 系列最少卡数：128张A3

1、安装样例依赖基础环境适配（安装核心依赖（如verl、torch_npu等）虽有部分版本冲突，但不影响核心功能

2、下载依赖的开源框架代码：拉取 Verl（指定 Commit）、vLLM（v0.9.1）、vLLM-Ascend（打补丁）及 Megatron-LM、MindSpeed 等多个指定版本的 AI 相关依赖框架，将其复制到 cann-recipes-train/rl_train/deepseek/ 目录，为该目录下的 deepseek 样例运行搭建适配的依赖环境