PythonAI算法

2025 大模型学习路线与核心资源指南

梳理了 2025 年大模型学习路线，涵盖从基础 Transformer 原理到应用开发的全流程。内容包含主流模型架构分析、提示工程、微调技术（SFT/PEFT/RLHF）、推理加速及部署方案。适合希望深入理解大模型底层机制并具备实战能力的开发者参考。

栈溢出发布于 2025/2/7更新于 2026/4/210 浏览

大模型学习路线

建议先从主流的 Llama 开始，然后选用中文的 Qwen/Baichuan/ChatGLM。先快速上手体验 Prompt 工程，然后再学习其架构，跑微调脚本。

如果要深入学习，建议再按以下步骤，从更基础的 GPT 和 BERT 学起，因为底层是相通的。而且实际落地到一个系统中，应该也是大模型结合小模型（大模型在做判别性的任务上，比 BERT 优势不是特别大）。

可以参考如下方案，按需学习。

一、简述

按个人偏好总结了学习目标与路径，后续将陆续整理相应学习资料，并输出学习笔记。

学习思路：快速应用 Transformer 等轮子来微调和使用 LLM，同时深入学习 NLP 预训练模型原理和推理部署（因为偏底层的东西变化不大）。

学习目标

熟悉主流 LLM（Llama, ChatGLM, Qwen）的技术架构和技术细节；有实际应用 RAG、PEFT 和 SFT 的项目经验。
较强的 NLP 基础，熟悉 BERT、GPT、Transformer、T5 等预训练语言模型的实现，有对话系统相关研发经验。
掌握 TensorRT-LLM、vLLM 等主流推理加速框架，熟悉模型量化、FlashAttention 等推理加速技术方案，对分布式训练 DeepSpeed 框架有实战经验。
熟悉 Pytorch，具备扎实的深度学习和机器学习基础，基本掌握 C/C++、Cuda 和计算机系统原理。

参考课程

面向开发者的 LLM 入门课程（吴恩达课程 - 中文版）
普林斯顿-COS 597G (Fall 2022): Understanding Large Language Models
斯坦福-CS324 - Large Language Models

教程

Huggingface Transformers 官方课程
Transformers 快速入门（快速调包 BERT 系列）

学习方式

力求快速应用（先调包，再深入学习）
在实践中动手学习，力求搞懂每个关键点
【原理学习】+【代码实践】 + 【输出总结】

基础知识

视频课程
- 吴恩达机器学习入门
- 李沐讲 AI
- 台大李宏毅 - 机器学习
- 斯坦福 NLP cs224n
书籍
- 《深度学习入门：基于 Python 的理论与实践》：numpy 实现 MLP、卷积的训练
- 《深度学习进阶：自然语言处理》：numpy 实现 Transformers、word2vec、RNN 的训练
- Dive In Deep Learning(动手学深度学习)
- 《神经网络与深度学习》
- 《机器学习方法》：李航的 NLP 相关的机器学习 + 深度学习知识（按需选学）
强化学习
- 强化学习教程 - 蘑菇书 EasyRL（李宏毅强化学习 + 强化学习纲要）
- 动手学强化学习
博客
- 苏剑林科学空间

学习纲要

应用：

1、Zero Shot / Few Shot 快速开箱即用

Prompt 调优
上下文学习 In-Context Learning, ICL
思维链 Chain of Thought, COT
RAG (Retrieval Augmented Generation)：基于文档分块、向量索引和 LLM 生成，如 Langchain 文档问答

2、领域数据 - 指令微调 LLM

PEFT (Parameter-Efficient Fine-Tuning):
- LORA (Low-Rank Adaption of LLMs)
- QLORA
- SLORA
- P-Tuning v2

参数高效的微调，适合用于纠正模型输出格式（PEFT 上限不高，并向 LLM 输入的知识有限）。

SFT (Supervised Fintuning):
- 全参数监督微调，使用 prompt 指令样本全量微调 LLM（可以注入新的领域知识）
- 需要控制样本配比（领域数据 + 通用数据）

3、对齐

对齐人类偏好 (RLHF)：
- RewardModel 奖励模型（排序标注，判断答案价值）
- RL (PPO，更新 SFT 模型)

专注基于强化学习的大语言模型对齐，有前景的方向是 SuperhumanAI AutoALign。

4、预训练

小模型预训练 (GPT2, TinyLlama)，不考虑训练参数规模较大的语言模型。

5、训练推理优化

模型量化
推理加速
蒸馏
推理框架（vLLM、TensorRT-LLM、Llama.cpp）

二、学习目录

第 1 章技术与需求分析

1.1 技术分析

LLM 的发展历程与趋势
开源 LLM 生态
- Llama 系列
- Mistral / Mixtral-8X7B-MOE
- ChatGLM / Baichuan / Qwen

1.2 市场需求分析

需求和就业市场分析
预训练、对齐
微调、应用
推理加速
商业落地分析 (2C、2B 应用场景)

第 2 章 ChatGPT 背景与原理

2.1 ChatGPT 的工作原理

预训练与提示学习阶段
结果评价与奖励建模阶段
强化学习阶段

2.2 算法细节

标注数据
建模思路

第 3 章预训练语言模型

3.1 Transformer

论文：《Attention Is All Your Need》
解析：详解 Transformer 原理及图解
实战：Torch 代码详解和训练实战

3.2 GPT

GPT 论文
- GPT-1: Improving Language Understanding by Generative Pre-Training
- GPT-2: Language Models are Unsupervised Multitask Learners
- GPT-3: Language Models are Few-Shot Learners
- GPT-4: GPT-4 Technical Report
解析：GPT2/GPT3 原理分析及图解
推理：60 行代码实现 GPT 推理（PicoGPT），动手用 C++ 实现 GPT
训练：训练 GPT2 语言模型，MiniGPT 项目详解，NanoGPT 项目详解，GPT2 微调 - 文本摘要实战

3.3 BERT

原理：BERT 可视化及原理详解
实战：BERT 结构和预训练代码实现，基于 HuggingFace 的 BERT 预训练
微调：文本分类，BERT-CRF NER，BERT+ 指针网络（UIE）信息抽取，文本摘要/问答，相似性检索：SimCSE-BERT
衍生系列：RoBERTa / ALBERT / DistillBERT

3.4 T5 系列

T5-Pegasus 对话摘要微调
PromptClue 关键词抽取微调

3.5 UniLM

UniLM 模型介绍
基于夸夸闲聊数据的 UniLM 模型实战

第 4 章提示学习与大型语言模型

4.1 提示学习 PromptLearning

提示学习介绍
提示模板设计
答案空间映射设计

4.2 上下文学习 ContextLearning

上下文学习介绍
预训练阶段提升上下文
推理阶段优化上下文

4.3 指令数据构建

手动和自动构建指令
开源指令数据集
基于提示的文本情感分析实战

第 5 章开源大型语言模型

5.1 Mistral

Mistral 7B Tutorial
Mistral-8X7B-MOE 的模型结构及源码解析
Mistral-7B 微调

5.2 Llama

Llama1 及源码深入解析
Llama2 及其优化、源码解析
Llama2-6B 微调

5.3 ChatGLM

ChatGLM 简介
ChatGLM-6B 微调
ChatGLM2 微调保姆级教程

第 6 章 LLM 微调

6.1 全量指令微调 SFT

6.2 高效微调 PEFT

LORA 系列

LoRA（Low Rank Adapter）
ChatGLM-6B 及 ChatGLM2 微调教程
ChatGLM3-6B 微调
QLoRA：用 bitsandbytes、4 比特量化和 QLoRA 打造亲民的 LLM
AdaLoRa
SLoRA

其他

P-Tuning V2 介绍及微调实战

实战

HuggingFace PEFT 库详解
Deepspeed-Chat SFT 实践

第 7 章大型语言模型预训练

7.1 预训练模型中的分词器

BPE 详解
WordPiece 详解
Unigram 详解
SentencePiece 详解
MinBPE 实战和分析

7.2 分布式训练

分布式训练概述、并行策略及集群架构
分布式深度学习框架：Megatron-LM 详解、DeepSpeed 详解
实践：基于 DeepSpeed 的 GLM 预训练实战、基于 DeepSpeed 的 LLaMA 分布式训练实践

7.3 MOE 混合专家模型

基础概念
Mixstral-8X7B-MOE 介绍及相关论文

第 8 章 LLM 应用

8.1 推理规划

思维链提示（Chain-of-Thought Prompting）：论文及实战
由少至多提示（Least-to-Most Prompting）

8.2 综合应用框架

LangChain 框架核心模块
9 个范例带你入门 langchain
知识库问答实践

8.3 智能代理 AI Agent

智能代理介绍
LLM Powered Autonomous Agents
智能代理的应用实例

第 9 章 LLM 加速

9.1 注意力优化

FlashAttention 系列
PagedAttention
深入理解 BigBird 的块稀疏注意力

9.2 CPU 推理加速

Llama.c 应用与代码详解
ChatGLM.cpp 应用与代码详解

9.3 推理优化框架

vLLM 推理框架实践
TensorRT-LLM 应用与代码详解

9.4 训练加速

第 10 章强化学习

10.1 强化学习概述

10.2 强化学习环境

10.3 强化学习算法

Q-learning 算法
DQN 算法
Policy Gradient 算法
Actor-Critic 算法

第 11 章 PPO 算法与 RLHF 理论实战

11.1 近端策略优化算法 PPO

PPO：Proximal Policy Optimization Algorithms 论文
PPO 介绍、广义优势估计及原理剖析
PPO 算法对比与评价
使用 PPO 算法进行 RLHF 的 N 步实现细节及实战
基于 PPO 的正向情感倾向性

11.2 基于人类反馈的强化学习 RLHF

InstructGPT 模型分析
论文 RLHF：Augmenting Reinforcement Learning with Human Feedback
RLHF 的流程及内部剖析
详解大模型 RLHF 过程（配代码解读）
RLHF 价值分析与问题分析
数据收集与模型训练
RLHF 实践：数据预处理模块、模型训练\生成\评估
MOSS-RLHF 实践：奖励模型训练、PPO 微调

第 12 章类 ChatGPT 实战

12.1 任务设计

12.2 数据准备

基于文档生成问题任务的类
SFT 阶段
RM 阶段
RL 阶段

第 13 章语言模型训练数据

13.1 数据来源

通用数据
专业数据

13.2 数据处理

低质过滤
冗余去除
隐私消除

13.3 数据影响分析

数据规模影响
数据质量影响
数据多样性影响

13.4 开源数据集合

Pile
ROOTS
RefinedWeb
SlimPajama

第 14 章大语言模型评估

14.1 模型评估概述

14.2 大语言模型评估体系

知识与能力
伦理与安全
垂直领域评估

14.3 大语言模型评估方法

评估指标
评估方法

14.4 大语言模型评估实践

基础模型评估
SFT/RL 模型评估

第 15 章多模态大模型

多模态大模型调研
实战

第 16 章大模型原生应用

16.1 落地调研

应用分析
提供大模型基础服务：ChatGPT、Gemini、文心一言和 GLM4 等，主要面向 ToC/ToB 提供 chat 能力（内容创作、代码开发等），通过会员收费或按 Token 计费
ToB 提供成套解决方案
集成现有接口二次开发，应用开发
开源模型增量预训练、全量微调、高效微调，行业内落地

模型最终还需落地解决实际问题，创造价值：优化现有问题、满足、甚至创造用户需求。总的来说，就是规模化、自动化人的工作，替代人工，批量化、大规模生成或提供服务。

16.2 应用分析

一些思考

在企业里面做 7B、13B 量级的微调，主要就是在搞数据、样本，技术壁垒不高。预训练壁垒高，因为需要烧钱堆经验。

在这个日新月异的时代，如何紧跟行业主流发展，并具备不可替代性是个难题：

稀缺（不可替代性）
稳定（业务和表层技术天天变，但底层的理论变化不大）
需求持续（最好是类似衣食住行的刚需，否则技术过时/热度褪去/不达预期，泡沫崩溃）
不能越老越吃香（放到绝大多数行业都适用：不能经验积累，持续长期创造价值）
壁垒（技术、业务、资本上有垄断）

尽量往底层和工程化上靠，学习相对不变的技术（理论上变化很难），迁移到稳定或有前景的行业，不断提升自己的学习效率：

计算机系统知识（训练、推理、开发，模型推理部署工程化）
数学（深入学习并实践）

2025 大模型学习路线与核心资源指南

大模型学习路线

一、简述

学习目标

参考课程

教程

学习方式

基础知识

学习纲要

二、学习目录

第 1 章技术与需求分析

第 2 章 ChatGPT 背景与原理

第 3 章预训练语言模型

第 4 章提示学习与大型语言模型

第 5 章开源大型语言模型

第 6 章 LLM 微调

第 7 章大型语言模型预训练

第 8 章 LLM 应用

第 9 章 LLM 加速

第 10 章强化学习

第 11 章 PPO 算法与 RLHF 理论实战

第 12 章类 ChatGPT 实战

第 13 章语言模型训练数据

第 14 章大语言模型评估

第 15 章多模态大模型

第 16 章大模型原生应用

一些思考

更多推荐文章

相关免费在线工具

2025 大模型学习路线与核心资源指南

大模型学习路线

一、简述

学习目标

参考课程

教程

学习方式

基础知识

学习纲要

二、学习目录

第 1 章 技术与需求分析

第 2 章 ChatGPT 背景与原理

第 3 章 预训练语言模型

第 4 章 提示学习与大型语言模型

第 5 章 开源大型语言模型

第 6 章 LLM 微调

第 7 章 大型语言模型预训练

第 8 章 LLM 应用

第 9 章 LLM 加速

第 10 章 强化学习

第 11 章 PPO 算法与 RLHF 理论实战

第 12 章 类 ChatGPT 实战

第 13 章 语言模型训练数据

第 14 章 大语言模型评估

第 15 章 多模态大模型

第 16 章 大模型原生应用

一些思考

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

第 1 章技术与需求分析

第 3 章预训练语言模型

第 4 章提示学习与大型语言模型

第 5 章开源大型语言模型

第 7 章大型语言模型预训练

第 10 章强化学习

第 12 章类 ChatGPT 实战

第 13 章语言模型训练数据

第 14 章大语言模型评估

第 15 章多模态大模型

第 16 章大模型原生应用