跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

大模型学习路线与核心资源整理

综述由AI生成梳理了大模型(LLM)的学习路径,涵盖从基础原理到工程落地的全流程。内容涉及 Transformer、GPT、BERT 等预训练模型架构,以及 Prompt Engineering、RAG、PEFT(LoRA/QLoRA)、SFT 和 RLHF 等关键技术。同时提供了主流开源模型(Llama、Qwen、ChatGLM)的实战建议,推理加速框架(vLLM、TensorRT-LLM)及分布式训练方案。文章还探讨了行业壁垒与职业发展建议,强调向底层工程和数学基础靠拢的重要性,适合希望掌握大模型微调、部署及应用开发的开发者参考。

清酒独酌发布于 2025/2/6更新于 2026/6/323 浏览
大模型学习路线与核心资源整理

大模型学习路线

建议先从主流的 Llama 开始,然后选用中文的 Qwen/Baichuan/ChatGLM。先快速上手体验 Prompt 工程,然后再学习其架构,跑微调脚本。

如果要深入学习,建议再按以下步骤,从更基础的 GPT 和 BERT 学起,因为底层是相通的。而且实际落地到一个系统中,通常是大模型结合小模型(大模型在做判别性的任务上,比 BERT 优势不是特别大)。

可以参考如下方案,按需学习。

一、简述

按个人偏好总结了学习目标与路径,后续将陆续整理相应学习资料,并输出学习笔记。

学习思路

快速应用 Transformer 等轮子来微调和使用 LLM,同时深入学习 NLP 预训练模型原理和推理部署(因为偏底层的东西变化不大)。

学习目标

  • 熟悉主流 LLM(Llama, ChatGLM, Qwen)的技术架构和技术细节;有实际应用 RAG、PEFT 和 SFT 的项目经验。
  • 较强的 NLP 基础,熟悉 BERT、GPT、Transformer、T5 等预训练语言模型的实现,有对话系统相关研发经验。
  • 掌握 TensorRT-LLM、vLLM 等主流推理加速框架,熟悉模型量化、FlashAttention 等推理加速技术方案,对分布式训练 DeepSpeed 框架有实战经验。
  • 熟悉 Pytorch,具备扎实的深度学习和机器学习基础,基本掌握 C/C++、Cuda 和计算机系统原理。

参考项目

  • LangChain 文档问答实践
  • MiniGPT 项目详解
  • NanoGPT 项目详解
  • HuggingFace PEFT 库详解

参考书籍

  • 《深度学习入门:基于 Python 的理论与实践》
  • 《深度学习进阶:自然语言处理》
  • Dive In Deep Learning (动手学深度学习)
  • 《神经网络与深度学习》
  • 《机器学习方法》

参考课程

  • 面向开发者的 LLM 入门课程(吴恩达课程 - 中文版)
  • 普林斯顿-COS 597G (Fall 2022): Understanding Large Language Models
  • 斯坦福-CS324 - Large Language Models

教程

  • Huggingface Transformers 官方课程
  • Transformers 快速入门(快速调包 BERT 系列)

学习方式

  • 力求快速应用(先调包,再深入学习)
  • 在实践中动手学习,力求搞懂每个关键点
  • 【原理学习】+【代码实践】 + 【输出总结】

基础知识

视频课程
  • 吴恩达机器学习入门
  • 李沐讲 AI
  • 台大李宏毅 - 机器学习
  • 斯坦福 NLP cs224n
书籍
  • 深度学习入门:基于 Python 的理论与实践,numpy 实现 MLP、卷积的训练
  • 《深度学习进阶:自然语言处理》:numpy 实现 Transformers、word2vec、RNN 的训练
  • Dive In Deep Learning(动手学深度学习)
  • 《神经网络与深度学习》
  • 《机器学习方法》:李航的 NLP 相关的机器学习 + 深度学习知识(按需选学)
强化学习
  • 强化学习教程 - 蘑菇书 EasyRL(李宏毅强化学习 + 强化学习纲要)
  • 动手学强化学习
博客
  • 苏剑林科学空间

学习纲要

1. Zero Shot / Few Shot 快速开箱即用
  • Prompt 调优: 包括上下文学习 (In-Context Learning, ICL) 和思维链 (Chain of Thought, COT)。
  • RAG (Retrieval Augmented Generation): 基于文档分块、向量索引和 LLM 生成,如 Langchain 文档问答。
2. 领域数据 - 指令微调 LLM
  • PEFT (Parameter-Efficient Fine-Tuning): 参数高效的微调,适合用于纠正模型输出格式。常见技术包括 LoRA、QLoRA、SLORA、P-Tuning v2。
  • SFT (Supervised Fintuning): 全参数监督微调,使用 prompt 指令样本全量微调 LLM(可以注入新的领域知识)。需要控制样本配比(领域数据 + 通用数据)。
3. 对齐
  • 对齐人类偏好 (RLHF): 包含 RewardModel 奖励模型(排序标注,判断答案价值)和 RL (PPO,更新 SFT 模型)。
  • 专注基于强化学习的大语言模型对齐,有前景的方向是 SuperhumanAI AutoALign。
4. 预训练
  • 小模型预训练 (GPT2, TinyLlama),不考虑训练参数规模较大的语言模型。
5. 训练推理优化
  • 模型量化、推理加速、蒸馏。
  • 推理框架(vLLM、TensorRT-LLM、Llama.cpp)。

二、学习目录

第 1 章 技术与需求分析

  • 1.1 技术分析: LLM 的发展历程与趋势,开源 LLM 生态(Llama 系列,Mistral/Mixtral-8X7B-MOE,ChatGLM/Baichuan/Qwen)。
  • 1.2 市场需求分析: 需求和就业市场分析(预训练、对齐、微调、应用、推理加速),商业落地分析 (2C、2B 应用场景)。

第 2 章 ChatGPT 背景与原理

  • 2.1 ChatGPT 的工作原理: 预训练与提示学习阶段,结果评价与奖励建模阶段,强化学习阶段。
  • 2.2 算法细节: 标注数据,建模思路。

第 3 章 预训练语言模型

  • 3.1 Transformer: 论文《Attention Is All Your Need》,解析与图解,Torch 代码详解和训练实战。
  • 3.2 GPT: GPT-1 到 GPT-4 论文及解析,60 行代码实现 GPT 推理 (PicoGPT),MiniGPT/NanoGPT 项目详解,GPT2 微调实战。
  • 3.3 BERT: 原理与可视化,BERT 结构和预训练代码实现,文本分类、NER、信息抽取、相似性检索 (SimCSE-BERT),衍生系列 (RoBERTa/ALBERT/DistillBERT)。
  • 3.4 T5 系列: T5-Pegasus 对话摘要微调,PromptClue 关键词抽取微调。
  • 3.5 UniLM: 模型介绍,基于夸夸闲聊数据的 UniLM 模型实战。

第 4 章 提示学习与大型语言模型

  • 4.1 提示学习 PromptLearning: 提示学习介绍,提示模板设计,答案空间映射设计。
  • 4.2 上下文学习 ContextLearning: 上下文学习介绍,预训练阶段提升上下文,推理阶段优化上下文。
  • 4.3 指令数据构建: 手动和自动构建指令,开源指令数据集,基于提示的文本情感分析实战。

第 5 章 开源大型语言模型

  • 5.1 Mistral: Mistral 7B Tutorial,MOE 模型结构源码解析,微调。
  • 5.2 Llama: Llama1/2 源码深入解析,优化与微调实战。
  • 5.3 ChatGLM: 简介,ChatGLM-6B/2/3 微调保姆级教程。

第 6 章 LLM 微调

  • 6.1 全量指令微调 SFT: 全量参数微调策略。
  • 6.2 高效微调 PEFT:
    • LoRA 系列: LoRA, ChatGLM-6B/2/3 微调,QLoRA (4 比特量化), AdaLoRa, SLoRA。
    • 其他: P-Tuning V2 介绍与实战。
    • 实战: HuggingFace PEFT 库详解,Deepspeed-Chat SFT 实践。

第 7 章 大型语言模型预训练

  • 7.1 预训练模型中的分词器: BPE, WordPiece, Unigram, SentencePiece 详解,MinBPE 实战。
  • 7.2 分布式训练: 并行策略,集群架构,Megatron-LM/DeepSpeed 详解,基于 DeepSpeed 的 GLM/LLaMA 分布式训练实践。
  • 7.3 MOE 混合专家模型: 基础概念,Mixstral-8X7B-MOE 介绍及相关论文。

第 8 章 LLM 应用

  • 8.1 推理规划: 思维链提示 (CoT),由少至多提示 (Least-to-Most Prompting)。
  • 8.2 综合应用框架: LangChain 框架核心模块,知识库问答实践。
  • 8.3 智能代理 AI Agent: 智能代理介绍,LLM Powered Autonomous Agents,应用实例。

第 9 章 LLM 加速

  • 9.1 注意力优化: FlashAttention 系列,PagedAttention,BigBird 块稀疏注意力。
  • 9.2 CPU 推理加速: Llama.cpp/ChatGLM.cpp 应用与代码详解。
  • 9.3 推理优化框架: vLLM 推理框架实践,TensorRT-LLM 应用与代码详解。
  • 9.4 训练加速: 相关优化技术。

第 10 章 强化学习

  • 10.1 强化学习概述: 基础概念。
  • 10.2 强化学习环境: 环境搭建。
  • 10.3 强化学习算法: Q-learning, DQN, Policy Gradient, Actor-Critic 算法。

第 11 章 PPO 算法与 RLHF 理论实战

  • 11.1 近端策略优化算法 PPO: 论文解读,广义优势估计,算法原理剖析,N 步实现细节,正向情感倾向性实战。
  • 11.2 基于人类反馈的强化学习 RLHF: InstructGPT 模型分析,RLHF 流程与内部剖析,数据收集与模型训练,MOSS-RLHF 实践,奖励模型训练与 PPO 微调。

第 12 章 类 ChatGPT 实战

  • 12.1 任务设计: 整体架构设计。
  • 12.2 数据准备: 基于文档生成问题任务的类,SFT/RM/RL 阶段数据处理。

第 13 章 语言模型训练数据

  • 13.1 数据来源: 通用数据,专业数据。
  • 13.2 数据处理: 低质过滤,冗余去除,隐私消除。
  • 13.3 数据影响分析: 数据规模、质量、多样性影响。
  • 13.4 开源数据集合: Pile, ROOTS, RefinedWeb, SlimPajama。

第 14 章 大语言模型评估

  • 14.1 模型评估概述: 评估的重要性。
  • 14.2 大语言模型评估体系: 知识与能力,伦理与安全,垂直领域评估。
  • 14.3 大语言模型评估方法: 评估指标与方法。
  • 14.4 大语言模型评估实践: 基础模型评估,SFT/RL 模型评估。

第 15 章 多模态大模型

  • 多模态大模型调研与实战。

第 16 章 大模型原生应用

  • 16.1 落地调研: 提供大模型基础服务(ChatGPT、Gemini、文心一言等),ToC/ToB 场景,开源模型增量预训练、微调及行业落地。规模化、自动化人的工作,替代人工,批量化生成或服务。
  • 16.2 应用分析: 具体案例分析。

一些思考

在企业里面做 7B、13B 量级的微调,主要就是在搞数据、样本,技术壁垒不高。预训练壁垒高,因为需要烧钱堆经验。

在这个日新月异的时代,如何紧跟行业主流发展,并具备不可替代性是个难题:

  • 稀缺(不可替代性)
  • 稳定(业务和表层技术天天变,但底层的理论变化不大)
  • 需求持续(最好是类似衣食住行的刚需,否则技术过时/热度褪去/不达预期,泡沫崩溃)
  • 不能越老越吃香(放到绝大多数行业都适用:不能经验积累,持续长期创造价值)
  • 壁垒(技术、业务、资本上有垄断)

尽量往底层和工程化上靠,学习相对不变的技术(理论上变化很难),迁移到稳定或有前景的行业,不断提升自己的学习效率:

  • 计算机系统知识(训练、推理、开发,模型推理部署工程化)
  • 数学(深入学习并实践)

大模型技术正在重塑软件开发的范式,掌握底层原理与工程化能力将成为未来核心竞争力。

目录

  1. 大模型学习路线
  2. 一、简述
  3. 学习思路
  4. 学习目标
  5. 参考项目
  6. 参考书籍
  7. 参考课程
  8. 教程
  9. 学习方式
  10. 基础知识
  11. 视频课程
  12. 书籍
  13. 强化学习
  14. 博客
  15. 学习纲要
  16. 1. Zero Shot / Few Shot 快速开箱即用
  17. 2. 领域数据 - 指令微调 LLM
  18. 3. 对齐
  19. 4. 预训练
  20. 5. 训练推理优化
  21. 二、学习目录
  22. 第 1 章 技术与需求分析
  23. 第 2 章 ChatGPT 背景与原理
  24. 第 3 章 预训练语言模型
  25. 第 4 章 提示学习与大型语言模型
  26. 第 5 章 开源大型语言模型
  27. 第 6 章 LLM 微调
  28. 第 7 章 大型语言模型预训练
  29. 第 8 章 LLM 应用
  30. 第 9 章 LLM 加速
  31. 第 10 章 强化学习
  32. 第 11 章 PPO 算法与 RLHF 理论实战
  33. 第 12 章 类 ChatGPT 实战
  34. 第 13 章 语言模型训练数据
  35. 第 14 章 大语言模型评估
  36. 第 15 章 多模态大模型
  37. 第 16 章 大模型原生应用
  38. 一些思考
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 设计模式与 LLM 的结合:以模版方法模式为例
  • 基于 Next.js 构建支持 TokenP 钱包登录的 DApp 前端实战
  • Z-Image-Turbo 与 Stable Diffusion 核心优势对比
  • GitHub Copilot Pro 学生免费认证与 VS Code 实战配置
  • VSCode 远程模式下 Copilot 无法调用 Claude 模型的解决方法
  • EFSI-DETR:无人机图像实时小目标检测的高效频域 - 语义集成方法
  • Python 全栈开发指南:基础、后端、爬虫、数据分析与机器学习实战
  • ROS 2 机器人运行与命令解析:海龟仿真器及 rqt 工具
  • CVE-2026-21962 Oracle WebLogic 代理插件漏洞分析与防护
  • LangChain 核心原理与 Java 工程化实践
  • Android 插件化开发:如何在插件中加载和使用 R 资源
  • Claude-Mem:为 Claude Code 实现跨会话长期记忆
  • Python 爬虫入门:构建第一个简单爬虫
  • 本地部署大模型与搭建个人 AI 知识库实战指南
  • Nanbeige 4.1-3B WebUI 实战:CSS :has() 实现动态对话布局
  • Kotlin 语言核心特性与常见陷阱测试题解析
  • AI 产品经理必备技术能力与学习路径指南
  • Clawdbot 部署指南:反向代理与 WebAuth 安全配置
  • 大模型开发基本功:推荐几个练手程序与优化实践
  • 三年销售助理转行软件测试工程师的求职经历与心得

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online