跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

AGI 大模型学习路线:从入门到就业实战指南

AGI 大模型学习路线,涵盖主流模型架构如 Llama、Qwen、ChatGLM 等。内容包含 Prompt 工程、微调技术(PEFT、SFT、RLHF)、推理加速框架(vLLM、TensorRT-LLM)及分布式训练(DeepSpeed)。同时涉及预训练语言模型原理(Transformer、BERT、GPT)、数据构建与评估体系,以及多模态应用落地方案。旨在帮助开发者掌握从基础理论到工程部署的全栈技能,提升在人工智能领域的竞争力。

清心发布于 2025/2/6更新于 2026/6/222 浏览
AGI 大模型学习路线:从入门到就业实战指南

大模型学习路线

建议先从主流的 Llama 开始,然后选用中文的 Qwen/Baichuan/ChatGLM,先快速上手体验 prompt 工程,然后再学习其架构,跑微调脚本。

如果要深入学习,建议再按以下步骤,从更基础的 GPT 和 BERT 学起,因为底层是相通的,而且实际落地到一个系统中,应该也是大模型结合小模型(大模型在做判别性的任务上,比 BERT 优势不是特别大)。

可以参考如下方案,按需学习。

一、简述

按个人偏好总结了学习目标与路径,后续将陆续整理相应学习资料,并输出学习笔记。

学习思路:快速应用 Transformer 等轮子来微调和使用 LLM,同时深入学习 NLP 预训练模型原理和推理部署(因为偏底层的东西变化不大)。

学习目标
  • 熟悉主流 LLM 技术:掌握 Llama, ChatGLM, Qwen 等技术架构和技术细节;有实际应用 RAG、PEFT 和 SFT 的项目经验。
  • 夯实 NLP 基础:具备较强的 NLP 基础,熟悉 BERT、GPT、Transformer、T5 等预训练语言模型的实现,有对话系统相关研发经验。
  • 掌握推理加速框架:掌握 TensorRT-LLM、vLLM 等主流推理加速框架,熟悉模型量化、FlashAttention 等推理加速技术方案,对分布式训练 DeepSpeed 框架有实战经验。
  • 全栈开发能力:熟悉 Pytorch,具备扎实的深度学习和机器学习基础,基本掌握 C/C++、Cuda 和计算机系统原理。
参考课程
  • 面向开发者的 LLM 入门课程(吴恩达课程 - 中文版)
  • 普林斯顿-COS 597G (Fall 2022): Understanding Large Language Models
  • 斯坦福-CS324 - Large Language Models
教程
  • Huggingface Transformers 官方课程
  • Transformers 快速入门(快速调包 BERT 系列)
学习方式
  • 力求快速应用(先调包,再深入学习)
  • 在实践中动手学习,力求搞懂每个关键点
  • 【原理学习】+【代码实践】 + 【输出总结】
基础知识
  • 视频课程
    • 吴恩达机器学习入门
    • 李沐讲 AI
    • 台大李宏毅 - 机器学习
    • 斯坦福 NLP cs224n
  • 书籍
    • 《深度学习入门:基于 Python 的理论与实践》:numpy 实现 MLP、卷积的训练
    • 《深度学习进阶:自然语言处理》:numpy 实现 Transformers、word2vec、RNN 的训练
    • Dive In Deep Learning(动手学深度学习)
    • 《神经网络与深度学习》
    • 《机器学习方法》:李航的 NLP 相关的机器学习 + 深度学习知识(按需选学)
  • 强化学习
    • 强化学习教程 - 蘑菇书 EasyRL(李宏毅强化学习 + 强化学习纲要)
    • 动手学强化学习
  • 博客
    • 苏剑林科学空间
学习纲要

应用:

1、Zero Shot / Few Shot 快速开箱即用

  • Prompt 调优:包括上下文学习 In-Context Learning (ICL),思维链 Chain of Thought (COT)。
  • RAG (Retrieval Augmented Generation):基于文档分块、向量索引和 LLM 生成,如 Langchain 文档问答。

2、领域数据 - 指令微调 LLM

  • PEFT (Parameter-Efficient Fine-Tuning):LoRA (Low-Rank Adaption of LLMs)、QLoRA、SLORA、P-Tuning v2。参数高效的微调适合用于纠正模型输出格式(PEFT 上限不高,并向 LLM 输入的知识有限)。
  • SFT (Supervised Fintuning):全参数监督微调,使用 prompt 指令样本全量微调 LLM(可以注入新的领域知识)。需要控制样本配比(领域数据 + 通用数据)。

3、对齐

  • 对齐人类偏好 (RLHF):RewardModel 奖励模型(排序标注,判断答案价值),RL (PPO,更新 SFT 模型)。
  • 专注基于强化学习的大语言模型对齐,有前景的方向是 SuperhumanAI AutoALign。

4、预训练

  • 小模型预训练 (GPT2, TinyLlama):不考虑训练参数规模较大的语言模型。

5、训练推理优化

  • 模型量化、推理加速、蒸馏。
  • 推理框架(vLLM、TensorRT-LLM、Llama.cpp)。
二、学习目录
第 1 章 技术与需求分析

1.1 技术分析

  • LLM 的发展历程与趋势
  • 开源 LLM 生态:Llama 系列,Mistral / Mixtral-8X7B-MOE,ChatGLM / Baichuan / Qwen

1.2 市场需求分析

  • 需求和就业市场分析:预训练、对齐、微调、应用、推理加速
  • 商业落地分析 (2C、2B 应用场景)
第 2 章 ChatGPT 背景与原理

2.1 ChatGPT 的工作原理

  • 预训练与提示学习阶段
  • 结果评价与奖励建模阶段
  • 强化学习阶段

2.2 算法细节

  • 标注数据
  • 建模思路
第 3 章 预训练语言模型

3.1 Transformer

  • 论文《Attention Is All Your Need》
  • 解析:图解 Transformer,详解 Transformer 原理
  • 实战:Torch 代码详解和训练实战

3.2 GPT

  • 论文:GPT-1 至 GPT-4 Technical Report
  • 解析:GPT2 图解,GPT3 分析,GPT 原理分析
  • 推理:60 行代码实现 GPT 推理(PicoGPT),用 C++ 实现 GPT
  • 训练:训练 GPT2 语言模型,Transformers 库 GPT 实现分析,MiniGPT 项目详解,NanoGPT 项目详解,莎士比亚数据训练,GPT2 微调文本摘要实战

3.3 BERT

  • 原理:BERT 可视化,BERT 原理
  • 实战:BERT 结构和预训练代码实现,基于 HuggingFace 的 BERT 预训练,BERT 微调(文本分类,BERT-CRF NER,BERT+ 指针网络 UIE 信息抽取,文本摘要/问答,相似性检索 SimCSE-BERT)
  • 衍生系列:RoBERTa / ALBERT / DistillBERT

3.4 T5 系列

  • T5-Pegasus 对话摘要微调
  • PromptClue 关键词抽取微调

3.5 UniLM

  • UniLM 模型介绍
  • 基于夸夸闲聊数据的 UniLM 模型实战
第 4 章 提示学习与大型语言模型

4.1 提示学习 PromptLearning

  • 提示学习介绍,提示模板设计,答案空间映射设计

4.2 上下文学习 ContextLearning

  • 上下文学习介绍,预训练阶段提升上下文,推理阶段优化上下文

4.3 指令数据构建

  • 手动和自动构建指令,开源指令数据集,基于提示的文本情感分析实战
第 5 章 开源大型语言模型

5.1 Mistral

  • Mistral 7B Tutorial,Mistral-8X7B-MOE 的模型结构,源码解析,微调

5.2 Llama

  • Llama1 及源码深入解析,Llama2 及其优化,源码解析,Llama2-6B 微调

5.3 ChatGLM

  • ChatGLM 简介,ChatGLM-6B 微调,ChatGLM2 微调保姆级教程
第 6 章 LLM 微调

6.1 全量指令微调 SFT

6.2 高效微调 PEFT

  • LoRA 系列:LoRA, ChatGLM-6B, ChatGLM2 微调,ChatGLM3-6B 微调,QLoRA, AdaLoRa, SLoRA
  • 其他:P-Tuning V2 介绍及微调实战
  • 实战:HuggingFace PEFT 库详解,Deepspeed-Chat SFT 实践
第 7 章 大型语言模型预训练

7.1 预训练模型中的分词器

  • BPE 详解,WordPiece 详解,Unigram 详解,SentencePiece 详解,MinBPE 实战和分析

7.2 分布式训练

  • 概述,并行策略,集群架构,框架(Megatron-LM 详解,DeepSpeed 详解)
  • 实践:基于 DeepSpeed 的 GLM 预训练实战,基于 DeepSpeed 的 LLaMA 分布式训练实践

7.3 MOE 混合专家模型

  • 基础概念,Mixstral-8X7B-MOE 介绍,相关论文
第 8 章 LLM 应用

8.1 推理规划

  • 思维链提示(Chain-of-Thought Prompting),论文,实战,由少至多提示(Least-to-Most Prompting)

8.2 综合应用框架

  • LangChain 框架核心模块,9 个范例带你入门 langchain,知识库问答实践

8.3 智能代理 AI Agent

  • 智能代理介绍,LLM Powered Autonomous Agents,智能代理的应用实例
第 9 章 LLM 加速

9.1 注意力优化

  • FlashAttention 系列,PagedAttention,深入理解 BigBird 的块稀疏注意力

9.2 CPU 推理加速

  • Llama.c 应用与代码详解,Llama.cpp 应用与代码详解,ChatGLM.cpp 应用与代码详解

9.3 推理优化框架

  • vLLM 推理框架实践,TensorRT-LLM 应用与代码详解

9.4 训练加速

第 10 章 强化学习

10.1 强化学习概述

10.2 强化学习环境

10.3 强化学习算法

  • Q-learning 算法,DQN 算法,Policy Gradient 算法,Actor-Critic 算法
第 11 章 PPO 算法与 RLHF 理论实战

11.1 近端策略优化算法 PPO

  • PPO 论文,介绍,广义优势估计,原理剖析,对比与评价,使用 PPO 算法进行 RLHF 的 N 步实现细节,实战,基于 PPO 的正向情感倾向性

11.2 基于人类反馈的强化学习 RLHF

  • InstructGPT 模型分析,Training language models to follow instructions with human feedback 论文,RLHF 流程,内部剖析,详解大模型 RLHF 过程(配代码解读),价值分析,问题分析,数据收集与模型训练,实践(数据预处理模块,模型训练\生成\评估,MOSS-RLHF 实践,奖励模型训练,PPO 微调)
第 12 章 类 ChatGPT 实战

12.1 任务设计

12.2 数据准备

  • 基于文档生成问题任务的类,SFT 阶段,RM 阶段,RL 阶段
第 13 章 语言模型训练数据

13.1 数据来源

  • 通用数据,专业数据

13.2 数据处理

  • 低质过滤,冗余去除,隐私消除

13.3 数据影响分析

  • 数据规模影响,数据质量影响,数据多样性影响

13.4 开源数据集合

  • Pile, ROOTS, RefinedWeb, SlimPajama
第 14 章 大语言模型评估

14.1 模型评估概述

14.2 大语言模型评估体系

  • 知识与能力,伦理与安全,垂直领域评估

14.3 大语言模型评估方法

  • 评估指标,评估方法

14.4 大语言模型评估实践

  • 基础模型评估,SFT/RL 模型评估
第 15 章 多模态大模型
  • 多模态大模型调研,实战
第 16 章 大模型原生应用

16.1 落地调研

  • 应用分析:提供大模型基础服务(ChatGPT、Gemini、文心一言和 GLM4 等,主要面向 ToC/ToB 提供 chat 能力(内容创作、代码开发等),通过会员收费或按 Token 计费)
  • ToB 提供成套解决方案,集成现有接口二次开发,应用开发
  • 开源模型增量预训练、全量微调、高效微调,行业内落地
  • 模型最终还需落地解决实际问题,创造价值:优化现有问题、满足、甚至创造用户需求。总的来说,就是规模化、自动化人的工作,替代人工,批量化、大规模生成或提供服务。

16.2 应用分析

一些思考

在企业里面做 7B、13B 量级的微调,主要就是在搞数据、样本,技术壁垒不高。预训练壁垒高,因为需要烧钱堆经验。

在这个日新月异的时代,如何紧跟行业主流发展,并具备不可替代性是个难题:

  • 稀缺:不可替代性
  • 稳定:业务和表层技术天天变,但底层的理论变化不大
  • 需求持续:最好是类似衣食住行的刚需,否则技术过时/热度褪去/不达预期,泡沫崩溃
  • 不能越老越吃香:放到绝大多数行业都适用:不能经验积累,持续长期创造价值
  • 壁垒:技术、业务、资本上有垄断

尽量往底层和工程化上靠,学习相对不变的技术(理论上变化很难),迁移到稳定或有前景的行业,不断提升自己的学习效率:

  • 计算机系统知识:训练、推理、开发,模型推理部署工程化
  • 数学:深入学习并实践

目录

  1. 大模型学习路线
  2. 一、简述
  3. 学习目标
  4. 参考课程
  5. 教程
  6. 学习方式
  7. 基础知识
  8. 学习纲要
  9. 二、学习目录
  10. 第 1 章 技术与需求分析
  11. 第 2 章 ChatGPT 背景与原理
  12. 第 3 章 预训练语言模型
  13. 第 4 章 提示学习与大型语言模型
  14. 第 5 章 开源大型语言模型
  15. 第 6 章 LLM 微调
  16. 第 7 章 大型语言模型预训练
  17. 第 8 章 LLM 应用
  18. 第 9 章 LLM 加速
  19. 第 10 章 强化学习
  20. 第 11 章 PPO 算法与 RLHF 理论实战
  21. 第 12 章 类 ChatGPT 实战
  22. 第 13 章 语言模型训练数据
  23. 第 14 章 大语言模型评估
  24. 第 15 章 多模态大模型
  25. 第 16 章 大模型原生应用
  26. 一些思考
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Web 应用架构与安全漏洞学习框架
  • JNI 开发:C++ Debug 正常 Release 返回 NaN 原因解析
  • 基于 Spring Boot 和 Leaflet 的省级旅游口号 WebGIS 可视化实现
  • Electron 前端桌面应用开发快速入门教程
  • Web 架构深度解析:前后端分离与传统模式对比
  • MCP 工具安装指南:npx 与 uvx 对比及使用
  • GPT-OSS-20B 多用户并发 WEBUI 压力测试
  • 深度强化学习在足式机器人中的应用(七):从仿真到现实部署实践
  • Xilinx 7 Series FPGA I/O引脚分配优化策略:从SSN分析到PCB布局
  • 前端大数据导出优化:解决 Chrome 内存崩溃的实战方案
  • Whisper 云端镜像 5 分钟上手:无需显卡的 AI 语音方案
  • LazyLLM 多 Agent 应用实战:源码部署与 Web 调试指南
  • 基于深度学习的无人机航拍小目标检测算法研究
  • Web 可访问性最佳实践:构建人人可用的前端界面
  • VS2019下C++调用YOLOv3动态链接库实现目标检测
  • IoT DevOps 实战:基于设备影子的万级电梯网关集群自动化运维架构
  • LangChain 实战:工具调用与结构化输出应用指南
  • AI 办公实战指南:7 套书籍助你精准提效与职场进阶
  • Neo4j Desktop 2 安装与使用指南
  • 前端接入腾讯云 ASR 实时语音识别实践

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online