大语言模型(LLM)学习路径与核心资源指南
本文旨在为工程技术人员提供系统的大语言模型(Large Language Model, LLM)学习路径。内容涵盖从基础概念、进阶原理、应用开发到深入微调的四个阶段,精选了业界主流的资源与工具,帮助读者构建完整的知识体系。
0x00 学习路径概览
本文分为四个章节,各章节的学习目标如下。请注意本文主要是面向工程界撰写,学术部分较少,侧重于落地实践。
入门篇
- 目标:了解大语言模型的基础知识和常见术语。
- 技能:学会使用编程语言访问 OpenAI API 等常见大语言模型接口。
- 重点:熟悉 Prompt 的基本交互模式,理解 Token 的概念。
提高篇
- 目标:了解机器学习、神经网络、NLP 的基础知识。
- 技能:掌握 Transformer 以及典型 Decoder-only 语言模型的基础结构和简单原理。
- 视野:了解大语言模型发展历史,以及业界主流模型(含开源模型)进展。
应用篇
- 目标:可以在本地环境搭建开源模型的推理环境。
- 技能:掌握 Prompt 工程技巧,优化模型输出质量。
- 实战:使用已有框架(如 LangChain)或自行开发,结合大语言模型结果,开发生产级应用。
深入篇
- 目标:掌握 Continue Pre-train、Fine-tuning 已有开源模型的能力。
- 技能:掌握 LoRA、QLoRA 等低资源高效模型训练的能力。
- 运维:掌握大语言模型微调以及预训练数据准备的能力,深入了解生产环境部署大模型的相关技术点。
读者可以根据自己需要选择对应的章节。如对大语言模型的原理不感兴趣,可只关注入门篇和应用篇。考虑到阅读背景,本文尽可能提供中文资料或有中文翻译的资料。
0x10 入门篇
在入门之前,请申请 OpenAI API,并具备良好的国际互联网访问条件。
大语言模型综述
大语言模型迄今为止最好的学术向中文综述,适合建立宏观认知。
- 文档:LLM_Survey_Chinese_0418.pdf
- 说明:作为入门资料偏难,看不懂的部分可以等到后面章节再回头重看。
ChatGPT Prompt Engineering for Developers
虽然是 Prompt 工程,但是内容比较简单,适合入门者快速上手。
OpenAI Quickstart
OpenAI 官方 Quickstart 文档,包含最基础的调用示例。
- 文档:API Reference
State of GPT
GPT 联合创始人做的演示,极好的总结了 GPT 的训练和应用。


