大型语言模型(LLM)课程路线图

大型语言模型(LLM)的学习路径通常分为三个主要阶段,旨在帮助学习者从基础理论逐步过渡到高级应用开发。
- LLM Fundamentals:涵盖数学、Python 编程和神经网络的基础知识,为后续学习奠定基石。
- LLM Scientist:专注于使用最新技术构建和优化 LLM 模型本身。
- LLM Engineer:专注于创建基于 LLM 的应用程序并部署它们,解决实际业务问题。

🧑🔬 LLM 科学家
本部分侧重于学习如何使用最新技术构建最好的 LLM。适合希望深入模型底层原理的研究人员和工程师。
1. LLM 架构
理解大模型的底层架构是构建和优化模型的基础。虽然不需要对 Transformer 架构有深入的了解,但对其输入(token)和输出(logits)有很好的理解是很重要的。原版注意力机制是另一个需要掌握的关键组件,因为稍后会介绍它的改进版本。
- 高级视图:重新审视编码器 - 解码器 Transformer 架构,更具体地说,是每个现代 LLM 中使用的仅解码器 GPT 架构。
- 分词:了解如何将原始文本数据转换为模型可以理解的格式,这涉及将文本拆分为分词(通常是单词或子词)。
- 注意力机制:掌握注意力机制背后的理论,包括自我注意和缩放点积注意力,这使模型在产生输出时能够专注于输入的不同部分。
- 文本生成:了解模型生成输出序列的不同方式。常见的策略包括贪婪解码、波束搜索、top-k 采样和原子核采样。
📚 参考资料:
- Jay Alammar 的 The Illustrated Transformer:对 Transformer 模型的直观解释。
- Jay Alammar 的 GPT-2 图解:侧重于 GPT 架构,这与 Llama 的架构非常相似。
- 3Blue1Brown 的《变形金刚》视觉介绍:简单易懂的视觉介绍。
- Brendan Bycroft 的 LLM 可视化:令人难以置信的 LLM 内部发生的 3D 可视化。
- Andrej Karpathy 的 nanoGPT:一个长达 2 小时的 YouTube 视频,从头开始重新实现 GPT(面向程序员)。
- 注意力?注意力!作者:Lilian Weng:以更正式的方式介绍关注的必要性。
- LLM 中的解码策略:提供代码和可视化介绍以生成文本的不同解码策略。
2. 构建指令数据集
虽然很容易从 Wikipedia 和其他网站找到原始数据,但很难在野外收集成对的说明和答案。与传统机器学习一样,数据集的质量将直接影响模型的质量,这就是为什么它可能是微调过程中最重要的组成部分。
- 类似 Alpaca 的数据集:使用 OpenAI API(GPT)从头开始生成合成数据。您可以指定种子和系统提示来创建多样化的数据集。
- 高级技术:了解如何使用 Evol-Instruct 改进现有数据集,如何生成高质量的合成数据,如 Orca 和 phi-1 论文中所示。
- 筛选数据:涉及正则表达式、删除近乎重复项、专注于具有大量标记的答案等的传统技术。
- 提示模板:没有真正的标准方法来格式化说明和答案,这就是为什么了解不同的聊天模板(例如 ChatML、Alpaca 等)很重要的原因。

