大型语言模型（LLM）核心技术与应用学习路线

大型语言模型（LLM）课程路线图

LLM 课程概览

大型语言模型（LLM）的学习路径通常分为三个主要阶段，旨在帮助学习者从基础理论逐步过渡到高级应用开发。

LLM Fundamentals：涵盖数学、Python 编程和神经网络的基础知识，为后续学习奠定基石。
LLM Scientist：专注于使用最新技术构建和优化 LLM 模型本身。
LLM Engineer：专注于创建基于 LLM 的应用程序并部署它们，解决实际业务问题。

LLM 角色分工

🧑‍🔬 LLM 科学家

本部分侧重于学习如何使用最新技术构建最好的 LLM。适合希望深入模型底层原理的研究人员和工程师。

1. LLM 架构

理解大模型的底层架构是构建和优化模型的基础。虽然不需要对 Transformer 架构有深入的了解，但对其输入（token）和输出（logits）有很好的理解是很重要的。原版注意力机制是另一个需要掌握的关键组件，因为稍后会介绍它的改进版本。

高级视图：重新审视编码器 - 解码器 Transformer 架构，更具体地说，是每个现代 LLM 中使用的仅解码器 GPT 架构。
分词：了解如何将原始文本数据转换为模型可以理解的格式，这涉及将文本拆分为分词（通常是单词或子词）。
注意力机制：掌握注意力机制背后的理论，包括自我注意和缩放点积注意力，这使模型在产生输出时能够专注于输入的不同部分。
文本生成：了解模型生成输出序列的不同方式。常见的策略包括贪婪解码、波束搜索、top-k 采样和原子核采样。

📚 参考资料：

Jay Alammar 的 The Illustrated Transformer：对 Transformer 模型的直观解释。
Jay Alammar 的 GPT-2 图解：侧重于 GPT 架构，这与 Llama 的架构非常相似。
3Blue1Brown 的《变形金刚》视觉介绍：简单易懂的视觉介绍。
Brendan Bycroft 的 LLM 可视化：令人难以置信的 LLM 内部发生的 3D 可视化。
Andrej Karpathy 的 nanoGPT：一个长达 2 小时的 YouTube 视频，从头开始重新实现 GPT（面向程序员）。
注意力？注意力！作者：Lilian Weng：以更正式的方式介绍关注的必要性。
LLM 中的解码策略：提供代码和可视化介绍以生成文本的不同解码策略。

2. 构建指令数据集

虽然很容易从 Wikipedia 和其他网站找到原始数据，但很难在野外收集成对的说明和答案。与传统机器学习一样，数据集的质量将直接影响模型的质量，这就是为什么它可能是微调过程中最重要的组成部分。

类似 Alpaca 的数据集：使用 OpenAI API（GPT）从头开始生成合成数据。您可以指定种子和系统提示来创建多样化的数据集。
高级技术：了解如何使用 Evol-Instruct 改进现有数据集，如何生成高质量的合成数据，如 Orca 和 phi-1 论文中所示。
筛选数据：涉及正则表达式、删除近乎重复项、专注于具有大量标记的答案等的传统技术。
提示模板：没有真正的标准方法来格式化说明和答案，这就是为什么了解不同的聊天模板（例如 ChatML、Alpaca 等）很重要的原因。

大型语言模型（LLM）核心技术与应用学习路线

大型语言模型（LLM）课程路线图

🧑‍🔬 LLM 科学家

1. LLM 架构

2. 构建指令数据集

更多推荐文章

相关免费在线工具

3. 预训练模型

4. 监督微调 (SFT)

5. 首选项对齐

6. 评估

7. 量化

8. 新趋势

👷 LLM 工程师

核心技能栈

实战建议

结语

更多推荐文章

相关免费在线工具

大型语言模型（LLM）核心技术与应用学习路线

大型语言模型（LLM）课程路线图

🧑‍🔬 LLM 科学家

1. LLM 架构

2. 构建指令数据集

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 预训练模型

4. 监督微调 (SFT)

5. 首选项对齐

6. 评估

7. 量化

8. 新趋势

👷 LLM 工程师

核心技能栈

实战建议

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具