LLM 大语言模型入门指南
01 术语清单
核心概念速查
大语言模型(Large Language Model, LLM)是基于深度学习技术构建的,能够理解、生成和处理人类语言的模型。理解其基础术语是进入该领域的第一步。
- Transformer: 当前 LLM 的主流架构,基于自注意力机制(Self-Attention),能够并行处理序列数据,解决了 RNN 和 LSTM 在处理长序列时的梯度消失问题。
- Tokenization: 将文本分割为 Token 的过程。Token 可以是单词、子词或字符。分词策略直接影响模型的上下文窗口大小和训练效率。
- Attention Mechanism: 允许模型在生成输出时关注输入序列的不同部分,从而捕捉长距离依赖关系。
- Pre-training: 使用海量无标注数据对模型进行预训练,使其学习通用的语言表示。
- Fine-tuning: 在预训练模型的基础上,使用特定领域的有标注数据进行微调,以适应具体任务。
- Inference: 模型部署后,接收输入并生成输出的过程。

如需进一步补充内容,建议参考权威技术文档或官方论文。
02 学习路径
系统化路线图
mlabonne 创建了一个 GitHub 仓库名为 llm-course,这是一个非常系统的学习 LLM 的路线图。路线图共分为三个主要部分:
- LLM Fundamentals: 涵盖基础理论,包括 Transformer 架构、注意力机制、位置编码等。
- The LLM Scientist: 深入探讨模型原理,涉及预训练、评估指标及前沿研究。
- The LLM Engineer: 侧重于工程实践,包括模型部署、推理优化及实际应用开发。
每个部分都包含相关的文章、视频、课程、项目、代码和论文,供学习者参考。该仓库 Star 数超过 2 万,Fork 数超过 2 千,且有活跃的 Issue 讨论,是一份高质量的学习资料。
GitHub 地址:https://github.com/mlabonne/llm-course
03 书籍推荐
经典教材与实战指南
《Understanding Large Language Models》
这是一本适合入门的书籍,共 145 页。主要介绍了大型语言模型的基本原理和底层技术。阅读本书,您将能够掌握 LLM 的基本概念,了解自然语言处理(NLP)的发展历程,理解 Transformer 模型和注意力机制,开始探索不同类型的 LLM 及其应用,并且能够掌握流行的 LLM 架构。
《Build A Large Language Model》
本书作者 Sebastian Raschka 深入剖析了大语言模型的工作原理,并手把手地教授读者如何从零开始构建、训练和调整大型语言模型。跟随书籍内容的展开,读者将能够一步步揭开 LLM 的神秘面纱,并学习按照业界标准步骤来训练和开发自己的小型语言模型。
这本书共 8 章,处于 MEAP (Manning Early Access) 预览阶段,目前更新的章节允许在线阅读。作者在 GitHub 开源了书籍配套的全部代码,还在实时更新和维护中。你可以根据作者提供的技巧与建议,在自己的电脑上完成语言模型的开发和部署。
GitHub 地址:https://github.com/rasbt/LLMs-from-scratch/tree/main

