LLM 大语言模型入门指南：术语、路径与资源精选

LLM 大语言模型入门指南

01 术语清单

核心概念速查

大语言模型（Large Language Model, LLM）是基于深度学习技术构建的，能够理解、生成和处理人类语言的模型。理解其基础术语是进入该领域的第一步。

Transformer: 当前 LLM 的主流架构，基于自注意力机制（Self-Attention），能够并行处理序列数据，解决了 RNN 和 LSTM 在处理长序列时的梯度消失问题。
Tokenization: 将文本分割为 Token 的过程。Token 可以是单词、子词或字符。分词策略直接影响模型的上下文窗口大小和训练效率。
Attention Mechanism: 允许模型在生成输出时关注输入序列的不同部分，从而捕捉长距离依赖关系。
Pre-training: 使用海量无标注数据对模型进行预训练，使其学习通用的语言表示。
Fine-tuning: 在预训练模型的基础上，使用特定领域的有标注数据进行微调，以适应具体任务。
Inference: 模型部署后，接收输入并生成输出的过程。

LLM 术语示意图

如需进一步补充内容，建议参考权威技术文档或官方论文。

02 学习路径

系统化路线图

mlabonne 创建了一个 GitHub 仓库名为 llm-course，这是一个非常系统的学习 LLM 的路线图。路线图共分为三个主要部分：

LLM Fundamentals: 涵盖基础理论，包括 Transformer 架构、注意力机制、位置编码等。
The LLM Scientist: 深入探讨模型原理，涉及预训练、评估指标及前沿研究。
The LLM Engineer: 侧重于工程实践，包括模型部署、推理优化及实际应用开发。

每个部分都包含相关的文章、视频、课程、项目、代码和论文，供学习者参考。该仓库 Star 数超过 2 万，Fork 数超过 2 千，且有活跃的 Issue 讨论，是一份高质量的学习资料。

GitHub 地址：https://github.com/mlabonne/llm-course

03 书籍推荐

经典教材与实战指南

《Understanding Large Language Models》

这是一本适合入门的书籍，共 145 页。主要介绍了大型语言模型的基本原理和底层技术。阅读本书，您将能够掌握 LLM 的基本概念，了解自然语言处理（NLP）的发展历程，理解 Transformer 模型和注意力机制，开始探索不同类型的 LLM 及其应用，并且能够掌握流行的 LLM 架构。

《Build A Large Language Model》

本书作者 Sebastian Raschka 深入剖析了大语言模型的工作原理，并手把手地教授读者如何从零开始构建、训练和调整大型语言模型。跟随书籍内容的展开，读者将能够一步步揭开 LLM 的神秘面纱，并学习按照业界标准步骤来训练和开发自己的小型语言模型。

这本书共 8 章，处于 MEAP (Manning Early Access) 预览阶段，目前更新的章节允许在线阅读。作者在 GitHub 开源了书籍配套的全部代码，还在实时更新和维护中。你可以根据作者提供的技巧与建议，在自己的电脑上完成语言模型的开发和部署。

GitHub 地址：https://github.com/rasbt/LLMs-from-scratch/tree/main

LLM 大语言模型入门指南：术语、路径与资源精选