跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像 AI 生图工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

大型语言模型（LLM）入门指南：核心知识点与资源整理 | 极客日志

PythonAI算法

大型语言模型（LLM）入门指南：核心知识点与资源整理

系统梳理了大型语言模型（LLM）的学习路径，涵盖基础数学与编程、模型构建与微调、以及应用部署三大方向。内容涉及机器学习原理、Transformer 架构、指令微调、RLHF、量化技术及检索增强生成（RAG）等核心技术点，并整理了相关的工具库与学习资源，旨在为开发者提供从入门到实战的完整参考。

CoderByte发布于 2025/2/7更新于 2026/7/2135 浏览

大型语言模型（LLM）入门指南：核心知识点与资源整理

大型语言模型（LLM）学习路径概览

本篇大型语言模型（LLM）课程分为三个主要部分，旨在帮助开发者从基础到实战全面掌握 LLM 技术：

LLM 基础：涵盖数学、Python 和神经网络的基本知识，为深入理解模型原理打下基础。
LLM 科学家：专注于使用最新技术构建尽可能优秀的 LLM，涉及预训练、微调及评估。
LLM 工程师：专注于创建基于 LLM 的应用并部署它们，包括 RAG、推理优化及安全。

0. 有用的 Notebook 与工具

以下是与大型语言模型相关的笔记本和资源列表，按功能分类：

工具类

RunPod：用于自动评估大语言模型（LLMs）的云平台。
LazyMergekit：轻松使用 MergeKit 一键合并模型的工具。
AutoGGUF：一键将大语言模型（LLMs）量化为 GGUF 格式。
Model Family Tree：可视化被合并模型的家族树结构。

Fine-tuning（微调）

Colab Llama2：使用 Colab 对 Llama2 进行微调的教程。
Axolotl：使用 Axolotl 对 LLMs 进行高效微调。
DPO Mistral-7b：使用直接偏好优化（DPO）对 Mistral-7b 进行微调。

Quantization（量化）

8-bit 量化：使用 8-bit 量化优化大语言模型。
GPTQ：使用 GPTQ 进行 4-bit 量化。
GGUF & llama.cpp：使用 GGUF 和 llama.cpp 进行量化及推理。
ExLlamaV2：LLMs 运行最快的库之一。

其他资源

解码策略：大语言模型 LLMs 中的解码策略解析。
损失函数可视化：GPT-2 的损失函数值可视化分析。
知识图谱：使用知识图谱提升 ChatGPT 能力。
模型合并：使用 mergekit 合并 LLMs 的方法。

1. LLM 基础

1.1 机器学习 ML 的数学基础

在学习机器学习之前，了解这些算法背后的基本数学概念非常重要。

线性代数：对于理解许多算法至关重要，尤其是那些用于深度学习的算法。关键概念包括向量、矩阵、行列式、特征值和特征向量、向量空间以及线性变换。
微积分：许多机器学习算法涉及连续函数的优化，这需要理解导数、积分、极限和级数。多变量微积分和梯度概念也很重要。
概率与统计：这些对于理解模型如何从数据中学习并进行预测至关重要。关键概念包括概率论、随机变量、概率分布、期望、方差、协方差、相关性、假设检验、置信区间、最大似然估计和贝叶斯推断。

1.2 ML 中的 Python

Python 是一种功能强大且灵活的编程语言，由于其可读性、一致性以及数据科学库的强大生态系统，特别适合用于机器学习。

Python 基础：需要对基本语法、数据类型、错误处理和面向对象编程有良好的理解。
数据科学库：包括熟悉用于数值运算的 NumPy，用于数据操作和分析的 Pandas，以及用于数据可视化的 Matplotlib 和 Seaborn。

数据预处理：涉及特征缩放和归一化、处理缺失数据、异常值检测、分类数据编码以及将数据分割为训练集、验证集和测试集。

机器学习库：熟练掌握 Scikit-learn 库至关重要，该库提供了广泛的监督和无监督学习算法。了解如何实现线性回归、逻辑回归、决策树、随机森林、k-最近邻（K-NN）和 K-均值聚类等算法很重要。降维技术如 PCA 和 t-SNE 对于可视化高维数据也非常有帮助。

1.3 神经网络

神经网络是许多机器学习模型的基本组成部分，特别是在深度学习领域。为了有效地利用它们，全面理解它们的设计和机制是必不可少的。

基础知识：包括理解神经网络的结构，如层、权重、偏置和激活函数（sigmoid、tanh、ReLU 等）。
训练和优化：熟悉反向传播和不同类型的损失函数，如均方误差（MSE）和交叉熵。理解各种优化算法，如梯度下降、随机梯度下降、RMSprop 和 Adam。
过拟合：理解过拟合的概念（模型在训练数据上表现良好，但在未见数据上表现不佳），并学习各种正则化技术（dropout、L1/L2 正则化、早停、数据增强）以防止过拟合。
实现多层感知器（MLP）：使用 PyTorch 构建一个 MLP，也称为全连接网络。

1.4 自然语言处理（NLP）

NLP 是人工智能的一个迷人分支，它弥合了人类语言和机器理解之间的差距。从简单的文本处理到理解语言的细微差别，NLP 在许多应用中扮演着至关重要的角色，比如翻译、情感分析、聊天机器人等。

文本预处理：学习各种文本预处理步骤，如分词（将文本分割成单词或句子）、词干提取（将单词还原到基本形式）、词形还原（类似于词干提取但考虑上下文）、停用词移除等。
特征提取技术：熟悉将文本数据转换为机器学习算法可以理解的格式的技术。关键方法包括词袋模型（BoW）、词频 - 逆文档频率（TF-IDF）和 n-gram。
词嵌入：词嵌入是一种单词表示类型，允许意义相似的单词具有相似的表示。关键方法包括 Word2Vec、GloVe 和 FastText。
循环神经网络（RNNs）：理解 RNNs 的工作原理，这是一种专为处理序列数据设计的神经网络。探索 LSTM 和 GRU，这两种 RNN 变体能够学习长期依赖关系。

2. LLM Scientist

本节专注于学习如何使用最新技术构建最佳的大型语言模型（LLMs）。

2.1 LLM 架构

虽然不需要深入了解 Transformer 架构的所有细节，但了解其输入（token）和输出（logits）是很重要的。标准的注意力机制是另一个关键组成部分，需要掌握，因为后续会介绍其改进版本。

高层次视角：重新审视编码器 - 解码器 Transformer 架构，更具体地说是解码器 GPT 架构，在 LLM 中都有使用。
分词：理解如何将原始文本转换为模型可以理解的格式，这涉及到将文本分割成 token（通常是单词或子词）。
注意力机制：掌握注意力机制背后的理论，包括 self-attention 和 scaled dot-product attention，这允许模型在生成输出时关注输入的不同部分。
文本生成：了解模型可以生成输出序列的不同方式。常见策略包括贪婪解码、束搜索、Top-k 采样和核采样。

2.2 构建指令数据集

虽然从维基百科和其他网站找到原始数据很容易，但在野外收集指令和答案的配对却很困难。与传统机器学习一样，数据集的质量将直接影响模型的质量，这就是为什么它可能是微调过程中最重要的组成部分。

类的数据集：使用 OpenAI API（GPT）从头开始生成合成数据。您可以指定种子和系统提示，以创建多样化的数据集。
高级技术：学习如何使用改进现有数据集，以及如何生成高质量的合成数据。
数据过滤：涉及正则表达式的传统技术，去除近似重复项，专注于具有高 token 数量的答案等。
提示模板：格式化指令和答案没有真正的标准方式，这就是为什么了解不同的聊天模板，如 Alpaca 等，是很重要的。

2.3 预训练模型

预训练是一个非常漫长且成本高昂的过程，这就是为什么这不是本课程的重点。了解预训练期间发生的事情有一定的理解水平是好的，但不需要实践经验。

数据管道：预训练需要巨大的数据集（例如，Llama 2 是在 2 万亿个 token 上训练的），这些数据集需要被过滤、分词，并与预定义的词汇表整合。
因果语言建模：了解因果语言建模和掩蔽语言建模之间的区别，以及在这种情况下使用的损失函数。
Scaling laws：描述了基于模型大小、数据集大小和用于训练的计算量预期的模型性能。
高性能计算：如果计划从头开始创建自己的 LLM（硬件、分布式工作负载等），更多关于 HPC 的知识是基础。

2.4 监督式微调

预训练模型仅在下一个 token 预测任务上进行训练，这就是为什么它们不是有用的助手。SFT（监督式微调）允许您调整它们以响应指令。此外，它允许您在任何数据上微调您的模型（私有的、GPT-4 未见过的等），并且无需支付像 OpenAI 这样的 API 费用。

全微调：全微调指的是训练模型中的所有参数。这不是一种高效的技术，但它可以产生稍微更好的结果。
LoRA：一种基于低秩适配器的参数高效技术（PEFT）。我们不是训练所有参数，而是只训练这些适配器。
QLoRA：另一种基于 LoRA 的 PEFT，它还将模型的权重量化为 4 位，并引入分页优化器来管理内存峰值。结合 Unsloth，可以在免费的 Colab 笔记本上高效运行。
Axolotl：一个用户友好且强大的微调工具，被许多最先进的开源模型使用。

2.5 RLHF（基于人类反馈的强化学习）

在监督式微调之后，RLHF 是一个用于使大型语言模型（LLM）的答案与人类期望对齐的步骤。这个想法是从人类（或人工）反馈中学习偏好，这可以用来减少偏见、审查模型或使它们以更有用的方式行动。它比 SFT 更复杂，通常被视为可选的。

偏好数据集：这些数据集通常包含几个答案，并附有某种排名，这使得它们比指令数据集更难制作。
近端策略优化（PPO）：该算法利用一个奖励模型来预测给定文本是否被人类高度排名。然后使用这个预测来优化 SFT 模型，基于 KL 散度的惩罚。
直接偏好优化（DPO）：DPO 通过将其重新定义为分类问题来简化过程。它使用参考模型而不是奖励模型（无需训练），并且只需要一个超参数，使其更稳定、更高效。

2.6 评估

评估大型语言模型（LLMs）是流程中被低估的部分，它既耗时又只有适度的可靠性。您的下游任务应该决定您想要评估的内容，但请始终记住古德哈特定律：'当一个度量成为目标时，就不再是一个好的度量。'

传统指标：像困惑度（perplexity）和 BLEU 分数这样的指标并不像以前那样受欢迎，因为它们在大多数情况下都有缺陷。尽管如此，理解它们以及它们何时可以应用仍然很重要。
通用基准：基于语言模型评估工具（如 LMSYS），是通用 LLM（如 ChatGPT）的主要基准。还有其他流行的基准，如 MMLU 等。
任务特定基准：像摘要、翻译和问答这样的任务有专门的基准、指标，甚至还有子领域（如医学、金融等），例如 PubMedQA 用于生物医学问答。
人类评估：最可靠的评估是用户接受率或人类进行的比较。如果您想知道一个模型的表现如何，最简单但也最确定的方法是自己使用它。

2.7 量化

量化是使用较低精度转换模型的权重（和激活）的过程。例如，使用 16 位存储的权重可以转换为 4 位表示。这种技术变得越来越重要，以减少与大型语言模型（LLMs）相关的计算和内存成本。

基础技术：了解不同的精度级别（FP32、FP16、INT8 等）以及如何使用 absmax 和零点技术进行朴素量化。
GGUF 和 llama.cpp：最初设计用于在 CPU 上运行，llama.cpp 和 GGUF 格式已成为在消费级硬件上运行 LLMs 最受欢迎的工具。
GPTQ 和 EXL2：GPTQ 格式提供了惊人的速度，但只能在 GPU 上运行。模型量化也需要很长时间。
AWQ：这种新格式比 GPTQ 更准确（更低的困惑度），但使用更多的 VRAM，并且不一定更快。

2.8 新趋势

位置嵌入：了解 LLMs 如何编码位置，特别是相对位置编码方案。实现扩展上下文长度的技术。
模型合并：合并训练好的模型已成为无需任何微调即可创建高性能模型的流行方式。流行的库实现了最受欢迎的合并方法，如 SLERP 等。
专家混合（MoE）：因其出色的性能重新流行了 MoE 架构。同时，开源社区通过合并模型，出现了一种类型的 frankenMoE，这是一种更便宜且性能优越的选择。
多模态模型：这些模型处理多种类型的输入（文本、图像、音频等），并使用统一的嵌入空间，这解锁了像文本到图像这样的强大应用。

3. LLM 工程师

本节专注于学习如何构建可以在生产环境中使用的由大型语言模型（LLM）驱动的应用程序，重点是增强模型并部署它们。

3.1 运行 LLMs

由于硬件要求高，运行大型语言模型（LLMs）可能会很困难。根据您的用例，您可能只想通过 API（如 GPT-4）使用模型，或者在本地运行它。在任何情况下，额外的提示和指导技术都可以改善并约束您的应用程序的输出。

LLM API：API 是部署 LLMs 的便捷方式。这个领域分为私有 LLMs 和开源 LLMs。
开源 LLMs：Hugging Face 是寻找 LLMs 的好地方。您可以直接在平台上运行它们中的一些，或者下载并在本地运行。
提示工程：常见技术包括零次提示、少次提示、思维链和 ReAct。它们在更大的模型上效果更好，但可以适应更小的模型。
结构化输出：许多任务需要结构化的输出，如严格的模板或 JSON 格式。可以使用 Outlines 等库来指导生成并尊重给定的结构。

3.2 构建向量存储

创建向量存储是构建检索增强生成（RAG）管道的第一步。文档被加载、分割，相关的部分被用来生成向量表示（嵌入），这些嵌入被存储起来，以便在推理过程中将来使用。

摄取文档：文档加载器是方便的包装器，可以处理许多格式：PDF、JSON、HTML、Markdown 等。它们还可以直接从某些数据库和 API 检索数据。
分割文档：文本分割器将文档分解成更小的、语义上有意义的块。与其在 n 个字符后分割文本，通常更好地按标题或递归分割，并附加一些额外的元数据。
嵌入模型：嵌入模型将文本转换为向量表示。它允许对语言有更深入、更细致的理解，这对于执行语义搜索至关重要。
向量数据库：向量数据库（如 Chroma、Faiss、Milvus 等）被设计用来存储嵌入向量。它们能够高效地检索与基于向量相似性的查询'最相似'的数据。

3.3 检索增强生成（RAG）

通过 RAG，LLMs 从数据库中检索上下文文档以提高其答案的准确性。RAG 是在不进行任何微调的情况下增强模型知识的流行方式。

协调器：协调器（如 LangChain、LlamaIndex 等）是连接您的 LLMs 与工具、数据库、记忆等并增强其能力的流行框架。
检索器：用户指令并未针对检索进行优化。可以应用不同的技术（例如，多查询检索器）来重述/扩展它们并提高性能。
记忆：为了记住之前的指令和答案，LLMs 和像 ChatGPT 这样的聊天机器人将这些历史添加到它们的上下文窗口中。这个缓冲区可以通过摘要、向量存储 +RAG 等进行改进。
评估：我们需要评估文档检索（上下文精确度和召回率）和生成阶段（忠实度和答案相关性）。

3.4 高级 RAG

现实世界中的应用可能需要复杂的管道，包括 SQL 或图形数据库，以及自动选择相关的工具和 API。这些高级技术可以改进基线解决方案并提供额外的功能。

查询构建：存储在传统数据库中的结构化数据需要特定的查询语言，如 SQL、Cypher、元数据等。我们可以直接将用户指令翻译成查询，以访问数据。
代理和工具：代理通过自动选择最相关的工具来增强 LLMs 以提供答案。这些工具可以像使用 Google 或 Wikipedia 一样简单，也可以像 Python 解释器或 Jira 一样复杂。
后处理：处理输入到 LLM 的最终步骤。它通过重新排名、分类增强检索到的文档的相关性和多样性。

3.5 推理优化

文本生成是一个成本高昂的过程，需要昂贵的硬件。除了量化之外，还提出了各种技术来最大化吞吐量并降低推理成本。

Flash Attention：优化注意力机制，将其复杂度从二次方降低到线性，加快训练和推理的速度。
键值缓存：理解键值缓存以及在多查询注意力（MQA）和分组查询注意力（GQA）中引入的改进。
推测性解码：使用小型模型生成草稿，然后由更大的模型进行审查，以加快文本生成速度。

3.6 部署 LLMs

大规模部署 LLMs 是一项工程壮举，可能需要多个 GPU 集群。在其他情况下，演示和本地应用程序可以通过更低的复杂度实现。

本地部署：隐私是开源 LLMs 相对于私有 LLMs 的一个重要优势。本地 LLM 服务器利用这一优势为本地应用程序提供动力。
演示部署：像 Streamlit 这样的框架有助于原型应用程序的开发和演示的共享。您还可以轻松地将它们在线托管。
服务器部署：大规模部署 LLMs 需要云或本地基础设施，并且通常利用优化的文本生成框架，如 vLLM、TGI 等。
边缘部署：在受限环境中，像 mlc-llm 这样的高性能框架可以将 LLM 部署在 Web 浏览器、Android 和 iOS 上。

3.7 LLMs 安全

除了与软件相关的传统安全问题外，LLMs 由于它们的训练和提示方式具有独特的弱点。

提示黑客攻击：与提示工程相关的不同技术，包括提示注入（额外的指令以劫持模型的答案）、数据/提示泄露（检索其原始数据/提示）和越狱（精心设计的提示以绕过安全特性）。
后门：攻击向量可以针对训练数据本身，通过污染训练数据（例如，使用虚假信息）或创建后门（在推理期间改变模型行为的秘密触发器）。
防御措施：保护您的 LLM 应用程序的最佳方法是对它们进行这些漏洞的测试（例如，使用红队），并在生产中观察它们。

结语

本文梳理了从 LLM 基础理论到工程落地的完整知识体系。无论是希望深入研究模型架构的科学家，还是致力于构建实际应用的工程师，都能从中找到对应的技术栈和学习资源。随着技术的快速迭代，持续跟进最新的量化技术、RAG 优化及安全实践是保持竞争力的关键。

目录

大型语言模型（LLM）学习路径概览
0. 有用的 Notebook 与工具
工具类
Fine-tuning（微调）
Quantization（量化）
其他资源
1. LLM 基础
1.1 机器学习 ML 的数学基础
1.2 ML 中的 Python
1.3 神经网络
1.4 自然语言处理（NLP）
2. LLM Scientist
2.1 LLM 架构
2.2 构建指令数据集
2.3 预训练模型
2.4 监督式微调
2.5 RLHF（基于人类反馈的强化学习）
2.6 评估
2.7 量化
2.8 新趋势
3. LLM 工程师
3.1 运行 LLMs
3.2 构建向量存储
3.3 检索增强生成（RAG）
3.4 高级 RAG
3.5 推理优化
3.6 部署 LLMs
3.7 LLMs 安全
结语

免费图片AI生成工具免费生成了解详情

Magick API 一键接入全球大模型注册送1000万token查看
免费图片视频在线生成30秒，将你的创意变成现实开始设计
X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
100+免费在线小游戏爽一把

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

数据结构初阶：二叉树的链式存储与实现
HarmonyOS 视频封面智能生成与 AI 集成实战
Python OpenID Connect 部署指南：快速搭建认证服务
3 个实用技术工具网站推荐：黑客模拟、威胁地图与粒子生成
C++ STL 容器适配器：stack 与 queue 剖析
Flow取代LiveData的必要性分析
GitHub Copilot 学生认证申请指南与注意事项
Dubbo 服务降级机制详解：Mock 配置与实战
Qt Creator 配置 GitHub Copilot 插件
ASP.NET WebForms SortedList 深入解析
Flutter 基础组件：BottomNavigationBar 与 TabBar 多页切换
前端核心面试八股文整理（含 JavaScript、Vue、React 等）
接入第三方 OpenAI 兼容模型到 GitHub Copilot
OpenClaw + 本地 Ollama：个人 AI 助手实战指南
IDEA/WebStorm 切换分支操作指南
C++ std::optional 详解：类型安全的可选值封装
Windows 下 llama.cpp 编译与 Qwen 模型本地部署实战
Linux 复习指南：Shell 脚本中最常见指令总结
Cursor 与 GitHub Copilot 深度对比分析
MC.JS WEBMC 移动端在在线教育中的应用案例

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online