跳到主要内容大模型(LLM)入门教程与核心知识体系指南 | 极客日志PythonAI算法
大模型(LLM)入门教程与核心知识体系指南
综述由AI生成大型语言模型(LLM)作为人工智能领域的关键技术,正深刻改变软件开发与行业应用模式。本内容系统梳理了从数学基础、Python 编程、神经网络原理到 NLP 技术的入门知识,深入解析了 Transformer 架构、预训练、监督微调(SFT)、RLHF 对齐及量化优化等核心构建流程。同时涵盖了 RAG 检索增强生成、向量存储构建、推理加速及生产环境部署的工程实践,并探讨了提示注入、后门攻击等安全风险与防御策略。内容适合希望掌握大模型全栈开发能力的技术人员参考。
心动瞬间7 浏览 大型语言模型(LLM)学习指南
本教程旨在为开发者、研究人员及产品经理提供系统化的大型语言模型学习路径,涵盖从基础理论到工程落地的全流程。
1. LLM 基础
1.1 机器学习 ML 的数学基础
在学习机器学习之前,了解这些算法背后的基本数学概念非常重要。
线性代数:这对于理解许多算法至关重要,尤其是那些用于深度学习的算法。关键概念包括向量、矩阵、行列式、特征值和特征向量、向量空间以及线性变换。矩阵运算构成了神经网络前向传播和反向传播的核心。
微积分:许多机器学习算法涉及连续函数的优化,这需要理解导数、积分、极限和级数。多变量微积分和梯度概念也很重要,因为梯度下降算法依赖偏导数来更新模型参数。
概率与统计:这些对于理解模型如何从数据中学习并进行预测至关重要。关键概念包括概率论、随机变量、概率分布、期望、方差、协方差、相关性、假设检验、置信区间、和贝叶斯推断。概率模型是生成式 AI 的基础。
推荐资源:
- 推荐视频课程,为这些概念提供几何直觉。
- 推荐在线教程,为许多统计概念提供了简单明了的解释。
- 推荐系列文章,提供了每个概率分布背后的直觉。
- 推荐交互式课程,涵盖了微积分的所有基础知识。
1.2 ML 中的 Python
Python 是一种功能强大且灵活的编程语言,由于其可读性、一致性以及数据科学库的强大生态系统,特别适合用于机器学习。
Python 基础:Python 编程需要对基本语法、数据类型、错误处理和面向对象编程有良好的理解。
数据科学库:包括熟悉用于数值运算的 NumPy,用于数据操作和分析的 Pandas,以及用于数据可视化的 Matplotlib 和 Seaborn。
数据预处理:这涉及特征缩放和归一化、处理缺失数据、异常值检测、分类数据编码以及将数据分割为训练集、验证集和测试集。数据质量直接决定模型上限。
机器学习库:熟练掌握 Scikit-learn 库至关重要,该库提供了广泛的监督和无监督学习算法。了解如何实现线性回归、逻辑回归、决策树、支持向量机(SVM)、k-最近邻(K-NN)和 K-均值聚类等算法很重要。降维技术如 PCA 和 t-SNE 对于可视化高维数据也非常有帮助。
推荐资源:
- 官方文档,提供初学者和高级 Python 概念的文章和教程。
- 推荐视频教程,全面介绍 Python 的所有核心概念。
- 免费书籍,是学习 NumPy、Matplotlib 和 Seaborn 的极佳资源。
1.3 神经网络
神经网络是许多机器学习模型的基本组成部分,特别是在深度学习领域。为了有效地利用它们,全面理解它们的设计和机制是必不可少的。
基础知识:包括理解神经网络的结构,如层、权重、偏置和激活函数(ReLU、tanh、Sigmoid 等)。激活函数引入非线性,使网络能够拟合复杂函数。
训练和优化:熟悉反向传播和不同类型的损失函数,如均方误差(MSE)和交叉熵。理解各种优化算法,如梯度下降、Adam、RMSprop 等。Adam 结合了动量和自适应学习率,是目前最常用的优化器之一。
过拟合:理解过拟合的概念(模型在训练数据上表现良好,但在未见数据上表现不佳),并学习各种正则化技术(dropout、L1/L2 正则化、早停、数据增强)以防止过拟合。
实现多层感知器(MLP):使用 PyTorch 构建一个 MLP 是理解深度学习框架的第一步。
1.4 自然语言处理(NLP)
NLP 是人工智能的一个迷人分支,它弥合了人类语言和机器理解之间的差距。从简单的文本处理到理解语言的细微差别,NLP 在许多应用中扮演着至关重要的角色,比如翻译、情感分析、聊天机器人等。
文本预处理:学习各种文本预处理步骤,如分词(将文本分割成单词或句子)、词干提取(将单词还原到基本形式)、词形还原(类似于词干提取但考虑上下文)、停用词移除等。
特征提取技术:熟悉将文本数据转换为机器学习算法可以理解的格式的技术。关键方法包括词袋模型(BoW)、词频 - 逆文档频率(TF-IDF)和 n-gram。
词嵌入:词嵌入是一种单词表示类型,允许意义相似的单词具有相似的表示。关键方法包括 Word2Vec、GloVe 和 FastText。
循环神经网络(RNN):理解 RNNs 的工作原理,这是一种专为处理序列数据设计的神经网络。探索 LSTM 和 GRU,它们解决了传统 RNN 的长距离依赖问题。
2. LLM 科学家
本节专注于学习如何使用最新技术构建最佳的大型语言模型。
2.1 Transformer 架构
虽然不需要深入了解 Transformer 架构,但了解其输入(token)和输出(logits)是很重要的。标准的注意力机制是另一个关键组成部分,需要掌握,因为后续会介绍其改进版本。
高层次视角:重新审视编码器 - 解码器 Transformer 架构,更具体地说是解码器 GPT 架构,在 LLM 中都有使用。
分词:理解如何将原始文本转换为模型可以理解的格式,这涉及到将文本分割成 token(通常是单词或子词)。BPE 和 WordPiece 是常见的分词算法。
注意力机制:掌握注意力机制背后的理论,包括 Self-Attention 和 scaled dot-product attention,这允许模型在生成输出时关注输入的不同部分。Self-Attention 计算查询、键和值的交互。
文本生成:了解模型可以生成输出序列的不同方式。常见策略包括贪婪解码、束搜索、Top-K 采样和核采样。核采样通过限制概率分布的尾部来提高生成的多样性。
- Jay Alammar 的博客,对 Transformer 模型进行了视觉和直观的解释。
- Andrej Karpathy 的视频,从头开始重新实现 GPT(面向程序员)。
- Lilian Weng 的博客,以更正式的方式介绍了注意力的需求。
2.2 构建指令数据集
虽然从维基百科和其他网站找到原始数据很容易,但在野外收集指令和答案的配对却很困难。与传统机器学习一样,数据集的质量将直接影响模型的质量,这就是为什么它可能是微调过程中最重要的组成部分。
合成数据:使用 OpenAI API(GPT)从头开始生成合成数据。您可以指定种子和系统提示,以创建多样化的数据集。
高级技术:学习如何使用指令微调现有数据集,以及在 InstructGPT 和 Alpaca 论文中生成高质量的合成数据。
数据过滤:涉及正则表达式的传统技术,去除近似重复项,专注于具有高 token 数量的答案等。
提示模板:格式化指令和答案没有真正的标准方式,这就是为什么了解不同的聊天模板,如 ChatML、Alpaca 等,是很重要的。
2.3 预训练模型
预训练是一个非常漫长且成本高昂的过程,这就是为什么这不是本课程的重点。了解预训练期间发生的事情有一定的理解水平是好的,但不需要实践经验。
数据管道:预训练需要巨大的数据集(例如,Llama 2 是在 2 万亿个 token 上训练的),这些数据集需要被过滤、分词,并与预定义的词汇表整合。
因果语言建模:了解因果语言建模和掩蔽语言建模之间的区别,以及在这种情况下使用的损失函数。为了高效的预训练,了解更多关于 FlashAttention、RoPE 的信息。
Scaling laws:描述了基于模型大小、数据集大小和用于训练的计算量预期的模型性能。规模法则表明增加参数和数据量通常能提升性能。
高性能计算:这不在讨论范围内,但如果计划从头开始创建自己的 LLM(硬件、分布式工作负载等),更多关于分布式训练的知识是基础。
2.4 监督式微调
预训练模型仅在下一个 token 预测任务上进行训练,这就是为什么它们不是有用的助手。SFT(监督式微调)允许您调整它们以响应指令。此外,它允许您在任何数据上微调您的模型(私有的、GPT-4 未见过的等),并且无需支付像 OpenAI 这样的 API 费用。
全微调:全微调指的是训练模型中的所有参数。这不是一种高效的技术,但它可以产生稍微更好的结果。
LoRA:一种基于低秩适配器的参数高效技术(Parameter-Efficient Fine-Tuning)。我们不是训练所有参数,而是只训练这些适配器。
QLoRA:另一种基于 LoRA 的 PEFT,它还将模型的权重量化为 4 位,并引入 KV Cache 来管理内存峰值。结合 Unsloth,可以在免费的 Colab 笔记本上高效运行。
工具:一个用户友好且强大的微调工具,被许多最先进的开源模型使用。Axolotl 在多 GPU 和多节点设置中高效预训练和微调 LLM。
2.5 RLHF(基于人类反馈的强化学习)
在监督式微调之后,RLHF 是一个用于使大型语言模型(LLM)的答案与人类期望对齐的步骤。这个想法是从人类(或人工)反馈中学习偏好,这可以用来减少偏见、审查模型或使它们以更有用的方式行动。它比 SFT 更复杂,通常被视为可选的。
偏好数据集:这些数据集通常包含几个答案,并附有某种排名,这使得它们比指令数据集更难制作。
近端策略优化(PPO):该算法利用一个奖励模型来预测给定文本是否被人类高度排名。然后使用这个预测来优化 SFT 模型,基于 PPO 的惩罚。
直接偏好优化(DPO):DPO 通过将其重新定义为分类问题来简化过程。它使用参考模型而不是奖励模型(无需训练),并且只需要一个超参数,使其更稳定、更高效。
2.6 评估
评估大型语言模型(LLMs)是流程中被低估的部分,它既耗时又只有适度的可靠性。您的下游任务应该决定您想要评估的内容,但请始终记住:'当一个度量成为目标时,它就不再是一个好的度量。'
传统指标:像困惑度(perplexity)和 BLEU 分数这样的指标并不像以前那样受欢迎,因为它们在大多数情况下都有缺陷。尽管如此,理解它们以及它们何时可以应用仍然很重要。
通用基准:基于语言模型评估工具(LMSYS Chatbot Arena),是通用 LLM(如 ChatGPT)的主要基准。还有其他流行的基准,如 MMLU、HellaSwag 等。
任务特定基准:像摘要、翻译和问答这样的任务有专门的基准、指标,甚至还有子领域(如医学、金融等),例如用于生物医学问答。
人类评估:最可靠的评估是用户接受率或人类进行的比较。如果您想知道一个模型的表现如何,最简单但也最确定的方法是自己使用它。
2.7 量化
量化是使用较低精度转换模型的权重(和激活)的过程。例如,使用 16 位存储的权重可以转换为 4 位表示。这种技术变得越来越重要,以减少与大型语言模型(LLMs)相关的计算和内存成本。
基础技术:了解不同的精度级别(FP32、FP16、INT8 等)以及如何使用和零点技术进行朴素量化。
GGUF 和 llama.cpp:最初设计用于在 CPU 上运行,AWQ 和 GGUF 格式已成为在消费级硬件上运行 LLMs 最受欢迎的工具。
GPTQ 和 EXL2:EXL2,更具体地说,EXL2 格式提供了惊人的速度,但只能在 GPU 上运行。模型量化也需要很长时间。
AWQ:这种新格式比 GPTQ 更准确(更低的困惑度),但使用更多的显存,并且不一定更快。
2.8 新趋势
位置嵌入:了解 LLMs 如何编码位置,特别是相对位置编码方案,如 RoPE。实现 YaRN(将注意力矩阵乘以温度因子)或 LongRoPE(基于 token 距离的注意力惩罚),以扩展上下文长度。
模型合并:合并训练好的模型已成为无需任何微调即可创建高性能模型的流行方式。流行的库实现了最受欢迎的合并方法,如 MergeKit、MoE-Merge 等。
专家混合(Mixture of Experts):因其出色的性能重新流行了。同时,通过合并像 Mixtral 这样的模型,出现了一种类型的 frankenMoE,这是一种更便宜且性能优越的选择。
多模态模型:这些模型(如 CLIP、Flamingo 或 LLaVA)处理多种类型的输入(文本、图像、音频等),并使用统一的嵌入空间,这解锁了像文本到图像这样的强大应用。
3. LLM 工程师
本节专注于学习如何构建可以在生产环境中使用的由大型语言模型(LLM)驱动的应用程序,重点是增强模型并部署它们。
3.1 运行 LLMs
由于硬件要求高,运行大型语言模型(LLMs)可能会很困难。根据您的用例,您可能只想通过 API(如 GPT-4)使用模型,或者在本地运行它。在任何情况下,额外的提示和指导技术都可以改善并约束您的应用程序的输出。
API 服务:API 是部署 LLMs 的便捷方式。这个领域分为私有 LLMs(GPT-4、Claude 等)和开源 LLMs(Llama、Mistral 等)。
开源 LLMs:Hugging Face 是寻找 LLMs 的好地方。您可以直接在 Ollama 中运行它们中的一些,或者在像 LM Studio 这样的应用程序中下载并在本地运行,或者通过 vLLM 或 llama.cpp 的 CLI 运行。
提示工程:常见技术包括零次提示、少次提示、思维链和 ReAct。它们在更大的模型上效果更好,但可以适应更小的模型。
结构化输出:许多任务需要结构化的输出,如严格的模板或 JSON 格式。可以使用 Outlines、Guidance 等库来指导生成并尊重给定的结构。
3.2 构建向量存储
创建向量存储是构建检索增强生成(RAG)管道的第一步。文档被加载、分割,相关的部分被用来生成向量表示(嵌入),这些嵌入被存储起来,以便在推理过程中将来使用。
摄取文档:文档加载器是方便的包装器,可以处理许多格式:PDF、JSON、HTML、等。它们还可以直接从某些数据库和 API(GitHub、Reddit、Google Drive 等)检索数据。
分割文档:文本分割器将文档分解成更小的、语义上有意义的块。与其在 n 个字符后分割文本,通常更好地按标题或递归分割,并附加一些额外的元数据。
嵌入模型:嵌入模型将文本转换为向量表示。它允许对语言有更深入、更细致的理解,这对于执行语义搜索至关重要。
向量数据库:向量数据库(如 Pinecone、Milvus、Chroma 等)被设计用来存储嵌入向量。它们能够高效地检索与基于向量相似性的查询'最相似'的数据。
3.3 检索增强生成(RAG)
通过 RAG,LLMs 从数据库中检索上下文文档以提高其答案的准确性。RAG 是在不进行任何微调的情况下增强模型知识的流行方式。
协调器:协调器(如 LangChain、LlamaIndex 等)是连接您的 LLMs 与工具、数据库、记忆等并增强其能力的流行框架。
检索器:用户指令并未针对检索进行优化。可以应用不同的技术(例如,多查询检索器、HyDE 等)来重述/扩展它们并提高性能。
记忆:为了记住之前的指令和答案,LLMs 和像 ChatGPT 这样的聊天机器人将这些历史添加到它们的上下文窗口中。这个缓冲区可以通过摘要(例如,使用较小的 LLM)、向量存储+RAG 等进行改进。
评估:我们需要评估文档检索(上下文精确度和召回率)和生成阶段(忠实度和答案相关性)。这可以通过 Ragas 和 TruLens 等工具和指标简化。
3.4 高级 RAG
现实世界中的应用可能需要复杂的管道,包括 SQL 或图形数据库,以及自动选择相关的工具和 API。这些高级技术可以改进基线解决方案并提供额外的功能。
查询构建:存储在传统数据库中的结构化数据需要特定的查询语言,如 SQL、Cypher、元数据等。我们可以直接将用户指令翻译成查询,以访问数据。
代理和工具:代理通过自动选择最相关的工具来增强 LLMs 以提供答案。这些工具可以像使用 Google 或 Wikipedia 一样简单,也可以像 Python 解释器或 Wolfram Alpha 一样复杂。
后处理:处理输入到 LLM 的最终步骤。它通过重新排名、去重和分类增强检索到的文档的相关性和多样性。
3.5 推理优化
文本生成是一个成本高昂的过程,需要昂贵的硬件。除了量化之外,还提出了各种技术来最大化吞吐量并降低推理成本。
Flash Attention:优化注意力机制,将其复杂度从二次方降低到线性,加快训练和推理的速度。
键值缓存:理解键值缓存以及在多查询注意力(MQA)和混合注意力(HQA)中引入的改进。
推测性解码:使用小型模型生成草稿,然后由更大的模型进行审查,以加快文本生成速度。
3.6 部署 LLMs
大规模部署 LLMs 是一项工程壮举,可能需要多个 GPU 集群。在其他情况下,演示和本地应用程序可以通过更低的复杂度实现。
本地部署:隐私是开源 LLMs 相对于私有 LLMs 的一个重要优势。本地 LLM 服务器(Ollama、LocalAI 等)利用这一优势为本地应用程序提供动力。
演示部署:像 Streamlit 和 Gradio 这样的框架有助于原型应用程序的开发和演示的共享。您还可以轻松地将它们在线托管,例如使用 Hugging Face Spaces。
服务器部署:大规模部署 LLMs 需要云(AWS SageMaker)或本地基础设施,并且通常利用优化的文本生成框架,如 TGI、vLLM 等。
边缘部署:在受限环境中,像 mlc-llm 和 llama.cpp 这样的高性能框架可以将 LLM 部署在 Web 浏览器、Android 和 iOS 上。
3.7 LLMs 安全
除了与软件相关的传统安全问题外,LLMs 由于它们的训练和提示方式具有独特的弱点。
提示黑客攻击:与提示工程相关的不同技术,包括提示注入(额外的指令以劫持模型的答案)、数据/提示泄露(检索其原始数据/提示)和越狱(精心设计的提示以绕过安全特性)。
后门:攻击向量可以针对训练数据本身,通过污染训练数据(例如,使用虚假信息)或创建后门(在推理期间改变模型行为的秘密触发器)。
防御措施:保护您的 LLM 应用程序的最佳方法是对它们进行这些漏洞的测试(例如,使用红队和 Garak 这样的检查),并在生产中观察它们(使用像 Helicone 这样的框架)。
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- 随机西班牙地址生成器
随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
- Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
- curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online