大语言模型（LLM）基础原理与应用 | 极客日志

PythonAI算法

大语言模型（LLM）基础原理与应用

大语言模型（LLM）是基于 Transformer 架构的深度学习模型，具备文本生成、理解及多任务处理能力。 LLM 的发展历程、核心架构及训练范式，包括预训练、有监督微调（SFT）和强化学习（RLHF）。内容涵盖基座模型与对话模型的区别，Transformer 编码器与解码器的工作原理，以及仅编码器、仅解码器和编码器 - 解码器三种架构类型。此外，文章还探讨了 LLM 的扩展应用如多模态模型和智能体，并深入解析了推理过程、提示词工程、微调与 RAG 技术。最后介绍了模型评估方法、量化技术及部署优化策略，为构建和落地 LLM 项目提供系统性指导。

1951018925发布于 2025/2/6更新于 2026/7/2535 浏览

大语言模型基础知识

大语言模型（Large Language Model，LLM）是一类基于 Transformer 架构的深度学习模型，主要用于处理与自然语言相关的各种任务。简单来说，当用户输入文本时，模型会生成相应的回复或结果。它能够完成许多任务，如文本续写、分类、摘要、改写、翻译等。常见的 LLM 包括 GPT、LLaMA 等。本文将重点介绍 LLM 的基本原理和应用。

1 LLM 基础知识

1.1 LLM 介绍

LLM 发展历程

2022 年 11 月 30 日，OpenAI 推出的 ChatGPT 在 LLM 技术领域取得了创新突破，迅速引起了全球业界的广泛关注，并在短短两个月内成功吸引了超过一亿用户。作为一款基于 LLM 的应用，ChatGPT 以其强大的文本生成、对话交互和信息提取能力，成为人工智能领域的一个重要里程碑，推动了人机交互的边界。然而，由于 OpenAI 未公开其底层技术并封闭源代码，这引发了全球 AI 开发者对开源技术的强烈需求。

随着 LLM 技术的飞速发展，Meta 推出的 LLaMA 模型、Mistral AI 发布的 Mistral 模型以及 BigScience 团队推出的 BLOOM 模型等多个开源 LLM 相继问世。这些模型在性能上已接近甚至媲美商业化 LLM，进一步推动了 LLM 技术的广泛应用与创新。

到 2024 年底，在众多 LLM 中，闭源模型中表现最为出色的是 GPT-4，而在开源模型中，LLama 3.3 和 Llama 3.2 最为推荐。尽管 Llama 3.2 在各类基准测试中优于 GPT-4，但在实际应用中，GPT-4 的表现仍然更为卓越。

LLM 的'大'体现在哪些方面？

庞大的参数量：LLM 的'大'首先体现在参数数量上。例如，OpenAI 的 GPT-3 有 1750 亿个参数，GPT-4 更为庞大。参数越多，模型的语言理解和任务处理能力越强。

海量的训练数据：LLM 依赖海量数据进行训练，包括书籍、新闻、网页内容和社交媒体等。这些多样化的数据帮助模型掌握丰富的语言模式，具备强大的理解和生成能力。

广泛的任务适应性：模型在多种数据上训练，赋予其从自然语言理解到翻译、摘要、情感分析等多任务的处理能力，使其具备显著的通用性。

巨大的计算资源需求：LLM 的训练与推理依赖大量高性能计算资源，如 GPU 和专用加速器。随着模型规模的增加，计算需求呈指数级增长。

LLM 为什么要基于 Transformer 架构？

在 Transformer 架构出现之前，自然语言模型主要依赖循环神经网络（RNN），但 RNN 的顺序处理方式限制了计算的并行性，且在处理长序列时，信息容易丢失或遗忘。

Transformer 通过引入自注意力机制和位置编码，克服了传统模型在捕捉长距离依赖和并行计算方面的局限。自注意力机制允许模型同时关注输入序列中的所有词，捕捉更远距离的依赖关系，避免了 RNN 及其变体 LSTM 模型中存在的顺序处理瓶颈。因此，Transformer 成为大规模预训练模型的基础架构，并在多个任务中展现了出色的性能。

1.2 LLM 训练范式

LLM 训练阶段

LLM 的训练可分为以下四个关键阶段：

预训练（Unsupervised Pretraining）：构建基座模型。
- 数据来源：广泛采集的书籍、新闻、科研论文、社交媒体等多领域文本数据，作为模型训练的素材。
- 学习目标：利用无监督学习技术，使模型能够根据上下文预测下一个词。
- 训练过程：不依赖标注数据，通过不断优化模型预测与实际结果之间的差异，随着数据量的增加，逐步提升模型的性能。
有监督微调（Supervised Fine-Tuning，SFT）：打造对话模型。
- 数据来源：采用人工标注的对话数据，以提高模型在对话任务中的表现。
- 学习目标：通过有针对性的训练，增强模型与用户互动的能力。
- 训练过程：使用少量但高质量的对话数据进行微调，显著提高模型的对话能力。
奖励模型训练（Reward Model Training）：培养能够评估回答的模型。
- 数据来源：生成多个候选答案，并依据人工评分和排序进行评估。
- 学习目标：培养奖励模型，利用评分数据来评估和优化模型生成的答案质量。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

维度	Base 模型	Chat 模型
训练方式	预训练	预训练 + 监督微调（SFT）+ 强化学习（RLHF）
数据来源	大量未标注文本数据	标注好的对话数据集、人类对齐
模型特性	庞大的参数规模，具备广泛的语言特征	强大的对话生成和理解能力，能够生成连贯且有意义的回复
应用场景	适用于多种 NLP 任务，如文本生成、语义理解、翻译等	专门用于构建聊天机器人、虚拟助理等对话系统
优势	泛化能力强，适用于多种任务	对话能力强，能够生成符合人类偏好的回复
不足	可能需要进一步的微调才能适应特定任务	相对于 Base 模型，训练过程更复杂

仅编码器模型（自编码器模型）
- BERT：BERT 是一种双向编码器，它通过'遮蔽'输入中的某些单词来训练模型，让模型预测这些被遮蔽的单词，从而获得输入文本的深层次理解。BERT 的预训练后可以通过微调应用于多种任务，如文本分类、命名实体识别（NER）、问答等。
- 主要用途：仅编码器模型通常用于从输入数据中提取有用的特征信息，进行理解或表示学习。这些模型不需要生成输出，而是侧重于学习输入的上下文和表示。
- 应用：这类模型在需要提取深度特征或做文本分类、情感分析等任务时非常有效。它们不涉及生成过程，而是通过理解和表示输入数据来完成任务。
仅解码器模型（自回归模型）
- GPT：基于 Transformer 的解码器结构，采用自回归方式生成文本。在训练过程中，它通过大量的文本数据学习语言模式，并通过不断预测下一个词生成连贯的文章。GPT 系列（如 GPT-3、GPT-4）已经成为文本生成任务中的重要模型。
- 主要用途：解码器模型通常用于生成任务，尤其是序列生成任务，如文本生成、对话生成等。这类模型的目标是从给定的输入或上下文中生成连贯的输出。
- 应用：解码器模型广泛应用于需要生成连续文本的任务，比如机器翻译、文本生成、代码生成等。
编码器 - 解码器模型（序列到序列模型）
- T5：将所有任务统一转换为文本到文本的任务，即输入和输出都是文本形式。它结合了编码器和解码器的结构，可以用于机器翻译、文本摘要、问答等多种任务。
- BART：一种结合了 BERT 和 GPT 优点的模型，使用编码器 - 解码器架构，既能够进行双向的理解，又能进行自回归的生成。它特别适用于文本生成、序列到序列的转换等任务。
- 主要用途：编码器 - 解码器模型适用于需要将一个输入序列映射到一个输出序列的任务，例如机器翻译、文本摘要、图像描述等。这种结构通常包含两个部分：编码器负责理解输入序列，解码器负责生成输出序列。
- 应用：这类模型适用于任何需要将一个序列转换为另一个序列的任务，常见的应用场景包括机器翻译、摘要生成、对话生成等。

请写一段介绍宠物狗的文字，描述一下它的外观、性格特点以及和人类相处的情况。

以下是几个描述动物的示例，请你按照这样的格式写一段介绍宠物狗的文字，描述它的外观、性格特点以及和人类相处的情况。
示例 1：
动物：猫咪
外观：猫咪体型较小，毛茸茸的身体，眼睛大而明亮，耳朵尖尖，尾巴长而灵活，走路时轻盈优雅。
性格特点：猫咪性格独立，喜欢自己待着，但也会对主人撒娇，开心时会发出呼噜声。
和人类相处：它喜欢依偎在主人身边，陪伴主人休息或看电视，偶尔会捣乱，但总是给家庭带来温馨感。
示例 2：
动物：兔子
外观：兔子身体小巧，耳朵长而竖立，眼睛圆润，嘴巴三瓣，后腿强壮，蹦跳时非常可爱。
性格特点：兔子性格温顺胆小，喜欢啃食干草和胡萝卜，平时安静乖巧。
和人类相处：兔子是孩子们的好伙伴，可以被抱在怀里抚摸，吃东西时很治愈。
请写一段介绍宠物狗的文字：

准确率：衡量模型在特定任务上正确预测的程度。准确率的定义因任务和问题的不同而有所差异，通常使用多种指标进行衡量，如精确匹配、F1 分数和 ROUGE 分数。
- 精确匹配（Exact Match）：用于评估模型在文本生成任务中的输出是否与参考答案完全一致。在问答任务中，如果模型生成的答案与人工提供的答案完全一致，则精确匹配为 1，否则为 0。
- F1 分数：综合考虑模型的精度和召回率。
- ROUGE 分数：主要用于评估文本摘要和机器翻译任务，衡量生成文本与参考文本之间的重叠和匹配程度。
校准性：衡量模型输出的置信度与实际预测精度之间的一致性。
- 期望校准误差（Expected Calibration Error）：评估模型校准性能的常用方法。该方法通过将预测概率划分为多个区间，计算每个区间内的预测误差，并对这些误差加权平均，得出整体的校准误差。较低的值表示模型在不同置信度水平下具有较好的校准性。
- 选择性准确率和覆盖率的曲线下面积（AUC）：选择性准确率表示在特定置信度阈值下，模型正确预测的比例，而覆盖率则是该置信度阈值下，模型预测结果中有效预测的比例。通过绘制选择性准确率与覆盖率之间的关系曲线，可以计算出其曲线下面积 AUC。AUC 值较大的模型通常表明高置信度的预测更为准确。
公平性：评估模型对不同群体表现的一致性，即模型在不同群体中的表现是否公平。群体差异可能涉及性别、种族、年龄等因素：
- 人口平衡差异（Demographic Parity Difference）：衡量模型的预测是否在不同人群之间均匀分布。如果不同群体的预测结果差异较大，说明模型可能存在对某些群体的偏见。
- 平等机会差异（Equalized Odds Difference）：旨在确保模型在不同群体中具有相等的错误率，即模型在各群体中的预测错误概率应相似。
鲁棒性：评估模型在面对各种挑战性输入时的表现，包括对抗性攻击、数据分布变化和噪声等因素的影响：
- 攻击成功率（Attack Success Rate）：用于评估 LLM 在面对对抗性攻击时的鲁棒性。
- 性能下降率（Performance Drop Rate）：评估 LLM 在面对不同提示词时的鲁棒性，衡量模型性能在这些情况下的下降程度。

定义项目的范围：
- 明确目标：首先要明确这个 LLM 项目的目标是什么？是用于生成文本、对话助手、翻译语言、还是执行其他任务？
- 确定范围：接下来要确定项目的范围，即这个 LLM 模型需要处理的数据量、任务复杂度以及所需的性能。
数据预处理和相关考虑：
- 数据收集：收集与项目相关的大量高质量数据。
- 数据清洗：对数据进行清洗，去除噪声、错误和不一致的数据。
- 数据标注：为数据添加标签，以便模型能够学习到正确的关联。
选择一个基座的模型：
- 模型选择：根据项目的需求选择一个合适的基座模型，以及是使用 Base 模型还是 Chat 模型。不同的模型在处理不同任务时表现会有所不同。
- 考虑因素：在选择模型时，需要考虑模型的规模、参数数量、训练数据量以及计算资源等因素。
模型训练：
- 模型训练：利用准备好的数据集和适当的训练方法对模型进行训练，特别要注重选择合适的训练策略。
- 训练稳定性：LLM 的训练相比其他深度学习模型更容易遇到意外问题，如不收敛、训练不稳定、突发中断等，要提前做好应对方案。
强化学习：
- 交互学习：通过与环境的交互，让模型不断学习和改进。
- 奖励机制：设计合理的奖励机制，引导模型朝着目标方向发展。
评估模型：
- 性能评估：使用测试数据对模型的性能进行评估，以确定模型是否达到预期的效果。
- 指标选择：选择合适的评价指标。
模型优化和部署：
- 模型优化：对模型进行量化等，以减小模型的尺寸和提高推理速度。
- 部署：将训练好的模型部署到实际应用中，提供服务。
模型监控和构建 LLM 应用：
- 模型监控：持续监控模型的性能，及时发现问题并进行调整。
- 应用开发：基于训练好的模型开发各种 LLM 应用，如聊天机器人、文本生成工具等。

大语言模型（LLM）基础原理与应用

大语言模型基础知识

1 LLM 基础知识

1.1 LLM 介绍

1.2 LLM 训练范式

更多推荐文章

相关免费在线工具

1.3 Transformer 结构解析

1.4 LLM 扩展应用

2 LLM 训练概览

2.1 LLM 推理过程

2.2 LLM 应用构建

2.2.1 提示词工程

2.2.2 模型训练与微调

2.2.3 RAG

2.3 LLM 评估

2.3.1 LLM 自动评估

2.3.2 LLM 人工评估

2.3.3 LLM 评估工具

2.4 LLM 量化、部署、优化

2.4.1 模型量化

2.4.2 模型推理部署

2.4.3 模型优化技术

3 总结

更多推荐文章

相关免费在线工具

大语言模型（LLM）基础原理与应用

大语言模型基础知识

1 LLM 基础知识

1.1 LLM 介绍

1.2 LLM 训练范式

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.3 Transformer 结构解析

1.4 LLM 扩展应用

2 LLM 训练概览

2.1 LLM 推理过程

2.2 LLM 应用构建

2.2.1 提示词工程

2.2.2 模型训练与微调

2.2.3 RAG

2.3 LLM 评估

2.3.1 LLM 自动评估

2.3.2 LLM 人工评估

2.3.3 LLM 评估工具

2.4 LLM 量化、部署、优化

2.4.1 模型量化

2.4.2 模型推理部署

2.4.3 模型优化技术

3 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具