跳到主要内容LLM(大语言模型)到底是怎么工作的? | 极客日志编程语言AI算法
LLM(大语言模型)到底是怎么工作的?
LLM 基于概率预测生成文本,核心依赖 Transformer 架构与注意力机制。通过海量数据预训练掌握语言规律,再经微调与对齐适配人类需求。理解其“预测下一个 token”的本质有助于优化提示词、预判输出边界,避免过度拟人化认知,从而更高效地利用大模型解决实际问题。
MqEngine11 浏览 


当我们用 ChatGPT 写报告、用 Claude 分析合同、用 Gemini 生成代码时,常常会惊叹于大语言模型(LLM)的'智能'——它仿佛能读懂人类意图,输出贴合需求的内容。但对多数人而言,LLM 的工作过程如同'黑箱':输入一段文字(Prompt),输出一段结果,中间的运算逻辑完全不可见。
事实上,LLM 的'智能'并非源于'思考',而是基于海量数据的'模式学习'与'概率预测'。从技术本质来看,它更像一个'超级语言翻译官':将人类输入的自然语言指令,转化为符合语言规律、逻辑规则和场景需求的输出内容。理解 LLM 的工作原理,不仅能帮助我们写出更精准的 Prompt,还能更合理地预判模型输出、规避使用误区。
本文将从核心原理、技术架构、训练流程、推理过程、能力边界五个维度,用通俗的语言拆解 LLM 的工作机制。即使没有专业的计算机背景,也能通过案例和类比,清晰掌握'模型如何学习''输入如何转化为输出'等关键问题,让 LLM 的'黑箱'变得可理解、可掌控。
LLM 的核心原理:不是'思考',而是'预测下一个词'
本质:基于'概率'的语言序列生成
LLM 的核心能力,可概括为在给定上下文的前提下,预测下一个最可能出现的 token(词、字或标点符号)。这里的'上下文'既包括用户输入的 Prompt,也包括模型已经生成的内容。
举个简单例子:当输入 Prompt'今天天气很好,我打算去公园______'时,LLM 会分析上下文'天气好''去公园',计算后续可能出现的 token 概率:'散步'(概率 35%)、'游玩'(概率 25%)、'野餐'(概率 20%)、'跑步'(概率 15%)、'上班'(概率 5%),最终选择概率最高的'散步'作为输出,形成完整句子'今天天气很好,我打算去公园散步'。
这种'概率预测'的本质,决定了 LLM 的输出是'符合语言规律的最优解',而非'绝对正确的答案'。例如,面对数学题'2+3=?',LLM 并非通过'计算'得出'5',而是通过学习海量文本中'2+3'与'5'的高频关联,预测'5'是最可能的输出。
基础:Transformer 架构的'注意力机制'
LLM 能实现精准的'上下文理解',核心依赖于 2017 年谷歌提出的Transformer 架构,其中的'注意力机制'(Self-Attention)是关键。简单来说,注意力机制让模型能像人类一样,'重点关注上下文里与当前任务相关的信息'。
比如,当处理句子'小明喜欢吃苹果,他每天都会买一个'时,人类能立刻知道'他'指代'小明';而 LLM 通过注意力机制,会计算'他'与上下文每个词的'关联权重':'小明'(权重 0.8)、'喜欢'(权重 0.1)、'苹果'(权重 0.05)、'每天'(权重 0.05),从而明确'他'的指代对象。
在 Transformer 架构中,注意力机制通过'多头注意力'(Multi-Head Attention)进一步强化:模型会同时从多个'角度'分析上下文关联。例如,一个'头'关注'指代关系'(如'他'对应'小明'),另一个'头'关注'语义逻辑'(如'吃苹果'与'买一个'的因果关系),多个'头'的结果综合后,就能更全面地理解上下文。
关键:海量数据训练出的'语言知识图谱'
LLM 的'预测能力'并非天生具备,而是通过'训练'从海量文本数据中学习而来。训练过程就像让模型'阅读'互联网上的亿万篇文章、书籍、对话,从中总结语言规律、常识逻辑、专业知识,最终形成一个'隐性的语言知识图谱'。
以 GPT 系列模型为例,其训练数据涵盖书籍、网页内容、对话数据、代码库等。通过对这些数据的学习,模型会记住语法规则、语义关联、常识逻辑以及专业知识。但需要注意的是,模型的'知识'是'统计性'的——它并非理解知识的本质,而是记住'哪些信息经常一起出现'。例如,模型知道'地球围绕太阳转',是因为这句话在训练数据中出现频率极高,而非理解天体运行的物理原理。
LLM 的技术架构:从'输入'到'输出'的五大核心模块
LLM 的工作流程可拆解为'输入处理—编码—特征提取—解码—输出'五个环节,每个环节由对应的技术模块完成。这些模块协同工作,将人类输入的自然语言,转化为符合需求的输出内容。
输入处理模块:把'文字'变成'模型能懂的数字'
LLM 无法直接'读懂'文字,必须先将文字转化为'数值向量'(Embedding)。具体过程分为两步:
- Tokenization(分词):将输入的文本拆分为最小单位'token'。例如,中文句子'我喜欢人工智能'会被拆分为'我''喜欢''人工''智能'4 个 token。
- Embedding(嵌入):为每个 token 分配一个'数值向量'。这个向量会包含 token 的语义信息,例如'医生'和'护士'的向量会更接近(语义相关),而'医生'和'汽车'的向量会更远(语义无关)。
例如,'我喜欢吃苹果'经过处理后,会变成一组向量,这组向量就是模型能理解的'输入语言'。
编码模块:用'注意力机制'理解上下文
编码模块的核心是 Transformer 架构的'编码器'(Encoder),其作用是'深度理解输入文本的上下文关系'。通过多层多头注意力机制,编码器会计算每个 token 与其他所有 token 的关联权重,生成包含上下文信息的'编码向量'。
以句子'小明在公园散步,他看到一只小猫'为例:编码器会计算'他'与'小明'的关联权重(高),明确指代关系;计算'小猫'与'公园'的关联权重(中),知道'小猫'出现在'公园'场景中。经过编码后,每个 token 的向量不仅包含自身语义,还融入了与其他 token 的关联信息,形成'上下文感知的编码向量'。
特征提取模块:捕捉'深层语义与逻辑'
特征提取模块由 Transformer 的'前馈神经网络'(Feed-Forward Network, FFN)构成,作用是'从编码向量中提取深层特征',包括语义逻辑、情感倾向、任务意图等。
如果说编码模块是'梳理上下文关系',那么特征提取模块就是'挖掘上下文背后的含义'。例如,面对 Prompt'帮我写一封道歉信,因为我昨天迟到了':编码模块会理解'道歉信''昨天''迟到'的关联;特征提取模块则会捕捉到'任务类型是写道歉信''核心原因是迟到''情感基调是愧疚'等深层信息。FFN 通过多层非线性变换,将编码向量转化为'高维特征向量',为后续的'输出预测'提供精准依据。
解码模块:'预测下一个 token'生成输出
解码模块是 LLM 生成内容的核心,对应 Transformer 架构的'解码器'(Decoder)。它基于'编码后的特征向量'和'已生成的 token 序列',逐一生成下一个最可能的 token。
解码过程遵循'自回归'(Autoregressive)逻辑:第一步基于输入的 Prompt 生成第一个 token;第二步将新生成的 token 加入序列,结合原始 Prompt 的特征向量,生成第二个 token;重复上述过程,直到生成'结束符'或达到预设长度,最终形成完整输出。
为了让输出更贴合需求,解码器还会结合'采样策略'(如 Temperature、Top-P 参数)调整 token 选择的随机性。例如,高 Temperature 会让模型优先选择低概率 token,输出更具创意;低 Temperature 会让模型只选择高概率 token,输出更稳定、保守。
输出处理模块:把'数字向量'变回'文字'
输出处理模块是输入处理模块的'逆过程',将解码器生成的'token 向量'转化为人类可读懂的文字。具体过程是将 token 向量还原为文字,拼接成完整文本,并优化格式,比如去除多余的标点、调整换行格式,让输出更符合人类阅读习惯。
LLM 的训练流程:从'空白模型'到'智能助手'的三步蜕变
LLM 并非天生'智能',而是通过'预训练—微调—对齐'三个阶段的训练,从'空白模型'逐步成长为能理解人类需求的'智能助手'。
第一阶段:预训练(Pre-training)——让模型'学会语言'
预训练是 LLM 的'基础学习阶段',目标是让模型掌握'语言的通用规律',包括语法、语义、常识等。这一阶段就像人类的'幼儿学语期',通过大量'阅读'积累语言知识。
核心特点包括数据海量且多样,使用 TB 级甚至 PB 级的无标注文本数据;任务简单,主要是'填空'游戏,如掩码语言建模(MLM)和下一句预测(NSP);无人类干预,模型自主学习数据中的规律。经过预训练后,模型具备了'理解语言'和'生成语言'的基础能力,但此时的模型更像一个'语言专家',而非'实用助手'。
第二阶段:微调(Fine-tuning)——让模型'学会做事'
微调是 LLM 的'专项训练阶段',目标是让模型'学会完成特定任务',将通用的语言能力转化为实用的工具能力。这一阶段就像人类的'职业培训期',针对具体岗位学习专业技能。
核心特点包括数据少量且有标注,使用数千到数万条有标注的'任务 - 输出'数据对;任务聚焦,针对目标任务设计训练任务;模型参数微调,在预训练模型的基础上调整部分参数。经过微调后,模型具备了'完成特定任务'的能力,但此时的模型可能仍存在'输出不符合人类偏好'的问题。
第三阶段:对齐(Alignment)——让模型'懂人类'
对齐是 LLM 的'优化阶段',目标是让模型的输出'符合人类的价值观和偏好',避免生成有害、无意义或不符合需求的内容。这一阶段就像人类的'社会适应期',学习如何用语言更好地与他人互动。
核心特点包括数据基于人类反馈,使用'人类反馈强化学习'(RLHF)技术;任务是'模仿人类偏好',通过反馈数据训练'奖励模型';聚焦'安全性'和'实用性'。经过对齐后,LLM 才真正成为'可用的智能助手'。
LLM 的推理过程:以'写产品需求文档'为例,拆解完整链路
为了更直观地理解 LLM 的工作机制,我们以'用 Prompt 让模型写一份'智能台灯'的产品需求文档(PRD)'为例,完整拆解从'输入 Prompt'到'输出 PRD'的推理过程。
步骤 1:输入处理——将 Prompt 转化为向量
用户输入 Prompt:'请写一份智能台灯的产品需求文档,核心功能包括:1. 自动调节亮度(根据环境光);2. 手机 APP 控制(开关、调色温);3. 定时关闭。文档需包含'产品目标''核心功能''用户画像''非功能需求'四个部分,字数 800 字左右。'
输入处理模块会将 Prompt 拆分为 token,并为每个 token 生成向量,例如'智能台灯'对应向量 A,'自动调节亮度'对应向量 B,'产品目标'对应向量 C。最终,Prompt 转化为一组包含'任务指令、功能需求、格式要求'的向量序列,输入到编码模块。
步骤 2:编码与特征提取——理解任务核心需求
编码模块会计算'智能台灯'与'核心功能'的关联权重,明确产品主体;计算'产品目标''核心功能'等与'四个部分'的关联权重,明确文档结构。特征提取模块则会从编码向量中提取深层特征:任务类型是'撰写产品需求文档',产品是'智能台灯',用户需求是'一份实用、结构化的 PRD'。
步骤 3:解码——逐字生成 PRD 内容
解码模块按'预测下一个 token'的逻辑,逐一生成 PRD 内容。基于特征向量,先生成标题'# 智能台灯产品需求文档',再依次生成二级标题'## 产品目标'及其内容,过程中不断结合已生成的文本和原始特征向量,确保内容贴合需求、结构完整。
步骤 4:输出处理——优化格式并呈现
输出处理模块将解码生成的 token 序列转化为人类可阅读的 PRD 文档,调整标题层级、分段换行、列表格式,检查篇幅,最终输出完整的 PRD 文档。
LLM 的能力边界:知道'能做什么',更要知道'不能做什么'
LLM 的能力强大,但并非'无所不能'。理解其能力边界,能帮助我们更合理地使用模型,避免因'过度依赖'导致失误。
局限 1:'事实性错误'——源于'知识截止与统计关联'
LLM 的知识来源于训练数据,且存在'知识截止时间';同时,模型的'知识'是'统计性关联',而非'真正理解',因此容易出现'一本正经地胡说八道'的事实性错误。应对策略是对需要'时效性''准确性'的信息,需结合权威来源交叉验证。
局限 2:'逻辑推理薄弱'——源于'缺乏抽象思维'
LLM 擅长'语言层面的逻辑',但不擅长'抽象的逻辑推理'。面对需要多步推导的问题,模型容易出现'中间步骤错误'或'跳跃式结论'。应对策略是在 Prompt 中加入'分步推导'指令,或使用'思维链(Chain-of-Thought)'Prompt。
局限 3:'输出同质化'——源于'概率预测的保守性'
LLM 在默认设置下,会优先选择概率最高的 token,导致输出内容'安全但缺乏新意'。应对策略是调整采样参数,提高 Temperature,或在 Prompt 中加入'创意要求'。
局限 4:'无法理解'未学习过的概念''——源于'知识的局限性'
LLM 的知识完全来自训练数据,对于训练数据中未出现过的'新兴概念''小众领域知识',模型无法理解或只能'猜测'。应对策略是在 Prompt 中补充相关背景信息。
LLM 与人类智能的本质区别:避免'拟人化'认知误区
在使用 LLM 的过程中,我们很容易因模型'流畅的语言输出'而产生'拟人化'认知。但事实上,LLM 的'智能'与人类智能存在本质区别。
核心区别一:'学习方式'——被动统计 vs 主动理解
LLM 通过'被动统计'学习数据中的规律,不会'理解'知识的本质;人类智能通过'主动理解'学习知识,会通过观察、实验、思考,理解事物的本质逻辑。
核心区别二:'推理逻辑'——概率预测 vs 因果分析
LLM 基于'概率预测'进行推理,计算'哪个答案在数据中出现的概率最高';人类智能基于'因果分析'进行推理,分析问题的前因后果。
核心区别三:'知识更新'——依赖重新训练 vs 自主学习
LLM 知识更新依赖'重新训练',要获取新知识必须用包含新数据的数据集重新训练;人类智能通过'自主学习',能快速掌握新知识。
核心区别四:'意识与意图'——无自主意识 vs 有主观意图
LLM 无自主意识和主观意图,输出完全由输入的 Prompt 和训练数据决定;人类智能有自主意识和主观意图,行为受自身意识、情绪、目标的驱动。
课后练习:深化对 LLM 工作原理的理解
为了帮助你巩固本文所学的 LLM 工作原理知识,以下设计 3 道课后练习,涵盖'核心原理''训练流程''能力边界'三个维度。
练习 1:核心原理——解释 LLM 的'预测下一个 token'机制
题目:请用通俗的语言解释 LLM 的'预测下一个 token'机制,并以 Prompt'周末我打算去爬山,需要准备______'为例,说明模型如何生成后续内容。
思路点拨:核心是抓住'概率预测'和'上下文依赖'两个关键点,说明模型并非'思考'需要准备什么,而是基于数据中的关联规律选择 token;结合具体例子时,需体现'逐 token 生成'和'上下文动态更新'的过程。
练习 2:训练流程——分析'预训练'与'微调'的差异
题目:假设你需要开发一个'法律文书生成 LLM',请对比'预训练阶段'和'微调阶段'在'数据类型''训练任务''目标成果'三个方面的差异,并说明每个阶段的核心作用。
| 对比维度 | 预训练阶段(Pre-training) | 微调阶段(Fine-tuning) |
|---|
| 数据类型 | 海量无标注通用文本数据,包括书籍、网页、论文、普通对话等,不局限于法律领域 | 少量有标注的法律文书任务数据,如'案件描述 - 起诉状''合同需求 - 合同条款''法律问题 - 答辩状'等法律专业数据对 |
| 训练任务 | 通用语言任务,如'掩码语言建模'(预测被遮挡的 token)、'下一句预测'(判断两句话是否连续) | 法律文书生成专项任务,如'给定案件信息,生成符合格式的起诉状''根据用户需求,撰写合同中的违约责任条款' |
| 目标成果 | 模型掌握通用的语言规律(语法、语义、常识),能生成通顺的句子,但无法精准生成法律文书 | 模型掌握法律文书的专业格式、用语和逻辑,能根据案件信息或用户需求,生成符合法律规范的起诉状、合同、答辩状等 |
核心作用:预训练阶段为模型打下'语言基础';微调阶段让模型'学会法律文书生成的专业技能'。
练习 3:能力边界——设计 Prompt 规避 LLM 的'逻辑推理薄弱'问题
题目:LLM 在复杂逻辑推理任务中容易出错,请针对问题'某商店进了 500 件商品,第一天卖出 1/5,第二天卖出剩下的 1/4,第三天卖出第二天剩下的 1/3,问还剩多少件商品',设计一个能引导模型正确推理的 Prompt,确保模型分步骤输出计算过程和最终答案。
请分步骤解答以下数学题,要求:1. 每一步明确说明'当前剩余商品数量'和'当天卖出数量'的计算过程;2. 最后一步给出总剩余商品数量的最终答案。题目:某商店进了 500 件商品,第一天卖出 1/5,第二天卖出剩下的 1/4,第三天卖出第二天剩下的 1/3,问还剩多少件商品?
思路点拨:针对 LLM'逻辑推理薄弱'的局限,在 Prompt 中加入'分步骤''明确计算过程'的约束,引导模型按'先算当天卖出量,再算剩余量'的逻辑逐步推导。
总结:理解 LLM,让'工具'更高效地服务'需求'
通过本文的拆解,我们可以清晰地认识到:LLM 的工作机制并非'神秘黑箱',而是基于'概率预测''Transformer 架构'和'三阶段训练'的技术体系。它的'智能'源于对海量数据的统计学习,而非人类式的思考与理解。
理解 LLM 的工作原理,对我们使用模型具有三大实际价值:
- 写出更精准的 Prompt:知道模型'依赖上下文''逐 token 生成',就能在 Prompt 中补充足够的背景信息、明确输出格式,引导模型生成符合需求的内容;
- 合理预判输出效果:了解模型'概率预测'的本质和'逻辑推理薄弱'的局限,就能避免对模型产生不切实际的期待(如让模型解决复杂数学证明),并提前规避可能的错误;
- 高效解决实际问题:掌握模型'预训练 - 微调 - 对齐'的训练逻辑,就能根据需求选择合适的模型(如用微调过的模型做专业任务,用预训练模型做通用任务),提升工作效率。
未来,随着技术的发展,LLM 的能力会不断提升,但其'统计学习'的核心本质不会改变。只有理性认识 LLM 的'能'与'不能',才能让这个强大的工具真正服务于我们的需求,而非被'拟人化'的表象误导。
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- 随机西班牙地址生成器
随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
- Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online