LLM（大语言模型）到底是怎么工作的？

在这里插入图片描述

当我们用 ChatGPT 写报告、用 Claude 分析合同、用 Gemini 生成代码时，常常会惊叹于大语言模型（LLM）的'智能'——它仿佛能读懂人类意图，输出贴合需求的内容。但对多数人而言，LLM 的工作过程如同'黑箱'：输入一段文字（Prompt），输出一段结果，中间的运算逻辑完全不可见。

事实上，LLM 的'智能'并非源于'思考'，而是基于海量数据的'模式学习'与'概率预测'。从技术本质来看，它更像一个'超级语言翻译官'：将人类输入的自然语言指令，转化为符合语言规律、逻辑规则和场景需求的输出内容。理解 LLM 的工作原理，不仅能帮助我们写出更精准的 Prompt，还能更合理地预判模型输出、规避使用误区。

本文将从核心原理、技术架构、训练流程、推理过程、能力边界五个维度，用通俗的语言拆解 LLM 的工作机制。即使没有专业的计算机背景，也能通过案例和类比，清晰掌握'模型如何学习''输入如何转化为输出'等关键问题，让 LLM 的'黑箱'变得可理解、可掌控。

LLM 的核心原理：不是'思考'，而是'预测下一个词'

本质：基于'概率'的语言序列生成

LLM 的核心能力，可概括为在给定上下文的前提下，预测下一个最可能出现的 token（词、字或标点符号）。这里的'上下文'既包括用户输入的 Prompt，也包括模型已经生成的内容。

举个简单例子：当输入 Prompt'今天天气很好，我打算去公园______'时，LLM 会分析上下文'天气好''去公园'，计算后续可能出现的 token 概率：'散步'（概率 35%）、'游玩'（概率 25%）、'野餐'（概率 20%）、'跑步'（概率 15%）、'上班'（概率 5%），最终选择概率最高的'散步'作为输出，形成完整句子'今天天气很好，我打算去公园散步'。

这种'概率预测'的本质，决定了 LLM 的输出是'符合语言规律的最优解'，而非'绝对正确的答案'。例如，面对数学题'2+3=？'，LLM 并非通过'计算'得出'5'，而是通过学习海量文本中'2+3'与'5'的高频关联，预测'5'是最可能的输出。

基础：Transformer 架构的'注意力机制'

LLM 能实现精准的'上下文理解'，核心依赖于 2017 年谷歌提出的Transformer 架构，其中的'注意力机制'（Self-Attention）是关键。简单来说，注意力机制让模型能像人类一样，'重点关注上下文里与当前任务相关的信息'。

比如，当处理句子'小明喜欢吃苹果，他每天都会买一个'时，人类能立刻知道'他'指代'小明'；而 LLM 通过注意力机制，会计算'他'与上下文每个词的'关联权重'：'小明'（权重 0.8）、'喜欢'（权重 0.1）、'苹果'（权重 0.05）、'每天'（权重 0.05），从而明确'他'的指代对象。

在 Transformer 架构中，注意力机制通过'多头注意力'（Multi-Head Attention）进一步强化：模型会同时从多个'角度'分析上下文关联。例如，一个'头'关注'指代关系'（如'他'对应'小明'），另一个'头'关注'语义逻辑'（如'吃苹果'与'买一个'的因果关系），多个'头'的结果综合后，就能更全面地理解上下文。

关键：海量数据训练出的'语言知识图谱'

LLM 的'预测能力'并非天生具备，而是通过'训练'从海量文本数据中学习而来。训练过程就像让模型'阅读'互联网上的亿万篇文章、书籍、对话，从中总结语言规律、常识逻辑、专业知识，最终形成一个'隐性的语言知识图谱'。

对比维度	预训练阶段（Pre-training）	微调阶段（Fine-tuning）
数据类型	海量无标注通用文本数据，包括书籍、网页、论文、普通对话等，不局限于法律领域	少量有标注的法律文书任务数据，如'案件描述 - 起诉状''合同需求 - 合同条款''法律问题 - 答辩状'等法律专业数据对
训练任务	通用语言任务，如'掩码语言建模'（预测被遮挡的 token）、'下一句预测'（判断两句话是否连续）	法律文书生成专项任务，如'给定案件信息，生成符合格式的起诉状''根据用户需求，撰写合同中的违约责任条款'
目标成果	模型掌握通用的语言规律（语法、语义、常识），能生成通顺的句子，但无法精准生成法律文书	模型掌握法律文书的专业格式、用语和逻辑，能根据案件信息或用户需求，生成符合法律规范的起诉状、合同、答辩状等