大语言模型原理、应用与演进路线

1. 从语言模型到大模型

在自然语言处理里，语言模型一直是个基础件。它的目标并不复杂：给定前面的上下文，预测下一个词。差别在于，早期方法更多依赖统计，后来逐步转向神经网络，再到今天参数规模动辄上百亿、上千亿的大语言模型。

这个演进过程里，几个阶段的边界其实很清楚：

统计语言模型（SLMs）：靠词频和 n-gram 这类统计关系做预测。好处是直观，问题是上下文一长就容易失效。
神经语言模型（NLMs）：引入词嵌入，用分布式表示来表达语义关系，终于不再只是盯着表面词频。
预训练语言模型（PLMs）：先在大规模语料上预训练，再针对下游任务微调。BERT 这类模型把上下文理解能力往前推了一大步。
大语言模型（LLMs）：参数规模继续放大，出现了更强的泛化和涌现能力，很多过去需要专门训练的任务，现在靠提示就能完成。

2. 大语言模型到底强在哪

大模型不是因为'更大'才有价值，而是它把几个能力一起拉起来了：

上下文理解更强：能处理更长的文本，保持对话和任务的连续性。
少样本、零样本能力更好：给几个例子，甚至只给一句要求，它也能跑起来。
开始支持多模态：不只是文本，图像等输入也能纳入同一套推理链路。
推理能力有所提升：虽然不稳定，但在数学、代码、逻辑题上已经能做不少事。
可通过微调适配新场景：这点很实用，尤其是落到行业任务时。

3. 常见模型家族

现在提大模型，绕不开 GPT、LLaMA 和 PaLM 这几条线。它们路线不同，但都代表了主流方向。

3.1 GPT 家族

GPT（Generative Pre-trained Transformer）由 OpenAI 推出。GPT-3 的参数量达到 1750 亿，生成能力很强。GPT-4 进一步强化了多模态理解，已经不只是'会聊天'，还能分析图像并给出建议。

3.2 LLaMA 家族

LLaMA 是 Meta 推出的开源系列。它强调在相对可控的参数量下获得不错的效果，SwiGLU 等设计也帮了不少忙。后续像 Alpaca 这类衍生模型，靠指令微调把'听得懂人话'这件事补得更完整。

3.3 PaLM 家族

PaLM 是 Google 的 Pathways 架构模型。PaLM-540B 拥有 5400 亿参数，在多步推理和多语言任务上表现很亮眼。

3.4 其他常被提到的模型

BLOOM：覆盖 46 种自然语言。
ERNIE 3.0：把知识图谱融合进来，增强知识理解。
Claude：更强调对话安全和伦理约束。

4. 大模型是怎么做出来的

训练一个大模型，真正花时间的通常不是'堆参数'，而是前面的数据、训练目标和后面的对齐。这几步哪个没做好，模型都会掉链子。

4.1 数据清洗

高质量数据是底座。去重、过滤异常样本、清理 HTML 标签，这些看起来琐碎，但实际很关键。比如 Falcon40B 训练时，就从数万亿 token 里筛出了更高质量的语料。

4.2 分词

模型不能直接读文本，得先切成 token，再映射成数字序列。常见方案有：

BPE（Byte Pair Encoding）：通过合并高频字符对来控制词表大小，也能减少未知词问题。
WordPiece：更偏向按语言构造拆分。
SentencePiece：把输入当成 Unicode 序列处理，多语言场景比较方便。

4.3 位置编码

Transformer 本身不带顺序感，所以得补位置编码。RoPE（旋转位置编码）是现在常见的一种，它把位置信息融进向量旋转里，长序列场景下表现不错，GPT-3 和 LLaMA 都用过类似思路。

4.4 预训练目标

预训练的核心，是让模型先学会语言规律。常见目标包括：

掩码语言模型（MLM）：像 BERT 那样随机遮住部分词，再让模型补出来。
自回归语言模型（ALM）：像 GPT 那样按顺序预测下一个词。
混合专家模型（MoE）：让不同子网络处理不同输入，容量上去了，计算成本不一定同步暴涨。

4.5 微调

预训练后的模型通常还要针对具体任务再调一轮。现在更常见的是参数高效微调（PEFT），比如 LoRA。它通过低秩矩阵近似权重更新，省显存，也省训练成本。不是最'优雅'的方案，但很多时候够用。

4.6 对齐

大模型会说话不代表它说得对、说得稳。对齐的目标，是让输出更符合人类偏好和使用边界。常见做法是 RLHF：先收集人类反馈，再训练奖励模型，最后优化语言模型。DPO 则把流程简化了一些，省掉了奖励模型这一步。

4.7 解码策略

模型生成时怎么选 token，会直接影响输出风格：

贪婪搜索：每次选概率最高的 token，简单，但容易写死。
束搜索（Beam Search）：保留多个候选序列，输出通常更稳。
Top-k / Top-p 采样：增加随机性，文本更自然。
Temperature：调节概率分布的平滑程度，温度高一点会更发散。

5. 使用大模型时，问题也很明显

大模型不是万能的。真上手后，最先遇到的往往不是能力上限，而是它那些'看起来会、实际上不稳'的地方。

没有持久记忆：上下文窗口外的内容就不记得了，得靠外部系统补。
输出有随机性：同样的输入，不一定每次都一样。
知识不实时：模型本身不会自动知道最新信息。
会幻觉：有时会生成非常像真的内容，但其实不对。

5.1 提示工程

提示工程本质上是把问题说清楚。越具体，模型越不容易跑偏。常见技巧包括：

明确约束：把任务、格式、边界说死。
链式思考（CoT）：引导模型分步推理。
自我一致性：让模型生成多个答案，再从中选更稳的。
反思（Reflection）：让它先检查自己，再给最终结果。

5.2 RAG

检索增强生成（RAG）是解决知识时效性最直接的办法之一。模型先去外部知识库检索相关信息，再结合检索结果生成回答。相比单纯靠参数记忆，这个方案更可靠，也更适合企业知识库场景。

5.3 工具调用

让模型直接调用 API，效果通常比单纯聊天好得多。计算器、天气查询、数据库搜索，这些工具都能补上模型本身不擅长的部分。

5.4 Agent

Agent 是在 LLM 外面再套一层规划和执行能力。比如旅行助手，先查酒店、再查天气、再做预订，任务是拆开完成的，不是一次性瞎猜。真正落地时，Agent 比'纯聊天'更像能干活的系统。

6. 数据集和评估怎么做

模型效果不能只看感觉，还是得落到数据集和指标上。

6.1 基础任务数据集

SQuAD：阅读理解问答。
GLUE：一组常见 NLP 任务的综合基准。

6.2 推理和知识能力

MMLU：覆盖 57 个学科，用来测广泛知识能力。
GSM8K：小学数学题，比较考推理过程。

6.3 指令跟随

FLAN：多样化指令-响应对。
AlpacaEval：用于评估指令跟随表现。

6.4 常见指标

BLEU / ROUGE：看文本相似度。
F1 / EM：问答任务里很常见。
人工评估：开放式任务里还是绕不开。

7. 现在能看到的几个方向

7.1 更小、更高效

继续堆大不是唯一答案。Phi-1 这类小模型说明，参数少不代表一定弱，关键还是任务定义和训练策略。模型压缩、知识蒸馏、稀疏激活，这些方向都在补效率这块短板。

7.2 架构变化

Transformer 不是终点。State Space Models（SSMs）像 Mamba，在长序列处理上更省算力。动态架构也在尝试根据输入自动调整结构，目标很现实：少花钱，多干活。

7.3 多模态继续往前走

图像、语音、文本的融合会越来越深。GPT-4V 已经展示了图文理解能力，下一步更值得看的，是跨模态推理和生成能不能稳定下来。

7.4 安全和伦理

这个问题不会因为模型更强就自动消失。对齐、可解释性、隐私保护、公平性，仍然是必须补的课。模型越大，偏见和有害输出的影响也越大。

7.5 从通用走向垂直

医疗、法律、教育这些领域，都在把大模型往实际业务里压。单靠通用对话不够，通常要配合 RAG、Agent，甚至接入内部系统，才像一个完整方案。

大语言模型已经不是'能不能用'的阶段了，问题变成了怎么用得稳、用得省、用得可控。接下来几年，效率、安全和应用边界大概会一起往前推。