大语言模型原理、应用与演进路线
1. 从语言模型到大模型
在自然语言处理里,语言模型一直是个基础件。它的目标并不复杂:给定前面的上下文,预测下一个词。差别在于,早期方法更多依赖统计,后来逐步转向神经网络,再到今天参数规模动辄上百亿、上千亿的大语言模型。
这个演进过程里,几个阶段的边界其实很清楚:
- 统计语言模型(SLMs):靠词频和 n-gram 这类统计关系做预测。好处是直观,问题是上下文一长就容易失效。
- 神经语言模型(NLMs):引入词嵌入,用分布式表示来表达语义关系,终于不再只是盯着表面词频。
- 预训练语言模型(PLMs):先在大规模语料上预训练,再针对下游任务微调。BERT 这类模型把上下文理解能力往前推了一大步。
- 大语言模型(LLMs):参数规模继续放大,出现了更强的泛化和涌现能力,很多过去需要专门训练的任务,现在靠提示就能完成。
2. 大语言模型到底强在哪
大模型不是因为'更大'才有价值,而是它把几个能力一起拉起来了:
- 上下文理解更强:能处理更长的文本,保持对话和任务的连续性。
- 少样本、零样本能力更好:给几个例子,甚至只给一句要求,它也能跑起来。
- 开始支持多模态:不只是文本,图像等输入也能纳入同一套推理链路。
- 推理能力有所提升:虽然不稳定,但在数学、代码、逻辑题上已经能做不少事。
- 可通过微调适配新场景:这点很实用,尤其是落到行业任务时。
3. 常见模型家族
现在提大模型,绕不开 GPT、LLaMA 和 PaLM 这几条线。它们路线不同,但都代表了主流方向。
3.1 GPT 家族
GPT(Generative Pre-trained Transformer)由 OpenAI 推出。GPT-3 的参数量达到 1750 亿,生成能力很强。GPT-4 进一步强化了多模态理解,已经不只是'会聊天',还能分析图像并给出建议。
3.2 LLaMA 家族
LLaMA 是 Meta 推出的开源系列。它强调在相对可控的参数量下获得不错的效果,SwiGLU 等设计也帮了不少忙。后续像 Alpaca 这类衍生模型,靠指令微调把'听得懂人话'这件事补得更完整。
3.3 PaLM 家族
PaLM 是 Google 的 Pathways 架构模型。PaLM-540B 拥有 5400 亿参数,在多步推理和多语言任务上表现很亮眼。
3.4 其他常被提到的模型
- BLOOM:覆盖 46 种自然语言。
- ERNIE 3.0:把知识图谱融合进来,增强知识理解。
- Claude:更强调对话安全和伦理约束。
4. 大模型是怎么做出来的
训练一个大模型,真正花时间的通常不是'堆参数',而是前面的数据、训练目标和后面的对齐。这几步哪个没做好,模型都会掉链子。
4.1 数据清洗
高质量数据是底座。去重、过滤异常样本、清理 HTML 标签,这些看起来琐碎,但实际很关键。比如 Falcon40B 训练时,就从数万亿 token 里筛出了更高质量的语料。
4.2 分词
模型不能直接读文本,得先切成 token,再映射成数字序列。常见方案有:
- BPE(Byte Pair Encoding):通过合并高频字符对来控制词表大小,也能减少未知词问题。
- WordPiece:更偏向按语言构造拆分。
- SentencePiece:把输入当成 Unicode 序列处理,多语言场景比较方便。
4.3 位置编码
Transformer 本身不带顺序感,所以得补位置编码。RoPE(旋转位置编码)是现在常见的一种,它把位置信息融进向量旋转里,长序列场景下表现不错,GPT-3 和 LLaMA 都用过类似思路。
4.4 预训练目标
预训练的核心,是让模型先学会语言规律。常见目标包括:
- 掩码语言模型(MLM):像 BERT 那样随机遮住部分词,再让模型补出来。
- 自回归语言模型(ALM):像 GPT 那样按顺序预测下一个词。
- 混合专家模型(MoE):让不同子网络处理不同输入,容量上去了,计算成本不一定同步暴涨。
4.5 微调
预训练后的模型通常还要针对具体任务再调一轮。现在更常见的是参数高效微调(PEFT),比如 LoRA。它通过低秩矩阵近似权重更新,省显存,也省训练成本。不是最'优雅'的方案,但很多时候够用。
4.6 对齐
大模型会说话不代表它说得对、说得稳。对齐的目标,是让输出更符合人类偏好和使用边界。常见做法是 RLHF:先收集人类反馈,再训练奖励模型,最后优化语言模型。DPO 则把流程简化了一些,省掉了奖励模型这一步。
4.7 解码策略
模型生成时怎么选 token,会直接影响输出风格:
- 贪婪搜索:每次选概率最高的 token,简单,但容易写死。
- 束搜索(Beam Search):保留多个候选序列,输出通常更稳。
- Top-k / Top-p 采样:增加随机性,文本更自然。
- Temperature:调节概率分布的平滑程度,温度高一点会更发散。
5. 使用大模型时,问题也很明显
大模型不是万能的。真上手后,最先遇到的往往不是能力上限,而是它那些'看起来会、实际上不稳'的地方。
- 没有持久记忆:上下文窗口外的内容就不记得了,得靠外部系统补。
- 输出有随机性:同样的输入,不一定每次都一样。
- 知识不实时:模型本身不会自动知道最新信息。
- 会幻觉:有时会生成非常像真的内容,但其实不对。
5.1 提示工程
提示工程本质上是把问题说清楚。越具体,模型越不容易跑偏。常见技巧包括:
- 明确约束:把任务、格式、边界说死。
- 链式思考(CoT):引导模型分步推理。
- 自我一致性:让模型生成多个答案,再从中选更稳的。
- 反思(Reflection):让它先检查自己,再给最终结果。
5.2 RAG
检索增强生成(RAG)是解决知识时效性最直接的办法之一。模型先去外部知识库检索相关信息,再结合检索结果生成回答。相比单纯靠参数记忆,这个方案更可靠,也更适合企业知识库场景。
5.3 工具调用
让模型直接调用 API,效果通常比单纯聊天好得多。计算器、天气查询、数据库搜索,这些工具都能补上模型本身不擅长的部分。
5.4 Agent
Agent 是在 LLM 外面再套一层规划和执行能力。比如旅行助手,先查酒店、再查天气、再做预订,任务是拆开完成的,不是一次性瞎猜。真正落地时,Agent 比'纯聊天'更像能干活的系统。
6. 数据集和评估怎么做
模型效果不能只看感觉,还是得落到数据集和指标上。
6.1 基础任务数据集
- SQuAD:阅读理解问答。
- GLUE:一组常见 NLP 任务的综合基准。
6.2 推理和知识能力
- MMLU:覆盖 57 个学科,用来测广泛知识能力。
- GSM8K:小学数学题,比较考推理过程。
6.3 指令跟随
- FLAN:多样化指令-响应对。
- AlpacaEval:用于评估指令跟随表现。
6.4 常见指标
- BLEU / ROUGE:看文本相似度。
- F1 / EM:问答任务里很常见。
- 人工评估:开放式任务里还是绕不开。
7. 现在能看到的几个方向
7.1 更小、更高效
继续堆大不是唯一答案。Phi-1 这类小模型说明,参数少不代表一定弱,关键还是任务定义和训练策略。模型压缩、知识蒸馏、稀疏激活,这些方向都在补效率这块短板。
7.2 架构变化
Transformer 不是终点。State Space Models(SSMs)像 Mamba,在长序列处理上更省算力。动态架构也在尝试根据输入自动调整结构,目标很现实:少花钱,多干活。
7.3 多模态继续往前走
图像、语音、文本的融合会越来越深。GPT-4V 已经展示了图文理解能力,下一步更值得看的,是跨模态推理和生成能不能稳定下来。
7.4 安全和伦理
这个问题不会因为模型更强就自动消失。对齐、可解释性、隐私保护、公平性,仍然是必须补的课。模型越大,偏见和有害输出的影响也越大。
7.5 从通用走向垂直
医疗、法律、教育这些领域,都在把大模型往实际业务里压。单靠通用对话不够,通常要配合 RAG、Agent,甚至接入内部系统,才像一个完整方案。
大语言模型已经不是'能不能用'的阶段了,问题变成了怎么用得稳、用得省、用得可控。接下来几年,效率、安全和应用边界大概会一起往前推。


