大型语言模型(LLM)技术综述
引言
大型语言模型(Large Language Model, LLM)是近年来人工智能领域最具影响力的突破之一。本文基于《大型语言模型综述》及相关技术文献,系统梳理 LLM 的技术体系,涵盖发展历程、核心架构、训练策略及应用场景,旨在为开发者提供全面的技术参考。
1. LLM 发展时间线与趋势
自 2017 年 Transformer 架构提出以来,LLM 经历了爆发式增长。
- 早期探索:RNN 和 LSTM 主导时期,序列建模能力有限。
- Transformer 时代:注意力机制解决了长距离依赖问题,奠定了现代 LLM 的基础。
- GPT 系列演进:从 GPT-1 到 GPT-4,参数量级从亿级跃升至千亿甚至万亿级,涌现出强大的泛化能力。
- 开源生态崛起:如 LLaMA 家族的发布,推动了社区对模型架构和微调技术的深入研究。
- 论文趋势:arXiv 上相关论文数量呈指数级上升,研究热点从单纯的性能提升转向效率优化和多模态融合。
2. 核心架构与模型类型
2.1 主流架构
目前绝大多数 LLM 采用 Decoder-only 的 Transformer 架构。
- Encoder-Decoder:适用于翻译等生成任务,如 T5。
- Decoder-only:适用于自回归生成,如 GPT、LLaMA。
- Encoder-only:适用于分类任务,如 BERT。
2.2 详细配置
模型规模通常由层数、隐藏层维度、注意力头数决定。
- 参数量:影响模型的知识和表达能力,常见有 7B、13B、70B 等规格。
- 上下文窗口:决定了模型能处理的最大输入长度,从早期的 2k 扩展到 32k、128k 甚至更长。
3. 训练与数据
3.1 预训练(Pre-training)
利用海量无标注文本进行自监督学习,目标是预测下一个 token。
- 数据采集:包括网页爬虫、书籍、代码库等高质量语料。
- 清洗与过滤:去除低质量、重复或有害内容至关重要。
- 分布式训练:使用 FSDP、DeepSpeed 等技术实现千卡集群并行训练。
3.2 代码预训练
针对编程能力的增强,引入 GitHub 等代码仓库数据,使模型具备编写和调试代码的能力。
4. 适应性与微调
4.1 指令调优(Instruction Tuning)
通过构建指令 - 响应对数据集,让模型学会遵循人类指令,而非仅仅续写文本。
- DPO/RLHF:基于人类反馈的强化学习进一步优化对齐效果。
4.2 参数高效微调(PEFT)
在保持预训练权重冻结的情况下,仅更新少量参数。
- LoRA:低秩适配器,大幅降低显存需求。
- Adapter:插入小型网络模块。
4.3 内存高效适配
针对资源受限环境,采用量化(Quantization)、剪枝等技术压缩模型。


