大语言模型(LLM)快速理解指南
自 2022 年 ChatGPT 发布以来,大语言模型(Large Language Model, LLM)引发了技术界的广泛关注。作为人工智能领域的重要里程碑,LLM 展现了强大的自然语言理解与生成能力。本文将从发展历史、核心定义、架构原理、训练流程及应用场景等方面,系统梳理大语言模型的关键知识。
一、发展历史
大语言模型的演进经历了从统计方法到深度学习,再到 Transformer 架构的跨越。
1.1 统计语言模型
在深度学习兴起之前,语言模型主要依赖统计方法,即统计语言模型(Statistical Language Model, SLM)。其核心思想基于马尔可夫假设,利用上下文预测下一个词的概率。常见的 n-gram 模型固定了上下文长度,虽然计算简单,但在处理长文本时面临词汇稀疏和上下文捕捉能力不足的问题。
1.2 神经语言模型
随着神经网络技术的发展,Bengio 等人于 2003 年提出神经语言模型,将语言建模转化为神经网络学习问题。循环神经网络(RNN)及其变体长短期记忆网络(LSTM)显著提升了序列建模能力,能够捕捉长程依赖关系。 2013 年,Google 推出 Word2Vec,通过词嵌入(Word Embedding)将单词映射为连续向量,增强了语义理解。2017 年,Google 提出 Transformer 模型,引入自注意力机制(Self-Attention),实现了并行计算,大幅提升了训练效率,成为后续大模型的基础架构。
1.3 预训练语言模型
2018 年,OpenAI 发布 GPT 模型,利用 Transformer 结构进行大规模无监督预训练。同年,Google 推出 BERT 模型,采用双向上下文建模(MLM 和 NSP),进一步提升了性能。此后,XLNet、RoBERTa、T5、GPT-2、GPT-3 等模型相继问世,标志着大语言模型正式形成。
二、什么是大语言模型
2.1 定义
大语言模型是指在自然语言处理任务中,参数量巨大、训练数据规模庞大且计算资源需求极高的 AI 模型。其'大'主要体现在三个方面:
参数数量:通常包含数十亿至数千亿个参数,赋予模型更强的推理和生成能力。例如 GPT 系列模型的参数量随版本迭代显著增长。
训练数据:需要海量文本语料库,涵盖互联网网页、书籍、新闻、代码等多种来源,确保模型学习丰富的语言知识。如 PaLM 使用了社交媒体、维基百科等多源数据。
计算资源:训练过程依赖高性能 GPU 集群(如 NVIDIA H100)、大容量存储及高速网络。算力已成为制约模型发展的关键瓶颈。
2.2 训练方式
大语言模型训练通常分为两个阶段:
预训练(Pre-training):使用大规模无监督文本数据,通过自监督学习(如掩码语言建模)优化参数,使模型掌握通用语言表示。
微调(Fine-tuning):在特定下游任务(如分类、生成)上,使用带标签数据对预训练模型进行进一步训练,以适应具体需求。常见方法包括全量微调和参数高效微调(PEFT)。
三、预训练详解
3.1 数据收集及处理
数据质量直接决定模型上限。预训练语料通常混合通用文本(网页、书籍)和专用数据(代码、科学文献)。
预处理流程:
- 质量过滤:剔除低质量内容,可采用分类器或启发式规则(如关键词、统计特征)。
- 去重:移除句子级、文档级重复数据,提升多样性。
- 隐私去除:过滤姓名、电话等敏感信息。
- 分词(Tokenization):将文本分割为模型可处理的 Token 序列。
3.2 架构设计
主流架构包括:
编码器 - 解码器(Encoder-Decoder):适用于序列到序列任务(如翻译),如传统 BERT 类模型。
因果解码器(Causal Decoder):采用单向注意力掩码,仅关注过去信息,适用于自回归生成,如 GPT 系列。
前缀解码器(Prefix Decoder):结合两者优势,前缀部分双向编码,生成部分单向预测,支持指令遵循。


