大语言模型 (LLM) 概述
1. 语言模型与大语言模型
2023 年,随着 ChatGPT 的发布,人工智能领域迎来了新的里程碑。"大语言模型(Large Language Model, LLM)"这一概念随之进入公众视野。ChatGPT 展现出的能力——能够结合上下文逻辑性地回答问题,甚至在生成长文本时保持连贯性——令人印象深刻。
1.1 什么是语言模型?
语言模型(Language Model) 是一种机器学习算法,其核心任务是根据给定的文本来预测下一个词语或字符出现的概率。它通过海量的文本数据学习语言的统计特征,从而生成具有相似统计特征的新文本。
其数学表达通常基于条件概率: $$P(w_t | w_1, w_2, ..., w_{t-1})$$ 即给定前序词序列,计算当前词 $w_t$ 的概率。目标是建立统计模型,估计文本序列中每个词语或字符出现的概率,从而实现语言生成、语言理解等自然语言处理(NLP)任务。
1.2 什么是大型语言模型?
大型语言模型(Large Language Model, LLM) 是利用大规模语料数据进行预训练的预训练语言模型(Pre-trained Language Models, PLMs)。它是自然语言处理的一种重要范式。
简言之,大语言模型是在巨大数据集上训练以理解人类语言的深度学习模型。与普通语言模型相比,LLM 的显著区别在于规模:
- 参数量巨大:从数亿到数千亿甚至万亿参数。
- 训练数据海量:使用互联网规模的文本数据进行训练。
- 泛化能力强:具备少样本(Few-shot)甚至零样本(Zero-shot)学习能力。
大语言模型使机器能够像人类一样解释和处理语言,彻底改变了计算机理解和生成人类语言的方式。
2. 核心技术架构
2.1 Transformer 架构
现代大语言模型的基石是 Transformer 架构。与传统的 RNN(循环神经网络)不同,Transformer 引入了自注意力机制(Self-Attention),能够并行处理序列数据并捕捉长距离依赖关系。
- Encoder-Decoder 结构:早期用于机器翻译,现在多演变为纯 Decoder 结构(如 GPT 系列)用于生成任务。
- 多头注意力机制:允许模型同时关注输入序列的不同位置的信息,增强对上下文的理解。
2.2 训练流程
大语言模型的训练通常分为三个阶段:
- 预训练(Pre-training):在海量无标注文本上进行自监督学习,目标是预测被掩码的词或下一个词。此阶段让模型学习通用的语言知识和世界知识。
- 有监督微调(SFT, Supervised Fine-Tuning):使用高质量的指令 - 回答对进行微调,使模型学会遵循人类指令。
- 人类反馈强化学习(RLHF):通过奖励模型对人类偏好进行排序优化,使模型输出更符合人类价值观和安全标准。
2.3 关键概念
- Tokenization:将文本分割为 Token(词元),这是模型处理文本的基本单位。不同的分词器(Tokenizer)会影响模型的性能和效率。
- Context Window:模型能一次处理的输入长度限制。窗口越大,模型能理解的上下文越长,但计算成本也越高。
- Embedding:将离散的 Token 映射为连续的向量表示,便于神经网络计算。
3. 落地应用与产业影响
大语言模型已成为人工智能领域的突破性发展,对数字产业产生了深远影响。
3.1 变革人机交互方式
既有软件将接入对话能力,交互界面发生变革,自然语言成为用户发布操作指令的新模态。这一影响将从搜索引擎等知识信息平台拓展到一切人机交互型应用。友好度和功能性的显著提升将激活软件服务的增量用户市场。
3.2 丰富产品种类
将诞生新一批 AI-first 的应用,涵盖创意设计、AI 营销、AI 运营等领域。例如,利用 LLM 自动生成营销文案、设计海报草图或分析用户行为数据。


