AI 产品经理核心技能:大语言模型技术原理与训练范式详解
什么是大语言模型(LLM)
大语言模型(Large Language Model, LLM)的核心特征在于其庞大的参数量级,通常达到十亿甚至千亿级别。由于研究方向不同,早期技术路线主要分为自然语言理解(NLU)和自然语言生成(NLG)两个方向。
自然语言理解任务
此类任务包括文本分类、句子关系判断等,本质上是分类问题。代表性技术是 BERT(Bidirectional Encoder Representations from Transformers)。BERT 采用双向 Transformer Encoder 架构,能够充分捕捉上下文信息,但在长文本处理上存在稳定性挑战。
自然语言生成类任务
此类任务要求模型根据输入文本生成连贯的输出序列。代表性技术是 GPT(Generative Pre-trained Transformer)。GPT 使用单向 Transformer Decoder 结构,训练过程相对高效,擅长生成流畅自然的文本。
单一的理解模型难以胜任生成任务,而现代 LLM 倾向于结合两者能力,因此主流应用方向是基于生成式模型进行落地。
Transformer 架构解析
Transformer 架构通过自注意力机制(Self-Attention)解决了传统 RNN 在处理长序列时的依赖问题,允许模型并行计算并关注序列中的任意位置。
- Encoder-only:如 BERT,适合理解任务,输出为向量表示。
- Decoder-only:如 GPT,适合生成任务,自回归地预测下一个 token。
- Encoder-Decoder:如 T5,适合翻译等转换任务,结合了编码与解码的优势。
市场主流大模型结构
在生成式任务方向,按模型结构主要分为两类:
- 基于 Causal Decoder-only 的 Transformer 结构:如 GPT-4、Claude 2、LLaMA2 等。这类模型在预测下一个 token 时只能看到之前的 token,保证了生成的因果性,是目前最主流的架构。
- 基于 Prefix Decoder 的 Transformer 结构:如 Chat GLM-6B。这类模型允许输入部分作为前缀,输出部分作为解码目标。
两者的主要区别在于训练效率与效果。在相同训练条件下,Prefix decoder 使用的 tokens 数量较少,但训练效率相对较低,效果往往不如 Causal decoder 稳定,因为后者在所有 Token 上计算损失,而前者仅在输出上计算。
此外,模型基础信息(训练数据、数据量、模型参数量、词表大小等)也是区分模型能力的关键维度。
大模型的训练范式
NLP 领域经历了四个主要的训练范式演进:
- 第一范式:基于传统机器学习模型,依赖人工特征工程,需要大量标注数据,泛化能力较弱。
- 第二范式:基于深度学习模型,自动获取特征,准确率较第一范式显著提升。
- 第三范式:基于【Pre-train(无监督)+ Fine-tune(有监督)】。利用海量无标注数据进行预训练,再通过有标注数据进行微调。适用于小数据集训练好模型,但部署资源消耗较大,且存在少量样本学习能力差的问题。
- 第四范式:基于【Pre-train, Prompt, Predict】。应用 Zero-shot 或 Few-shot 学习,仅需少量甚至无需任务特定数据。通过将下游任务转化为自然语言模板,挖掘预训练模型本身的能力,降低语义差异。
目前大模型应用多集中在第三、第四范式。第三范式旨在将模型适配到下游任务,而第四范式则更强调利用提示词工程激发模型潜能,减少微调带来的资源浪费。
提示词工程(Prompt Engineering)
为了最大化利用大模型能力,产品经理需了解提示词工程的基本策略:
- 零样本提示(Zero-shot):直接给出指令,不示例。
- 少样本提示(Few-shot):提供少量示例引导模型。
- 思维链(Chain of Thought):引导模型分步推理,提高复杂任务准确率。
- :赋予模型特定身份,优化回复风格。


