跳到主要内容 大模型技术原理详解:从 Transformer 到 RLHF | 极客日志
Python AI 算法
大模型技术原理详解:从 Transformer 到 RLHF 大模型是具有大规模参数和复杂计算结构的机器学习模型,其核心在于通过海量数据训练实现智能涌现。文章梳理了大模型发展历程,从 Transformer 架构的提出到 GPT-1 至 GPT-3.5 的演进,重点解析了 Self-Attention、多注意力头机制及 Encoder-Decoder 结构。此外,详细阐述了基于人类反馈的强化学习(RLHF)流程,包括监督微调(SFT)、奖励模型(RM)训练及近端策略优化(PPO),旨在使模型输出更符合人类价值观与指令意图。
1739658202 发布于 2025/2/6 更新于 2026/4/20 1 浏览大模型是指具有大规模参数 和复杂计算结构 的机器学习模型。本文从大模型的发展历程出发,对大模型领域的各个技术细节进行详细解读。
一、大模型的定义 大语言模型作为一个被验证可行的方向,其'大'体现在训练数据集广,模型参数和层数大,计算量大,其价值体现在通用性上,并且有更好的泛化能力。
这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、语音识别和推荐系统等。
大模型通过训练海量数据来学习复杂的模式和特征,具有更强大的泛化能力,可以对未见过的数据做出准确的预测。
ChatGPT 对大模型的解释更为通俗易懂:大模型本质上是一个使用海量数据训练而成的深度神经网络模型,其巨大的数据和参数规模,实现了智能的涌现,展现出类似人类的智能。
大模型与小模型的区别 小模型通常指参数较少、层数较浅的模型,它们具有轻量级、高效率、易于部署等优点,适用于数据量较小、计算资源有限的场景,例如移动端应用、嵌入式设备、物联网等。
而当模型的训练数据和参数不断扩大,直到达到一定的临界规模后,其表现出了一些未能预测的、更复杂的能力和特性,模型能够从原始训练数据中自动学习并发现新的、更高层次的特征和模式,这种能力被称为'涌现能力'。具备涌现能力的机器学习模型就被认为是独立意义上的大模型。
相比小模型,大模型通常参数较多、层数较深,具有更强的表达能力和更高的准确度,但也需要更多的计算资源和时间来训练和推理,适用于数据量较大、计算资源充足的场景,例如云端计算、高性能计算、人工智能等。
二、大模型相关概念区分
大模型(Large Model / Foundation Model) :具有大量参数和复杂结构的机器学习模型,能够处理海量数据、完成各种复杂的任务。
超大模型 :大模型的一个子集,参数量远超过普通大模型。
大语言模型(LLM) :通常是具有大规模参数和计算能力的自然语言处理模型,如 GPT-3。
GPT(Generative Pre-trained Transformer) :基于 Transformer 架构的语言模型,旨在生成自然语言文本并处理各种 NLP 任务,通常在单向生成的情况下使用。
ChatGPT :专注于对话和交互式对话,经过特定训练以更好地处理多轮对话和上下文理解。
三、大语言模型的发展
3.1 Transformer 模型的提出 在 Transformer 提出之前,自然语言处理领域的主流模型是循环神经网络 RNN。2017 年,谷歌大脑团队在 NeurIPS 发表论文'Attention is all you need',首次提出了 Transformer 架构,它完全基于注意力机制 (attention),摒弃了循环递归和卷积。
Transformer 避开了递归网络的模型体系结构,完全依赖于注意力机制来绘制输入和输出之间的全局依存关系。在八个 P100 GPU 上进行了仅仅 12 个小时的训练之后,Transformer 就可以在翻译质量方面达到新的最先进水平。
突破了远距离文本依赖的学习限制,利用注意力机制绘制全局依赖关系。
可高度并行进行训练,这对发挥硬件红利以及快速迭代模型非常重要。
Transformer 对编码器和解码器使用堆叠式的自注意力和逐点式、全连接层。
OpenAI 基于该工作基础上发展了 GPT(Generative Pre-training)生成式预训练模型。
3.2 生成式预训练初现潜力:GPT-1 2018 年,OpenAI 公司发表了论文'Improving Language Understanding by Generative Pre-training'。使用的模型有两个阶段,第一阶段是无监督预训练,基于海量的文本集通过 Transformer 学习一个大容量的语言模型,第二阶段基于标注数据进行参数微调。
在 GPT-1 中,采用了 12 层 Transformer 的结构作为解码器。这次实践奠定了 OpenAI 往这个路线发展的核心因素:
证明了通用模型训练具有很大的价值潜力。
尝试增加 Transformer 中间层,平均每增加 1 层能够提升准确性。
在 Finetune 中添加语言建模作为辅助学习目标,能够提高监督模型的泛化能力。
但 GPT-1 在生成长文本时,仍然会出现信息遗忘和重复等问题。
3.3 泛化能力突破:GPT-2 2019 年,OpenAI 发表了论文'Language Models are Unsupervised Multitask Learners'。重点实践了更大的模型更广的数据集具有更好的泛化能力。
GPT-2 则是 48 层,共有 15 亿个参数的 transformer,训练集叫 WebText。论文认为现有系统用单个任务来训练的单个领域数据集,是缺乏模型泛化能力的主要原因,因此在更广的数据集上,GPT-2 采用了多任务 (multitask) 的方式。
最终训练出来的模型在不需要任何参数和模型改动下,在 zero-shot(零样本)任务中,在 8 个数据集中有 7 个表现为业界最优。
3.4 更大参数更大数据集:GPT-3 GPT-3 通过调大参数 (1750 亿) 来测试 in-context 学习能力,并在没有 finetune 情况下得到以下数据表现。
随着参数增多,Few-shot 相比 Zero-shot 的提升效果在拉大,说明越大的参数对样本具有更强的泛化能力。
3.5 火爆的 ChatGPT:GPT 3.5 2022 年 3 月,OpenAI 发表论文'Training language models to follow instructions with human feedback',推出了 InstructGPT 模型,也被称为 GPT-3.5。
尽管 GPT-3.5 还会犯一些简单的错误,但论文工作表明利用人类反馈进行微调是一个很有前景的方向。InstructGPT 模型的参数为 1.3B,而 GPT-3 模型的参数为 175B,但 InstructGPT 模型的输出却优于 GPT-3 模型的输出。
RLHF(基于人类反馈的强化学习) 是 ChatGPT 区别于其他生成类模型的最主要特点,该法帮助模型尽量减少有害的、不真实的及有偏见的输出,提升自然沟通效果。
同时,为了更好地支持多轮对话,ChatGPT 引入了一种基于堆栈的上下文管理的机制。
四、主要技术细节 从数学或机器学习的角度来看,语言模型都是对词语序列的概率相关性分布的建模。GPT 生成式预训练模型也是根据语料概率来自动生成回答的每一个字,ChatGPT 在此基础上通过使用基于人类反馈的强化学习(RLHF)来干预增强学习以取得更好效果。
4.1 什么是 Transformer?
1) 编解码组件结构 Transformer 本质上是一个 Encoder-Decoder 架构,包括编码组件和解码组件。每个编码器由两个子层组成:Self-Attention 层和前馈网络(FFN)。解码器也有这两层,但是它们之间还有一个编解码注意力层(Encoder-Decoder Attention)。
2) 编码器对文本的处理 首先使用词嵌入算法(Embedding)将每个词转换为一个词向量 (vector)。嵌入仅发生在最底层的编码器中,其他编码器接收的是上一个编码器的输出。对输入序列完成嵌入操作后,每个词都会流经编码器内的两层,然后逐个编码器向上传递。
此外,Transformer 还引入了位置编码(Positional Encoding) ,用于注入序列中单词的位置信息,因为 Self-Attention 机制本身不具备顺序感知能力。
3) Self-Attention 原理 Self-Attention 用来解决文本关注距离的限制问题。在 self-attention 中,每个单词有 3 个不同的向量,分别是 Query 向量(Q),Key 向量(K)和 Value 向量(V)。
它们是通过 3 个不同的权值矩阵由嵌入向量 X 乘以三个不同的权值矩阵 W^Q,W^K,W^V 得到。Query,Key,Value 的概念取自于信息检索系统。在矩阵计算中,点积是计算两个矩阵相似度的方法之一,因此使用了 QK^T 进行相似度的计算。
接着便是根据相似度进行输出的匹配,这里使用了加权匹配的方式,而权值就是 query 与 key 的相似度。
4) 多注意头机制 Multi-headed attention 增强了自注意能力,其一是扩展了关注的位置,使之同时关注多个不同位置,其二是它为注意力层提供了多个'表示子空间'。例如论文用了 8 个注意头,那就有 8 组不同的 Q/K/V 矩阵,每个输入的词向量都被投影到 8 个表示子空间中进行计算。
多注意头本质上是用更多个角度进行注意力计算再统一起来,能够增强对句子上下文的完整理解。
4.2 ChatGPT 是如何提升训练效果的? ChatGPT 的背后是大型语言模型 (LLM) 生成领域的新训练范式:RLHF,即基于来自人类反馈的强化学习来优化语言模型。
RLHF 是一项涉及多个模型和不同训练阶段的复杂概念,按三个步骤分解:
预训练一个语言模型 (LM) :使用经典的预训练目标训练一个语言模型。OpenAI 在其第一个流行的 RLHF 模型 InstructGPT 中使用了较小版本的 GPT-3。
聚合问答数据并训练一个奖励模型 (Reward Model, RM) :根据第一阶段的模型,随机抽取问题,给出多个不同的回答,人工选出最优答案进行标注。将高质量答案的奖励值进入下一轮强化学习 RL,训练一个奖励模型来预测人类偏好的输出。RM 的训练是 RLHF 区别于旧范式的开端。
用强化学习 (RL) 方式微调 LM :使用近端策略优化 (Proximal Policy Optimization, PPO) 优化奖励模型的策略。PPO 的核心目的是将在线的人工学习转为离线学习,机器自己给自己打分。利用第二阶段训练好的奖励模型,在数据集中随机抽取问题,使用 PPO 模型生成多个回答,并用上一阶段训练好的 RM 模型分别给出质量分数。把回报分数按排序依次传递,产生策略梯度,通过强化学习的方式更新 PPO 模型参数。
总体来说,ChatGPT 在人工标注的 prompts 和回答里训练出 SFT 监督策略模型,再通过随机问题由模型给出多个答案,然后人工排序,生成奖励模型,再通过 PPO 强化训练增强奖励效果。最终 ChatGPT 能够更好理解指令的意图,并且按指令完成符合训练者价值观的输出。
最后,大语言模型作为一个被验证可行的方向,其'大'体现在数据集广泛,参数和层数大,计算量大,其价值体现在通用性上,有广泛的应用场景。大语言模型能够发展,主要还是模型具备很好的并行扩展性 ,随着数据量和计算量的增加,主要挑战在工程和调优上。
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online