大型模型科普指南 | 极客日志

编程语言AI算法

大型模型科普指南

大型模型的基本概念、核心架构及训练流程。大模型指参数规模庞大的深度学习模型，涵盖语言、视觉及多模态领域。核心技术基于 Transformer 架构，通过注意力机制解决长依赖和并行计算问题。主流框架分为 Encoder-Only、Encoder-Decoder 和 Decoder-Only 三类。训练包含预训练、指令微调和对齐微调三个阶段，其中 LoRA 和 RLHF/DPO 是关键优化技术。应用场景覆盖办公、编程、教育及自动驾驶等领域，但仍面临数据安全、成本和内容可信等挑战。

奶糖兔发布于 2025/2/6更新于 2026/6/325 浏览

1. 大模型概述

大模型是指具有数千万甚至数亿参数的深度学习模型。

当我们提及大模型时，通常指的是大语言模型（Large Language Model，简称 LLM），即文字问答模型，其典型代表便是 OpenAI 的 GPT 系列。然而，随着技术的日新月异，大模型已经不单单局限于自然语言处理（Natural Language Processing）领域的发光发热，而是逐渐渗透到了其他多个领域。例如，Midjourney, Inc.推出的文生图模型 Midjourney、OpenAI 推出的文生视频模型 Sora 等等，都是大模型在不同领域的成功应用案例。

大模型的原理是基于深度学习，它利用大量的数据和计算资源来训练具有大量参数的神经网络模型。通过不断地调整模型参数，使得模型能够在各种任务中取得最佳表现。通常说的大模型的'大'的特点体现在：参数数量庞大、训练数据量大、计算资源需求高等。很多先进的模型由于拥有很'大'的特点，使得模型参数越来越多，泛化性能越来越好，在各种专门的领域输出结果也越来越准确。现在市面上比较流行的任务有 AI 生成语言（ChatGPT 类产品）、AI 生成图片（Midjourney 类产品）等，都是围绕生成这个概念来展开应用。

'生成'简单来说就是根据给定内容，预测和输出接下来对应内容的能力。比如最直观的例子就是成语接龙，可以把大语言模型想象成成语接龙功能的智能版本，也就是根据最后一个字输出接下来一段文章或者一个句子。

2. 大模型核心技术——一个基本架构，三个形式

传统的语言助手，如 Siri 和小爱同学，主要依赖于 RNN（循环神经网络）或 LSTM（长短期记忆）技术。然而，这些技术存在一个显著的弊端：随着上下文的增加，模型会逐渐'遗忘'之前的信息，导致在连续对话中，语言助手无法提供连贯、准确的回应，给出的回答更是牛头不对马嘴。GPT 则采用了 Transformer 架构，有效解决模型遗忘历史信息的问题。

2.1 Transformer

当前流行的大模型的网络架构其实并没有很多新的技术，还是一直沿用当前 NLP 领域最热门最有效的架构——Transformer 结构。相比于传统的循环神经网络（RNN）和长短时记忆网络（LSTM），Transformer 具有独特的注意力机制（Attention），这相当于给模型加强理解力，对更重要的词能给予更多关注，同时该机制具有更好的并行性和扩展性，能够处理更长的序列，立马成为 NLP 领域具有奠基性能力的模型，在各类文本相关的序列任务中取得不错的效果。

2.1.1 网络结构

由输入部分（输入输出嵌入与位置编码）、多层编码器、多层解码器以及输出部分（输出线性层与 Softmax）四大部分组成。

输入部分：

源文本嵌入层：将源文本中的词汇数字表示转换为向量表示，捕捉词汇间的关系。
位置编码器：为输入序列的每个位置生成位置向量，以便模型能够理解序列中的位置信息。
目标文本嵌入层（在解码器中使用）：将目标文本中的词汇数字表示转换为向量表示。

编码器部分：

由 N 个编码器层堆叠而成。
每个编码器层由两个子层连接结构组成：第一个子层是一个多头自注意力子层，第二个子层是一个前馈全连接子层。每个子层后都接有一个规范化层和一个残差连接。

解码器部分：

由 N 个解码器层堆叠而成。
每个解码器层由三个子层连接结构组成：第一个子层是一个带掩码的多头自注意力子层，第二个子层是一个多头注意力子层（编码器到解码器），第三个子层是一个前馈全连接子层。每个子层后都接有一个规范化层和一个残差连接。

输出部分：

线性层：将解码器输出的向量转换为最终的输出维度。
Softmax 层：将线性层的输出转换为概率分布，以便进行最终的预测。

2.1.2 工作原理

Transformer 工作原理如下：

输入线性变换：对于输入的 Query（查询）、Key（键）和 Value（值）向量，首先通过线性变换将它们映射到不同的子空间。这些线性变换的参数是模型需要学习的。
分割多头：经过线性变换后，Query、Key、Value 向量被分割成多个头。每个头都会独立地进行注意力计算。
缩放点积注意力：在每个头内部，使用缩放点积注意力来计算 Query 和 Key 之间的注意力分数。这个分数决定了在生成输出时，模型应该关注 Value 向量的部分。
注意力权重应用：将计算出的注意力权重应用于 Value 向量，得到加权的中间输出。这个过程可以理解为根据注意力权重对输入信息进行筛选和聚焦。
拼接和线性变换：将所有头的加权输出拼接在一起，然后通过一个线性变换得到最终的 Multi-Head Attention 输出。

2.1.3 解决的问题

长期依赖问题：在处理长序列输入时，传统的循环神经网络（RNN）会面临长期依赖问题，即难以捕捉序列中的远距离依赖关系。Transformer 模型通过自注意力机制，能够在不同位置对序列中的每个元素赋予不同的重要性，从而有效地捕捉长距离依赖关系。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

预训练（Pretraining） 预训练是大模型训练的第一步，目的是让模型学习语言的统计模式和语义信息。主流的预训练阶段步骤基本都是近似的，其中最重要的就是数据，需要收集大量的无标注数据，例如互联网上的文本、新闻、博客、论坛等等。这些数据可以是多种语言的，并且需要经过一定的清洗和处理，以去除噪音，无关信息以及个人隐私相关的，最后会以 tokenizer 粒度输入到上文提到的语言模型中。这些数据经过清洗和处理后，用于训练和优化语言模型。预训练过程中，模型会学习词汇、句法和语义的规律，以及上下文之间的关系。OpenAI 的 ChatGPT4 能有如此惊人的效果，主要的一个原因就是他们训练数据源比较优质。
指令微调阶段（Instruction Tuning Stage） 在完成预训练后，就可以通过指令微调去挖掘和增强语言模型本身具备的能力，这步也是很多企业以及科研研究人员利用大模型的重要步骤。 Instruction tuning（指令微调）是大模型训练的一个阶段，它是一种有监督微调的特殊形式，旨在让模型理解和遵循人类指令。在指令微调阶段，首先需要准备一系列的 NLP 任务，并将每个任务转化为指令形式，其中指令包括人类对模型应该执行的任务描述和期望的输出结果。然后，使用这些指令对已经预训练好的大语言模型进行监督学习，使得模型通过学习和适应指令来提高其在特定任务上的表现。

为了让模型训练更加高效和简单，这个阶段还有一种高效的 fine-tuning 技术，这为普通的从业者打开了通向使用大模型的捷径。 Parameter-Efficient Fine-Tuning (PEFT) 旨在通过最小化微调参数的数量和计算复杂度，达到高效的迁移学习的目的，提高预训练模型在新任务上的性能，从而缓解大型预训练模型的训练成本。在训练过程中，预训练模型的参数保持不变，只需微调少量的额外参数，就可以达到与全量微调相当的性能。

目前，很多研究对 PEFT 方法进行了探索，例如 Adapter Tuning 和 Prefix Tuning 等。其中，Adapter Tuning 方法在面对特定的下游任务时，将预训练模型中的某些层固定，只微调接近下游任务的几层参数。而 Prefix Tuning 方法则是在预训练模型的基础上，添加一些额外的参数，这些参数在训练过程中会根据特定的任务进行更新和调整。

工业界现在常用的 Adapter Tuning 的技术是 Low-Rank Adaptation（LoRA）。它通过最小化微调参数的数量和计算复杂度，实现高效的迁移学习，以提高预训练模型在新任务上的性能。LoRA 的核心思想是将预训练模型的权重矩阵分解为两个低秩矩阵的乘积。通过这种分解，可以显著减少微调参数的数量，并降低计算复杂度。该方式和机器学习中经典的降维的思想很类似，类似地，LoRA 使用了矩阵分解技术中的奇异值分解 (Singular Value Decomposition, SVD) 或低秩近似 (Low-Rank Approximation) 方法，将原始权重矩阵分解为两个低秩矩阵的乘积。

在微调过程中，LoRA 只更新这两个低秩矩阵的参数，而保持其他预训练参数固定不变。这样可以显著减少微调所需的计算资源和时间，并且在很多任务上取得了与全量微调相当的性能。 LoRA 技术的引入使得在大规模预训练模型上进行微调更加高效和可行，为实际应用提供了更多可能性。
对齐微调（Alignment Tuning） 主要目标在于将语言模型与人类的偏好、价值观进行对齐，其中最重要的技术就是使用 RLHF（reinforcement learning from human feedback）来进行对齐微调。
- Step 1. 预训练模型的有监督微调：先收集一个提示词集合，并要求标注人员写出高质量的回复，然后使用该数据集以监督的方式微调预训练的基础模型。
- Step 2. 训练奖励模型：这个过程涉及到与人类评估者进行对话，并根据他们的反馈来进行调整和优化。评估者会根据个人偏好对模型生成的回复进行排序，从而指导模型生成更符合人类期望的回复。这种基于人类反馈的训练方式可以帮助模型捕捉到更多人类语言的特点和习惯，从而提升模型的生成能力。
- Step 3. 利用强化学习模型微调：主要使用了强化学习的邻近策略优化（PPO，proximal policy optimization）算法，对于每个时间步，PPO 算法会计算当前产生和初始化的 KL 散度，根据这个分布来计算一个状态或动作的预期回报，然后使用这个回报来更新策略，达到对 SFT 模型进一步优化。
但是这种算法存在一些比较明显的缺点，比如 PPO 是 on-policy 算法，每一次更新都需要收集新的样本，这就会导致算法的效率低下，并且更新是在每次训练时进行的，因此策略更新比较频繁，这就会导致算法的稳定性较差。

所以当前有很多新的技术出来替代 RLHF 技术：
- 直接偏好优化（DPO）是一种对传统 RLHF 替代的技术，作者在论文中提出拟合一个反映人类偏好的奖励模型，将奖励函数和最优策略之间的映射联系起来，从而把约束奖励最大化问题转化为一个单阶段的策略训练问题。然后通过强化学习来微调大型无监督语言模型，以最大化这个预估的奖励。这个算法具有简单有效和计算轻量级的特点，不需要拟合奖励模型，只需要进行单阶段训练，也不需要大量的超参数调节，所以在响应质量方面也通常优于传统的 RLHF。另外还有 RLAIF 从采样方式，生成训练奖励模型的评分的角度来替代原有的 PPO 的 RLHF 进行训练。
对齐微调是一个关键的阶段，这一阶段使用强化学习从人类反馈中进行微调，以进一步优化模型的生成能力。它通过与人类评估者和用户的互动，不断优化模型的生成能力，以更好地满足人类期望和需求。

办公 Copilot 类产品：微软首先尝试使用大模型能力来接入旗下的 Office 系列软件，在 Word 中可以对文档进行总结并提出修改编辑的建议，也可以对所给的文章进行总结；此前一直头疼 Excel 各种复杂操作的用户现在也降低了使用门槛，可以直接通过描述就处理数据；PowerPoint 中通过对提出要求识别就能自动生成一份展示内容；在 Outlook 中直接使用自然语言来生成邮件内容等功能，实现真正的 AI 秘书。
Github Copilot 类产品：直接通过对话方式进行各种功能代码的生成，包括帮忙写测试用例，解释代码片段和 debug 程序问题，这个功能对解放程序员生产力取得了革命性的进步，能让开发人员更多的关注到业务理解，系统设计，架构设计等更高级需求的事情上。
教育知识类产品：得益于大模型强大的理解以及知识储备，很多公司也嵌入其知识类产品进行应用，比如 chatPDF 就可以帮助经常看论文的科研人员快速地通过问答的方式进行文章的信息提取，理解以及总结重要内容，大大提升了阅读新论文的效率；对于学习语言的人来说，一款叫 Call Annie 的软件基本能取代口语老师的角色，并且可以无限时间，随时随地进行口语对话练习。
搜索引擎和推荐系统：大模型可以应用于企业的搜索引擎和推荐系统，通过深度学习算法，对用户的搜索意图进行准确理解，提供更精准的搜索结果和个性化的推荐内容。这有助于提升用户体验，增加用户黏性，提高企业的转化率和销售额。
公司业务定制化大模型：大模型具有通用性能力，但是在很多零样本的场景的表现依然比不上那个领域正在使用的产品，例如在某些垂直领域，包括工业领域，医药领域，管理领域等场景下进行专业问题，研究型问题的使用依然需要特定场景的数据进行微调，这种定制化的服务也能给企业带来巨大的效率提升和节省成本的收益，属于比较有前景的业务。
计算相关上下游相关产业：很多公司正在积极探索基于 GPU、FPGA 和 ASIC 等硬件加速制造技术，以支持大模型的训练和推理速度。此外，云计算技术的发展也为大模型的训练提供了更多的计算资源支持，未来科技公司将积极探索基于云计算的分布式训练和推理技术。

大型模型科普指南

1. 大模型概述

2. 大模型核心技术——一个基本架构，三个形式

2.1 Transformer

2.1.1 网络结构

2.1.2 工作原理

2.1.3 解决的问题

更多推荐文章

相关免费在线工具

2.2 主流框架

2.2.1 Encoder-Only

2.2.2 Encoder-Decoder

2.2.3 Decoder-Only

2.3 训练步骤

2.4 Prompt

3. 大模型相关优化研究

Octopus v2

GPT-fast

TensorRT-LLM

4. 大模型应用

4.1 应用领域

语言大模型

视觉大模型

多模态大模型

自动驾驶

4.2 主流产品

5. 大模型的挑战

更多推荐文章

相关免费在线工具

大型模型科普指南

1. 大模型概述

2. 大模型核心技术——一个基本架构，三个形式

2.1 Transformer

2.1.1 网络结构

2.1.2 工作原理

2.1.3 解决的问题

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 主流框架

2.2.1 Encoder-Only

2.2.2 Encoder-Decoder

2.2.3 Decoder-Only

2.3 训练步骤

2.4 Prompt

3. 大模型相关优化研究

Octopus v2

GPT-fast

TensorRT-LLM

4. 大模型应用

4.1 应用领域

语言大模型

视觉大模型

多模态大模型

自动驾驶

4.2 主流产品

5. 大模型的挑战

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具