大模型架构要点总结：LLM 基础与核心组件解析

LLM 学习 1：大模型架构要点总结

简介

大型语言模型（Large Language Model, LLM）是人工智能领域的重要突破，其核心基于 Transformer 架构。本文旨在系统梳理 LLM 的基础概念、分类、训练流程及核心组件细节，帮助读者建立完整的知识体系。

1. 什么是 LLM

LLM 本质上是基于 Transformer 架构的深度学习模型。通常认为参数量超过 10B（十亿）的模型为大语言模型。由于参数量巨大，需要的训练数据量也极多，因此目前大部分的使用方式为：大公司整理大量常用数据集，训练一个各方面性能还不错的通用大模型，小公司在此通用模型上搜集小规模行业数据进行微调，最终得到行业专有模型/领域模型。当然，如果通用模型能直接拥有各行业知识是最好的，但以目前的数据量和算力等还未达到效果。

LLM 架构图

LLM 训练流程

2. LLM 的分类

一般分为三种：自回归模型、自编码模型和序列到序列模型。

2.1 自回归模型 (Autoregressive Model)

自回归模型采用经典的语言模型任务进行预训练，即给出上文，预测下文，对应原始 Transformer 模型的解码器部分，其中最经典的模型是 GPT。由于自编码器只能看到上文而无法看到下文的特点，模型一般会用于文本生成的任务。

2.2 自编码模型 (AutoEncoder Model)

自编码模型则采用句子重建的任务进行预训练，即预先通过某种方式破坏句子，可能是掩码，可能是打乱顺序，希望模型将被破坏的部分还原，对应原始 Transformer 模型的编码器部分，其中最经典的模型是 BERT。与自回归模型不同，模型既可以看到上文信息，也可以看到下文信息，由于这样的特点，自编码模型往往用于自然语言理解的任务，如文本分类、阅读理解等。（此外，这里需要注意，自编码模型和自回归模型的唯一区分其实是在于预训练时的任务，而不是模型结构。）