LLM 大模型基础篇（一）：大模型核心概念与原理介绍

综述由AI生成大模型指拥有庞大参数数量的深度学习模型，通过海量数据训练获得强大的学习与生成能力。文章介绍了 ChatGPT 与底层模型的区别，阐述了大模型的参数规模与数据需求，解析了从文本编码、向量化到预测下一个词的生成机制。重点讲解了预训练、有监督与无监督学习的概念，以及 Transformer 架构中的自注意力机制。此外，还探讨了监督微调（SFT）与基于人类反馈的强化学习（RLHF）在模型优化中的作用，分析了模型在数学计算上的局限性及面临的幻觉、算力等挑战，为理解人工智能大模型提供了系统的技术视角。

zhang发布于 2025/2/6更新于 2026/6/325 浏览

LLM 大模型基础篇（一）：大模型核心概念与原理介绍

本文将系统介绍大语言模型（Large Language Model, LLM）的基础概念、工作原理及训练流程，帮助读者建立对人工智能大模型的初步认知。

ChatGPT 是什么？

从 OpenAI 的官方资料来看，2022 年发布时，OpenAI 将 ChatGPT 定义为一种模型。然而随着发展，目前我们所熟知的 ChatGPT 已逐渐演变成一种兼容多种 GPT 模型的聊天应用服务。

我们可以这样理解：ChatGPT 是对话产品，而 GPT-3.5、GPT-4 是底层的模型。同理，国内的智谱清言也是对话产品，其背后的模型是 ChatGLM。

大模型的定义与特征

所谓的大模型，简而言之，就是那些拥有庞大参数数量的模型。它们通过处理和理解海量数据，能够胜任一系列复杂的任务。

为何称为'大'？

原因在于它们的规模之大，通常包含从数十亿到数千亿的参数。这些庞大的参数集合赋予了模型强大的学习和记忆能力。

参数量级：大模型之所以强大，一个重要原因在于其庞大的参数数量。参数（权重）是模型在学习过程中不断调整的核心。例如 GPT-3 的参数规模约为 175B（1B = 10^9），即 1750 亿个参数，属于千亿级；GPT-4 参数规模更为庞大，据推测达到万亿级别。
数据规模：大模型的训练离不开大量的数据。无论是文本、图像还是音频数据，都是大模型学习的基础。通过对这些数据的深入学习，模型能够掌握丰富的知识和技能。

大模型的分类

大型模型主要分为两类：

大型语言模型（LLM）：专注于处理和生成文本信息。
大型多模态模型：这类模型能够处理包括文本、图片、音频等多种类型的信息。

大模型的工作原理

当你给大模型一段输入，大模型内部主要执行以下步骤：

文本编码：模型首先将输入的文本串分词（Tokenization），然后将文字转换为向量（Embedding）。向量可以简单理解为一串数字，例如 "apple" → [0.4, 0.1, 0.7]。
预测下一个词：基于当前用户的输入以及所有前面的上下文，模型会计算接下来每一个可能的单词或标记的概率。这个概率表明了在当前上下文中每一个单词接下来出现的可能性。
选择单词：从概率最高的单词中选择一个作为输出（或通过采样策略选择）。
重复过程：接着，模型会将新生成的单词加入到已有的文本序列中，并基于这个更新后的序列重复上述预测和生成过程，直到达到某个停止条件。

一个通俗的描述：大模型本质上是根据上文，预测下一个词的概率分布。

GPT 与预训练机制

GPT 这个名字全称是 Generative Pre-trained Transformer（生成式预训练转换器）。

Generative（生成式）：表示该 AI 模型是用来生成内容的。
Pre-trained（预训练）：这是大模型的核心概念。

什么是预训练？

预训练是一种无监督学习方法，其目的是在特定任务之前，使用大规模的无标签数据训练模型，使模型能够捕捉到语言的基本规律和特征。这一过程帮助模型建立一个丰富的知识表示，从而提高其在后续任务中的泛化能力。

为了理解预训练，我们需要先了解传统机器学习中的'训练'。

传统训练示例

假设我们要训练一个模型，用来根据西瓜的外型判断西瓜是否熟。我们关注三个特征：色泽、根蒂、敲声。结果只有两种：熟或不熟。我们从数据中学得模型的过程称为'训练'。形式化表达为 Y = f(x1) + f(x2) + f(x3)。这就是传统机器学习中处理分类任务的判别式模型。

有监督与无监督

有监督学习：数据集中有明确的标签（如每个瓜都切开看是否熟），算法学习特征与结果的映射关系。
无监督学习：数据集中没有标签，算法需要从数据本身中发现结构或模式（如聚类）。

LLM 大模型基础篇（一）：大模型核心概念与原理介绍

LLM 大模型基础篇（一）：大模型核心概念与原理介绍

ChatGPT 是什么？

大模型的定义与特征

为何称为'大'？

大模型的分类

大模型的工作原理

GPT 与预训练机制

什么是预训练？

传统训练示例

有监督与无监督

更多推荐文章

相关免费在线工具

微调（Fine-tuning）

为什么大模型会算错小学数学题？

Transformer 架构简述

训练流程进阶：SFT 与 RLHF

挑战与未来展望

更多推荐文章

相关免费在线工具

LLM 大模型基础篇（一）：大模型核心概念与原理介绍

LLM 大模型基础篇（一）：大模型核心概念与原理介绍

ChatGPT 是什么？

大模型的定义与特征

为何称为'大'？

大模型的分类

大模型的工作原理

GPT 与预训练机制

什么是预训练？

传统训练示例

有监督与无监督

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微调（Fine-tuning）

为什么大模型会算错小学数学题？

Transformer 架构简述

训练流程进阶：SFT 与 RLHF

挑战与未来展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具