AI 大模型入门教程:基础概念与核心原理详解
前言
人工智能(Artificial Intelligence, AI)正在经历一场前所未有的变革,其中以大语言模型(Large Language Model, LLM)为代表的技术尤为引人注目。从 ChatGPT 的横空出世到各类垂直领域模型的涌现,AI 大模型已经深刻影响了软件开发、内容创作、数据分析等多个行业。本系列教程旨在为初学者提供系统性的入门指导,从基础概念入手,逐步深入到大模型的应用与开发。
本文作为系列的第一讲,将重点解析大模型的核心定义、生成机制、训练范式以及参数规模带来的质变。我们将摒弃晦涩难懂的数学公式,用通俗易懂的语言和类比,帮助你建立对大模型的正确认知。
一、什么是大模型?
要理解大模型,我们首先从最著名的代表——ChatGPT 入手。ChatGPT 的全称是 Generative Pre-trained Transformer,这个名字本身就揭示了它的三个核心特征:
- Generative(生成式):区别于传统的判别式模型,生成式模型能够创造新的内容,如文本、代码、图像等。
- Pre-trained(预训练):模型在大规模无标注数据上进行过初步学习,具备了通用的语言理解能力。
- Transformer(架构):这是支撑大模型高效推理的基础神经网络架构。
1.1 生成式 vs 判别式
为了理解'生成式',我们需要对比传统的搜索或分类任务。
- 传统搜索:当你输入关键词时,搜索引擎返回的是已有的文章链接列表。它是在检索已知信息。
- 生成式模型:当你提问时,模型会像人类一样,一个字一个字地'想'出答案。它不是检索数据库,而是根据概率预测下一个最合适的词。
例如,让模型描述'打工人周一上班的状态'。模型可能会输出:'周一上班真的很——爽(0.2)/ 丧(0.8)'。这里的数字代表概率,模型会根据上下文计算每个候选词出现的概率,然后选择概率最高的词进行输出。这种基于概率的迭代生成过程,就是'生成'的本质。
1.2 生成流程解析
当用户给大模型一段输入后,模型内部主要执行以下四个步骤:
- 文本编码(Tokenization & Embedding):输入的文本首先会被分词(Tokenize),转换为计算机可理解的向量表示(Embedding)。这一步将语义信息映射到高维空间。
- 预测下一个词:基于当前输入和所有历史上下文,模型计算词汇表中每一个可能单词的概率分布。
- 采样与选择:根据策略(如贪婪搜索、Top-K 采样等),从概率分布中选择一个词作为输出。
- 循环迭代:新生成的词被加入序列,重复上述过程,直到遇到停止标记(如句号)或达到最大长度限制。
二、预训练与微调
大模型之所以强大,关键在于其独特的两阶段训练模式:预训练(Pre-training)和微调(Fine-tuning)。
2.1 什么是训练?
在机器学习中,'训练'是指从数据中学习规律的过程。我们可以用一个经典的例子来理解:判断西瓜是否成熟。
- 特征(Features):色泽、根蒂、敲声。
- 标签(Label):熟或不熟。
- 样本(Samples):购买并切开的 10 个西瓜记录。
通过这 10 个样本,模型学习到'色泽青绿、根蒂蜷缩、敲声浑浊'与'熟'之间的关联。这就是监督学习中的分类任务。如果任务是预测含糖量(连续值),则属于回归任务。
2.2 预训练(Pre-training)
大模型的预训练阶段通常是无监督学习。这意味着不需要人工标注'熟或不熟'这样的标签。模型直接阅读互联网上海量的文本数据(书籍、网页、代码等),目标是预测文本中缺失的词(Masked Language Modeling)或预测下一个词(Next Token Prediction)。
在这个过程中,模型学会了语法、常识、逻辑推理甚至编程知识。它构建了一个庞大的通用知识库,参数量通常以十亿(Billion)为单位。例如 GPT-3 拥有 1750 亿参数,GPT-4 更是达到了万亿级别。


