AI 大模型是什么
AI 大模型(Large Language Model, LLM)是指具有巨大参数量的深度学习模型,通常包含数十亿甚至数万亿个参数。这些模型通过预训练学习海量的数据分布,从而在自然语言处理、计算机视觉、自主驾驶等领域取得重要突破。
定义与分类
根据 OpenAI 及行业通用的参数规模分类方法,AI 模型大致可分为以下几类:
- 小型模型:≤ 100 万参数
- 中型模型:100 万 – 1 亿参数
- 大型模型:1 亿 – 10 亿参数
- 极大型模型:≥ 10 亿参数
其中大型模型和极大型模型通常被视为 AI 大模型。这类模型基于超级大规模的架构,需要大量的计算资源、更强的算力支持以及更优秀的算法优化方法进行训练和优化。
AI 大模型发展历程
AI 大模型的演进是近年来科技界最显著的趋势之一,关键节点如下:
- 2017 年:Google 提出 Transformer 架构,奠定了现代大模型的基础。
- 2018 年:BERT 发布,开启了双向编码器的时代,大幅提升了 NLP 任务性能。
- 2020 年:OpenAI 发布 GPT-3,参数量达 1750 亿,展示了少样本学习能力。
- 2022 年 11 月 30 日:OpenAI 推出 ChatGPT-3.5,引发全球关注。
- 2023 年 2 月:Google 推出 Bard(基于 LaMDA),百度确认'文心一言'项目,复旦大学推出 MOSS。
- 2023 年 3 月:清华智谱 AI 开源 ChatGLM-6B;Anthropic 推出 Claude;华为宣布盘古大模型;阿里云通义千问开始内测。
- 2023 年 4 月:科大讯飞发布星火认知大模型。
- 2023 年至今:多模态模型(如 GPT-4V)、推理模型及垂直领域模型迅速涌现。
AI 大模型的底层原理
AI 大模型的核心原理基于神经网络和大规模数据的监督/无监督训练。其技术栈主要涉及以下关键环节:
1. 数据预处理
原始数据需经过清洗、整理和标注。包括去除噪声、填充缺失值、归一化以及分词(Tokenization)。高质量的数据集是模型效果的上限。
2. 模型架构
目前主流大模型多采用 Transformer 架构,其核心组件包括:
- 自注意力机制(Self-Attention):允许模型在处理序列时关注不同位置的信息,捕捉长距离依赖。
- 前馈神经网络(FFN):对特征进行非线性变换。
- 层归一化(LayerNorm):加速收敛并稳定训练。
3. 训练流程
训练过程通常分为三个阶段:
3.1 预训练(Pre-training)
利用海量无标注文本数据进行自监督学习,目标是预测下一个 Token。此阶段让模型学习通用知识和语言规律。
3.2 有监督微调(SFT)
使用高质量的指令 - 回答对数据对模型进行微调,使其学会遵循人类指令,提升对话能力。
3.3 人类反馈强化学习(RLHF)
引入人类偏好数据,通过奖励模型优化策略,使模型输出更符合人类价值观和安全标准。
4. 关键技术细节
- 激活函数:常用 SwiGLU 或 ReLU 变体,增加模型表达能力。
- 损失函数:通常为交叉熵损失(Cross-Entropy Loss),衡量预测概率分布与真实分布的差异。
- :AdamW 是最常用的优化器,配合学习率预热和衰减策略。


