AI 大模型基础与前端开发面试准备指南
一、初探大模型:起源与发展
1. 注意力机制详解
1.1 注意力机制的起源与应用
注意力机制(Attention Mechanism)最早起源于自然语言处理领域,特别是在机器翻译任务中。其核心目的是帮助模型在源语言和目标语言之间建立正确的对应关系,解决传统序列到序列模型在处理长句子时信息丢失的问题。随后,该机制被广泛应用于计算机视觉、语音识别和推荐系统中。
1.2 序列数据处理方法
处理序列数据的常见方法包括:
- 递归神经网络(RNN):通过隐藏状态捕捉时间相关性,但存在梯度消失问题。
- 卷积神经网络(CNN):主要用于图像处理,也可用于一维文本序列特征提取。
- 注意力机制(Attention):动态分配权重,关注序列中的关键部分。
- 支持向量机(SVM):经典机器学习算法,适用于特征向量分类,较少直接处理原始序列。
1.3 注意力机制原理
注意力机制模拟人类的信息处理过程,让模型集中关注输入中的重要部分。其核心包含三个组件:
- 查询(Query):表示当前要生成的位置或关注的目标。
- 键(Key):表示输入序列中不同位置的信息标识。
- 值(Value):实际携带的信息内容。
计算过程通常涉及 Query 与 Key 的相关性计算,生成注意力权重向量,再对 Value 进行加权求和。自注意力机制(Self-Attention)允许序列内部不同位置相互计算注意力,从而捕捉全局依赖关系。
二、变革里程碑:Transformer 架构
2.1 Transformer 与注意力机制的关系
Transformer 模型完全基于注意力机制构建,摒弃了传统的循环结构。其核心优势在于并行计算能力和对长距离依赖的捕捉能力。
核心组件:
- 多头注意力(Multi-Head Attention):允许模型在不同表示子空间中学习多种注意力模式。
- 前馈神经网络(Feed Forward Network):对每个位置的特征进行非线性变换。
- 残差连接与层归一化:稳定训练过程,加速收敛。
2.2 训练差异与资源利用
- 数据输入:Transformer 通常接受固定长度序列,需填充或截断;注意力机制本身可处理变长序列。
- 并行计算:Transformer 支持高度并行,显著缩短训练时间,但显存占用较高。
- 存储需求:需存储大量的 Q、K、V 矩阵参数,长序列下内存开销呈平方级增长。
三、走向不同:GPT 与 BERT 的选择
3.1 架构定位
- BERT(Bidirectional Encoder Representations from Transformers):基于编码器结构,双向上下文理解,擅长语言理解任务。
- GPT(Generative Pre-trained Transformer):基于解码器结构,单向自回归生成,擅长语言生成任务。
3.2 预训练任务对比
| 特性 | BERT | GPT |
|---|


