AI 产品经理面试核心问题与解答指南
一、大模型基础理论
1. Attention(注意力机制)
什么是 Attention?为什么要用 Attention?它有什么作用? Attention 机制是一种允许模型在处理序列数据时,动态地关注输入中不同部分重要性的方法。在传统的 RNN 或 CNN 中,信息往往被压缩成一个固定长度的向量,导致长距离依赖丢失。Attention 通过计算查询(Query)、键(Key)和值(Value)之间的相关性权重,让模型能够直接访问序列中的任意位置,从而捕捉长距离依赖关系。
Attention 的流程是什么样的? 典型的 Scaled Dot-Product Attention 流程如下:
- 输入序列经过线性变换生成 Query (Q)、Key (K)、Value (V) 矩阵。
- 计算 Q 和 K 的点积,得到注意力分数。
- 对分数进行缩放(除以根号下 d_k),防止梯度消失。
- 使用 Softmax 函数将分数归一化为概率分布。
- 将概率分布与 V 相乘,得到加权求和后的输出。
普通的 Attention 和 Transformer 的 Self-attention 之间有什么关系? Self-attention 是 Attention 的一种变体,主要用于 Transformer 架构。普通 Attention 通常指 Encoder-Decoder 中的 Cross-attention,即 Query 来自解码器,Key/Value 来自编码器。而 Self-attention 是指 Query、Key、Value 都来自同一个输入序列,用于捕捉序列内部元素之间的关系。
什么是 Self-attention? Self-attention 允许序列中的每个位置都与序列中的所有其他位置建立连接,无论它们之间的距离有多远。这使得模型能够同时考虑上下文信息,极大地提升了处理长文本的能力。
2. Transformer 架构
Transformer 是什么,它的基本原理是什么? Transformer 是一种基于自注意力机制的深度学习架构,完全摒弃了循环和卷积结构。其基本原理是通过多头自注意力机制并行处理序列数据,结合前馈神经网络和残差连接,实现了高效的训练和强大的表征能力。
自注意力 (Self-Attention) 的作用是什么?它有什么优势? 作用是捕捉序列内部的依赖关系。优势在于并行计算能力强(相比 RNN),能解决长距离依赖问题,且模型深度可灵活调整。
Transformer 的 Encoder 和 Decoder 分别是做什么的? Encoder 负责将输入序列编码为连续的特征表示;Decoder 负责根据 Encoder 的输出和之前的预测结果,逐步生成目标序列。
Multi-Head Attention 是什么?它的作用是什么? Multi-Head Attention 是将 Self-attention 分成多个头并行执行,每个头学习不同的子空间特征,最后拼接起来。作用是增强模型的表达能力,使其能同时关注不同位置的不同信息。
Transformer 中的 Positional Encoding 是做什么的? 由于 Transformer 没有循环结构,无法感知顺序,Positional Encoding 通过正弦余弦函数将位置信息注入到输入向量中,使模型能够区分词序。
Transformer 的训练过程? 包括预训练阶段(无监督学习,如掩码语言建模或下一词预测)和微调阶段(有监督学习,针对特定任务)。训练过程中使用 Adam 优化器,配合学习率预热和衰减策略。
Transformer 与传统的 RNN 和 CNN 模型有何区别? RNN 串行处理慢,难捕捉长依赖;CNN 感受野有限;Transformer 并行度高,全局感受野,适合大规模数据处理。
如何解释 Transformer 的注意力权重? 注意力权重反映了当前词与其他词的相关性强度。高权重意味着这两个词在语义或语法上联系紧密。
Transformer 在自然语言处理、计算机视觉等领域的应用? NLP 领域用于翻译、摘要、问答;CV 领域用于图像分类、目标检测(如 ViT)。
3. BERT 模型
BERT 是什么?全称是什么? Bidirectional Encoder Representations from Transformers,基于 Transformer 编码器的双向预训练模型。
BERT 是如何进行预训练的? 主要任务包括 Masked Language Model (MLM) 和 Next Sentence Prediction (NSP)。MLM 随机掩盖部分词让模型预测,NSP 判断两句话是否连续。


