大模型核心面试问题与解析：100 道高频考点梳理

涵盖大模型架构、训练微调、推理优化及 RAG 等核心知识点。整理 100 道高频面试题，包含 ReAct、LangChain、LoRA、量化技术、注意力机制变体及位置编码等内容，提供简明技术解析，帮助求职者系统掌握大模型领域关键概念与工程实践。

日志猎手发布于 2025/2/6更新于 2026/4/201 浏览

大模型核心面试问题与解析

一、基础架构与原理

Q: 请简述下 Transformer 基本原理 Transformer 是一种基于自注意力机制（Self-Attention）的序列转导模型。它摒弃了传统的循环和卷积结构，通过多头注意力机制并行处理序列数据，利用位置编码注入顺序信息，包含 Encoder 和 Decoder 堆叠层，每层由多头注意力和前馈神经网络组成。

Q: 为什么 Transformer 的架构需要多头注意力机制？ 多头注意力允许模型在不同的表示子空间中同时关注不同位置的信息。这增强了模型捕捉复杂依赖关系的能力，例如同时关注语法结构和语义含义，提高了模型的表达能力和泛化性能。

Q: 为什么 transformers 需要位置编码？ 由于 Transformer 使用并行计算且没有循环结构，模型本身无法感知 token 的顺序。位置编码将位置信息注入到输入嵌入中，使模型能够区分不同位置的词序，从而理解句子的结构。

Q: transformer 中，同一个词可以有不同的注意力权重吗？ 是的。在 Self-Attention 机制中，每个 token 会根据其与序列中其他所有 token 的相关性动态计算权重。同一个词在不同位置或作为 Query 时，其注意力分布会随上下文变化。

Q: Wordpiece 与 BPE 之间的区别是什么？ Wordpiece 是 Google 提出的分词方法，倾向于将未登录词拆分为有意义的子词单元；BPE（Byte Pair Encoding）是一种迭代合并频率最高的字节对的分词算法。两者都用于处理 OOV 问题，但合并策略和切分粒度略有不同。

Q: 什么是绝对位置编码？什么是相对位置编码？ 绝对位置编码为序列中的每个位置添加固定的向量偏移；相对位置编码则关注 token 之间的距离关系而非绝对位置。RoPE（旋转位置编码）是相对位置编码的一种改进，能更好地支持外推。

Q: 什么是长度外推问题？解决方法有哪些？ 长度外推指模型在训练长度之外进行推理时性能下降的问题。解决方法包括 ALiBi（线性偏置）、RoPE（旋转位置编码）以及插值技术（如 NTK-aware scaling）。

Q: GPT 和 BERT 的区别是什么？ GPT 是单向因果语言模型（Decoder-only），适合生成任务；BERT 是双向掩码语言模型（Encoder-only），适合理解任务。GPT 只能看到当前及之前的 token，BERT 可以看到上下文两侧的信息。

Q: 为什么现在的大模型大多是 decoder-only 的架构？ Decoder-only 架构更易于扩展参数规模，推理效率更高，且在预训练阶段只需预测下一个 token，数据利用率高，更适合大规模无监督预训练和后续指令微调。

Q: 讲一下生成式语言模型的工作机理？ 生成式语言模型基于概率分布，根据输入的上下文序列预测下一个 token 的概率分布，采样后追加到输入中，循环迭代直至生成结束符，从而生成连贯的文本序列。

Q: LLMs 各模型分别用了哪种 Layer normalization？ 不同模型选择不同。例如 BERT 使用 Post-LayerNorm，而 GPT-2 及后续许多模型倾向于 Pre-LayerNorm 以改善训练稳定性。LLaMA 系列使用了 RMSNorm 替代标准 LayerNorm。

Q: Layer Norm 的计算公式写一下？RMS Norm 呢？ LayerNorm 公式：$y = \frac{x - \mu}{\sigma} \cdot \gamma + \beta$。RMSNorm 去除了均值减法和偏置项，公式为：$y = x \cdot \frac{\gamma}{\sqrt{E[x^2]}}$，计算更高效。

Q: Deep Norm 思路？有什么优点？ DeepNorm 是一种残差连接初始化方案，通过调整残差连接的缩放比例来稳定深层网络的训练。优点是允许训练极深的网络而不出现梯度消失或爆炸。

Q: 介绍一下 FFN 块计算公式？GeLU？Swish？ FFN 通常包含两个线性变换和一个激活函数。GeLU 是 $x \cdot \Phi(x)$，近似高斯累积分布；Swish 是 $x \cdot \text{sigmoid}(\beta x)$。GLU 变体引入门控机制，如 $FFN(x) = (W_1 x) \otimes \text{SiLU}(W_2 x)$。

二、训练与微调技术

Q: LLM 预训练阶段有哪几个关键步骤？ 主要包括数据清洗与构建、Tokenization、模型架构设计、分布式训练优化（如 ZeRO）、损失函数计算（Next Token Prediction）以及超参数调优。

Q: RLHF 模型为什么会表现比 SFT 更好？ SFT（监督微调）仅模仿人类标注数据，而 RLHF（人类反馈强化学习）引入了奖励模型，通过 PPO 等算法优化策略，使模型输出更符合人类偏好，减少有害内容并提升有用性。

大模型核心面试问题与解析：100 道高频考点梳理

大模型核心面试问题与解析

一、基础架构与原理

二、训练与微调技术

更多推荐文章

相关免费在线工具

三、推理与优化

四、应用与框架

大模型核心面试问题与解析：100 道高频考点梳理

大模型核心面试问题与解析

一、基础架构与原理

二、训练与微调技术

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、推理与优化

四、应用与框架