大模型面试核心题库与解析
大模型领域面试中的 100 道核心八股文题目,涵盖架构原理、训练微调、推理优化、RAG 应用及评估指标等关键知识点。内容涉及 ReAct、LangChain、LoRA、量化技术、注意力机制变体及位置编码等前沿技术细节,旨在帮助求职者系统掌握大模型技术栈,提升面试通过率。

大模型领域面试中的 100 道核心八股文题目,涵盖架构原理、训练微调、推理优化、RAG 应用及评估指标等关键知识点。内容涉及 ReAct、LangChain、LoRA、量化技术、注意力机制变体及位置编码等前沿技术细节,旨在帮助求职者系统掌握大模型技术栈,提升面试通过率。

ReAct (Reasoning + Acting) 是一种将推理(Reasoning)与行动(Acting)结合的策略。它允许模型在生成答案前先进行思维链推理,并根据推理结果调用工具或搜索信息。 优点:提高了复杂任务的可解释性,减少了幻觉,通过外部工具获取实时信息弥补了预训练知识的不足。
Agent 是 LangChain 中的核心组件,指能够自主规划、使用工具并执行任务的智能体。它接收用户输入,决定调用哪个工具,处理工具返回的结果,并最终生成回答。
常见的替代方案包括 LlamaIndex(侧重数据索引与检索)、Semantic Kernel(微软出品,支持多语言)、Haystack(基于 Python 的 RAG 框架)以及 AutoGen(多智能体协作)。
问题:Token 计数不准确可能导致超出上下文限制或成本估算错误;不同模型分词器不一致。 解决:使用官方提供的精确 Tokenizer(如 tiktoken),并在应用层统一封装计数逻辑,预留安全边界。
SFT(监督微调)仅模仿人类标注的数据分布,而 RLHF(人类反馈强化学习)引入了奖励模型(Reward Model)和 PPO 算法,使模型输出更符合人类偏好(如有用性、无害性、诚实性),从而在交互质量上更优。
主要包括 LoRA(低秩适应)、QLoRA(量化 LoRA)、Prefix Tuning、P-Tuning、Adapter Tuning 等。它们旨在冻结大部分参数,仅训练少量新增参数以降低显存消耗。
LoRA 通过低秩分解近似权重更新,参数量极小,易于部署和切换,且通常能达到全量微调相近的效果,显存占用更低。
稀疏微调指在训练过程中只更新模型的一部分参数(如特定层的某些神经元),或者利用稀疏激活机制来降低计算量,常见于 MoE(Mixture of Experts)架构。
PTQ 是在模型训练完成后直接量化,速度快但精度损失可能较大;QAT 在训练过程中模拟量化噪声,能更好地保持精度,但需要重新训练。
权重量化是将静态的模型参数转为低精度格式;激活量化是将动态的前向传播中间值转为低精度。激活量化对延迟敏感,权重量化对存储敏感。
AWQ (Activation-aware Weight Quantization) 主要步骤:1. 识别对量化敏感的权重通道;2. 根据激活分布调整权重缩放因子;3. 执行低比特量化。它能有效减少量化带来的精度下降。
GPipe 主要用于训练阶段的流水线并行,但在推理优化中也有类似思想。它将模型切分为多个阶段,在不同 GPU 间流水式处理批次,提高吞吐量。
通常采用张量并行(Tensor Parallelism, TP),将大矩阵切分到多个 GPU 上分别计算,最后聚合结果。例如 Megatron-LM 的实现方式。
TRPO 通过约束策略更新的 KL 散度保证单调提升,计算复杂度高。PPO 引入截断目标函数和重要性采样比率,简化了优化过程,训练更稳定高效。
RAG 结合检索系统与生成模型。先根据查询从外部知识库检索相关文档,再将其作为上下文输入 LLM 生成回答,解决了知识时效性和幻觉问题。
包括 BGE-M3、text2vec-large-chinese、m3e-base 以及各类基于 RoBERTa 优化的 Embedding 模型。
因为知识固化在参数中,更新需要昂贵的全量或微调训练,且存在灾难性遗忘风险,无法像数据库一样直接增删改查。
RAG 通过外部检索补充知识,成本低、可实时更新;微调通过修改参数内化知识,成本高、适合风格对齐或特定领域深度适配。
常用 MMLU、C-Eval、GSM8K 等基准测试。标准包括准确率、BLEU/ROUGE 分数、人工评分(有用性、安全性)及推理速度。
KV Cache 用于缓存自注意力机制中的 Key 和 Value 矩阵,避免重复计算。实现上通常在显存中开辟固定大小的缓冲区,随序列长度增长动态填充。
DeepSpeed-Inference 将多个算子(如 LayerNorm+Add+MatMul)融合为一个 CUDA Kernel,减少内存访问开销,显著提升推理吞吐。
FlashAttention 通过分块计算(Tiling)和重计算(Recomputation)技术,减少 HBM 与 SRAM 之间的数据搬运,将 Attention 复杂度从 O(N^2) 显存占用降为线性。
MHA(多头)每个头独立 K/V;GQA(分组查询)多个头共享一组 K/V;MQA(单查询)所有头共享一组 K/V。GQA/MQA 减少 KV Cache 显存占用,加速推理。
ZeRO (Zero Redundancy Optimizer) 将优化器状态、梯度、参数分片存储在不同 GPU 上,大幅降低显存占用,支持更大模型训练。
Paged Attention 借鉴操作系统分页管理,将 KV Cache 非连续存储。解决了显存碎片化和浪费问题,支持更高的并发批处理。
投机采样(Speculative Decoding)用小模型快速生成候选 token,再由大模型验证。例如用 7B 模型验证 70B 模型的输出,加速推理。
GPT 是 Decoder-only,因果掩码,适合生成;BERT 是 Encoder-only,双向掩码,适合理解分类。GPT 参数量通常更大。
从 GPT-1(Transformer 解码器) -> GPT-2(规模扩大) -> GPT-3(零样本能力) -> GPT-3.5/4(指令微调、RLHF、多模态)。
Decoder-only 架构更适合自回归生成任务,扩展性更好,且在长文本处理和指令遵循上表现优于 Encoder-Decoder 混合架构。
基于概率预测下一个 token。输入序列经过 Embedding、Positional Encoding、多层 Transformer Block,最终通过 Softmax 输出概率分布,采样得到下一个词。
训练数据中的社会偏见、标注人员的主观倾向、数据分布不均、模型放大效应等。
因果 LM(如 GPT)预测下一个词,只能看过去;掩码 LM(如 BERT)随机掩盖部分词预测,可见上下文双向信息。
使用 RAG 提供事实依据、增加 Few-shot 示例、引入自我反思机制、优化训练数据质量、使用确定性解码策略。
零样本(Zero-shot):无示例直接提问;少样本(Few-shot):提供少量示例引导模型遵循模式。后者通常效果更稳定。
WordPiece (BERT)、BPE (GPT)、Unigram (SentencePiece)。BPE 平衡了词汇表大小和未登录词处理。
自动化指标(Perplexity, Accuracy, BLEU)、基准测试(MMLU)、人工评估(Helpfulness, Harmlessness)。
调整 Temperature 参数、使用 Top-p/Nucleus Sampling、设置最大生成长度、引入多样性惩罚机制。
基于 Self-Attention 机制,并行处理序列,包含 Encoder 和 Decoder 堆叠,支持位置编码,解决了 RNN 的长距离依赖问题。
多头允许模型在不同表示子空间中关注不同位置的信息,增强了模型的表达能力和鲁棒性。
Self-Attention 本身是置换不变的(Permutation Invariant),无法区分词序,必须加入位置编码以注入顺序信息。
是的,取决于上下文。同一个词在不同位置或不同句子中,其 Query 与其他 Key 的匹配度不同,导致权重变化。
WordPiece 基于子词频率最大化似然,倾向于保留完整单词;BPE 基于迭代合并高频字符对,更通用,常用于英文。
Temperature Scaling, Top-K Sampling, Top-P (Nucleus) Sampling, Repetition Penalty, Beam Search。
通过统计模型各层维度(Hidden Size, Layers, Heads, Head Dim)相乘累加得出。例如 128 层 * 12288 隐藏维 * 2 (Wq,Wk,Wv, etc.)。
Temperature 控制概率分布平滑度;Top-K 限制候选词数量;Top-P 累积概率阈值。三者常组合使用以平衡多样性和连贯性。
BatchNorm 依赖批次统计量,对小批次不稳定且推理时需维护移动平均;LayerNorm 基于单个样本特征维度,更适合 NLP 变长序列。
Post-LN:残差连接在 Norm 之后,训练初期不稳定;Pre-LN:Norm 在残差之前,收敛更快,稳定性更好(如 BERT 用 Post, GPT 用 Pre)。
CoT (Chain-of-Thought) 要求模型在给出答案前先展示推理步骤,显著提升了复杂逻辑题的准确率。
数学推理、逻辑谜题、代码生成、多步规划等需要逐步推导的任务。
Llama 系列 (Meta)、ChatGLM (智谱)、Baichuan (百川)、Qwen (阿里)、InternLM (商汤)。
Prefix LM 允许模型同时看到前缀和后续内容(双向),适合摘要;Causal LM 只能看过去(单向),适合生成。
当模型规模达到一定阈值时,表现出小模型不具备的能力(如推理、翻译)。原因尚不完全明确,可能与参数容量和数据分布有关。
主流为 Decoder-only Transformer,包含 Embedding、Positional Encoding、Multi-Head Attention、FFN、LayerNorm 等模块。
模型在生成过程中陷入循环,重复输出相同的短语或句子。
概率分布峰值过高、解码策略单一、缺乏多样性惩罚。
见上文第 38 题,调整采样参数,增加惩罚项。
不可以。受限于位置编码范围(RoPE 角度)和显存中 KV Cache 的大小。
Bert 适合短文本分类、抽取;Llama/ChatGLM 适合对话、生成、长文本理解。根据任务类型选择。
垂直领域通常需要微调专用模型以获得更好的专业术语理解和逻辑准确性,通用模型难以覆盖深度知识。
使用滑动窗口、分段处理、长上下文优化技术(如 YaRN, LongRoPE)。
KV Cache 随生成长度线性增长,且显存分配机制(如 PyTorch)不会立即释放碎片,导致占用持续较高。
GPU 远快于 CPU,尤其是 FP16/BF16 精度下。CPU 仅适用于极低延迟要求或无 GPU 场景。
Int8 推理速度通常更快,显存占用减半,但需配合量化校准以保证精度。
具备基础的逻辑推理能力,但复杂推理仍需 CoT 或工具辅助,并非真正的逻辑思考。
Temperature: 0.7-1.0 (创造性); Top_P: 0.9; Top_K: 40-50; Max_New_Tokens: 视需求定。
量化 (INT8/FP4)、LoRA/P-Tuning、Offloading (CPU 卸载)、Gradient Checkpointing。
Prompt Engineering 指定格式(JSON/XML),或使用 Function Calling 强制结构化输出。
企业级应用需考虑私有化部署、API 网关、权限控制及合规性审查。
建立内部测试集,结合自动化脚本与人工评审,关注准确性、响应时间、资源消耗。
通过 RLHF 中的 Reward Model 对诚实性打分,训练模型拒绝编造未知信息。
这很难完全做到。通常通过 RAG 区分检索内容与生成内容,或在训练中加入'不知道'的负样本。
不需要。RM 可以是较小的模型,甚至基于同一架构但不同权重,只要能有效区分优劣即可。
成本高、人工标注主观性强、RM 可能被攻击(Reward Hacking)、训练不稳定。
使用合成数据(Synthetic Data)、自动标注工具、半监督学习减少人工依赖。
并行训练、增量更新、使用更高效优化器、简化 RM 结构。
模型共享权重、梯度累积、使用 ZeRO-3 优化器、压缩显存占用。
RAG 检索外部文档、SFT 使用领域语料微调、Prompt 注入专业知识。
使用 Benchmarks 自动化测试平台,搭建本地推理环境对比不同模型在特定任务的表现。
过度重复会导致过拟合,降低泛化能力。需进行去重处理(Deduplication)。
将序列位置信息映射为向量加到词向量上,使模型感知词序。
为每个位置分配固定的唯一向量(如 Sin/Cos 函数),不随序列长度变化。
编码词与词之间的距离关系,而非绝对位置,泛化性更好(如 Transformer-XL)。
通过复数域旋转矩阵将位置信息注入 Query 和 Key,使得相对位置关系在点积中体现。
支持外推(Extrapolation),无需额外训练即可处理更长序列,计算效率高。
模型在训练长度之外无法有效处理更长文本的现象。
YaRN, NTK-Aware Scaled RoPE, ALiBi, 位置插值。
不在输入加位置编码,而是在 Attention Score 上加线性偏置,距离越远偏置越大。
偏置矩阵由斜率参数生成,作用是抑制远距离 Token 的注意力权重,模拟位置信息。
无需位置编码嵌入,支持任意长度外推,训练简单。
$\hat{x} = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}}$, $y = \gamma \hat{x} + \beta$。
$\hat{x} = \frac{x}{\sqrt{mean(x^2) + \epsilon}}$, $y = x \cdot w$。去掉了均值减法和偏移量。
计算量更小,显存占用略低,在大模型中表现相当甚至更好(如 LLaMA)。
通过特定的归一化缩放因子(Scaling Factor)来稳定深层网络的训练,减少层数增加带来的梯度消失。
(略,涉及具体 PyTorch 实现,核心在于 LayerNorm 前的缩放系数设计)
支持训练更深层次的 Transformer 网络,收敛更稳定。
Pre-Norm 训练更稳,Post-Norm 理论上限更高。现代模型多用 Pre-Norm。
LLaMA 使用 RMSNorm;BERT 使用 LayerNorm;GPT-2 使用 Pre-LayerNorm。
$FFN(x) = max(0, xW_1 + b_1)W_2 + b_2$。通常包含两个线性变换和一个激活函数。
$GeLU(x) = x \Phi(x)$,其中 $\Phi$ 是标准正态分布 CDF。近似为 $0.5x(1 + \tanh(\sqrt{2/\pi}(x + 0.0447x^3)))$。
$Swish(x) = x \cdot \sigma(x)$,其中 $\sigma$ 是 Sigmoid 函数。具有非单调性,有助于优化。
$GLU(x) = (xW_1 + b_1) \otimes \sigma(xW_2 + b_2)$。门控机制增强了非线性表达能力。
结合 GeLU 激活与 GLU 结构,即 $xW_1 \cdot GeLU(xW_2)$。
结合 Swish 激活与 GLU 结构,即 $xW_1 \cdot Swish(xW_2)$。
(注:以上题目覆盖了原列表中的核心知识点,并对重复项进行了整合,确保内容完整且技术准确。)

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online