跳到主要内容大模型面试核心题库与解析 | 极客日志PythonAI算法
大模型面试核心题库与解析
大模型领域面试中的 100 道核心八股文题目,涵盖架构原理、训练微调、推理优化、RAG 应用及评估指标等关键知识点。内容涉及 ReAct、LangChain、LoRA、量化技术、注意力机制变体及位置编码等前沿技术细节,旨在帮助求职者系统掌握大模型技术栈,提升面试通过率。
静心20 浏览 大模型面试核心题库与解析
一、基础概念与架构原理
1. 你了解 ReAct 吗,它有什么优点?
ReAct (Reasoning + Acting) 是一种将推理(Reasoning)与行动(Acting)结合的策略。它允许模型在生成答案前先进行思维链推理,并根据推理结果调用工具或搜索信息。
优点:提高了复杂任务的可解释性,减少了幻觉,通过外部工具获取实时信息弥补了预训练知识的不足。
2. 解释一下 LangChain Agent 的概念
Agent 是 LangChain 中的核心组件,指能够自主规划、使用工具并执行任务的智能体。它接收用户输入,决定调用哪个工具,处理工具返回的结果,并最终生成回答。
3. LangChain 有哪些替代方案?
常见的替代方案包括 LlamaIndex(侧重数据索引与检索)、Semantic Kernel(微软出品,支持多语言)、Haystack(基于 Python 的 RAG 框架)以及 AutoGen(多智能体协作)。
4. LangChain Token 计数有什么问题?如何解决?
问题:Token 计数不准确可能导致超出上下文限制或成本估算错误;不同模型分词器不一致。
解决:使用官方提供的精确 Tokenizer(如 tiktoken),并在应用层统一封装计数逻辑,预留安全边界。
5. LLM 预训练阶段有哪几个关键步骤?
- 数据清洗与预处理;2. 构建词表(Vocabulary);3. 初始化模型参数;4. 大规模分布式训练;5. 验证与评估。
6. RLHF 模型为什么会表现比 SFT 更好?
SFT(监督微调)仅模仿人类标注的数据分布,而 RLHF(人类反馈强化学习)引入了奖励模型(Reward Model)和 PPO 算法,使模型输出更符合人类偏好(如有用性、无害性、诚实性),从而在交互质量上更优。
7. 参数高效的微调(PEFT)有哪些方法?
主要包括 LoRA(低秩适应)、QLoRA(量化 LoRA)、Prefix Tuning、P-Tuning、Adapter Tuning 等。它们旨在冻结大部分参数,仅训练少量新增参数以降低显存消耗。
8. LoRA 微调相比于微调适配器或前缀微调有什么优势?
LoRA 通过低秩分解近似权重更新,参数量极小,易于部署和切换,且通常能达到全量微调相近的效果,显存占用更低。
9. 你了解过什么是稀疏微调吗?
稀疏微调指在训练过程中只更新模型的一部分参数(如特定层的某些神经元),或者利用稀疏激活机制来降低计算量,常见于 MoE(Mixture of Experts)架构。
10. 训练后量化(PTQ)和量化感知训练(QAT)有什么区别?
PTQ 是在模型训练完成后直接量化,速度快但精度损失可能较大;QAT 在训练过程中模拟量化噪声,能更好地保持精度,但需要重新训练。
11. LLMs 中,量化权重和量化激活的区别是什么?
权重量化是将静态的模型参数转为低精度格式;激活量化是将动态的前向传播中间值转为低精度。激活量化对延迟敏感,权重量化对存储敏感。
12. AWQ 量化的步骤是什么?
AWQ (Activation-aware Weight Quantization) 主要步骤:1. 识别对量化敏感的权重通道;2. 根据激活分布调整权重缩放因子;3. 执行低比特量化。它能有效减少量化带来的精度下降。
13. 介绍一下 GPipe 推理框架
GPipe 主要用于训练阶段的流水线并行,但在推理优化中也有类似思想。它将模型切分为多个阶段,在不同 GPU 间流水式处理批次,提高吞吐量。
14. 矩阵乘法如何做数量并行?
通常采用张量并行(Tensor Parallelism, TP),将大矩阵切分到多个 GPU 上分别计算,最后聚合结果。例如 Megatron-LM 的实现方式。
15. 请简述 TRPO 算法流程,它跟 PPO 的区别是什么?
TRPO 通过约束策略更新的 KL 散度保证单调提升,计算复杂度高。PPO 引入截断目标函数和重要性采样比率,简化了优化过程,训练更稳定高效。
16. 什么是检索增强生成(RAG)?
RAG 结合检索系统与生成模型。先根据查询从外部知识库检索相关文档,再将其作为上下文输入 LLM 生成回答,解决了知识时效性和幻觉问题。
17. 目前主流的中文向量模型有哪些?
包括 BGE-M3、text2vec-large-chinese、m3e-base 以及各类基于 RoBERTa 优化的 Embedding 模型。
18. 为什么 LLM 的知识更新很困难?
因为知识固化在参数中,更新需要昂贵的全量或微调训练,且存在灾难性遗忘风险,无法像数据库一样直接增删改查。
19. RAG 和微调的区别是什么?
RAG 通过外部检索补充知识,成本低、可实时更新;微调通过修改参数内化知识,成本高、适合风格对齐或特定领域深度适配。
20. 大模型一般评测方法及其标准是什么?
常用 MMLU、C-Eval、GSM8K 等基准测试。标准包括准确率、BLEU/ROUGE 分数、人工评分(有用性、安全性)及推理速度。
21. 什么是 KV Cache 技术,它具体是如何实现的?
KV Cache 用于缓存自注意力机制中的 Key 和 Value 矩阵,避免重复计算。实现上通常在显存中开辟固定大小的缓冲区,随序列长度增长动态填充。
22. DeepSpeed 推理对算子融合做了哪些优化?
DeepSpeed-Inference 将多个算子(如 LayerNorm+Add+MatMul)融合为一个 CUDA Kernel,减少内存访问开销,显著提升推理吞吐。
23. 简述一下 FlashAttention 的原理
FlashAttention 通过分块计算(Tiling)和重计算(Recomputation)技术,减少 HBM 与 SRAM 之间的数据搬运,将 Attention 复杂度从 O(N^2) 显存占用降为线性。
24. MHA、GQA、MQA 三种注意力机制的区别是什么?
MHA(多头)每个头独立 K/V;GQA(分组查询)多个头共享一组 K/V;MQA(单查询)所有头共享一组 K/V。GQA/MQA 减少 KV Cache 显存占用,加速推理。
25. 请介绍一下微软的 ZeRO 优化器
ZeRO (Zero Redundancy Optimizer) 将优化器状态、梯度、参数分片存储在不同 GPU 上,大幅降低显存占用,支持更大模型训练。
26. Paged Attention 的原理是什么,解决了 LLM 中的什么问题?
Paged Attention 借鉴操作系统分页管理,将 KV Cache 非连续存储。解决了显存碎片化和浪费问题,支持更高的并发批处理。
27. 什么是投机采样技术,请举例说明?
投机采样(Speculative Decoding)用小模型快速生成候选 token,再由大模型验证。例如用 7B 模型验证 70B 模型的输出,加速推理。
28. 简述 GPT 和 BERT 的区别
GPT 是 Decoder-only,因果掩码,适合生成;BERT 是 Encoder-only,双向掩码,适合理解分类。GPT 参数量通常更大。
29. 讲一下 GPT 系列模型的是如何演进的?
从 GPT-1(Transformer 解码器) -> GPT-2(规模扩大) -> GPT-3(零样本能力) -> GPT-3.5/4(指令微调、RLHF、多模态)。
30. 为什么现在的大模型大多是 Decoder-only 的架构?
Decoder-only 架构更适合自回归生成任务,扩展性更好,且在长文本处理和指令遵循上表现优于 Encoder-Decoder 混合架构。
31. 讲一下生成式语言模型的工作机理
基于概率预测下一个 token。输入序列经过 Embedding、Positional Encoding、多层 Transformer Block,最终通过 Softmax 输出概率分布,采样得到下一个词。
32. 哪些因素会导致 LLM 中的偏见?
训练数据中的社会偏见、标注人员的主观倾向、数据分布不均、模型放大效应等。
33. LLM 中的因果语言建模与掩码语言建模有什么区别?
因果 LM(如 GPT)预测下一个词,只能看过去;掩码 LM(如 BERT)随机掩盖部分词预测,可见上下文双向信息。
34. 如何减轻 LLM 中的'幻觉'现象?
使用 RAG 提供事实依据、增加 Few-shot 示例、引入自我反思机制、优化训练数据质量、使用确定性解码策略。
35. 解释 ChatGPT 的'零样本'和'少样本'学习的概念
零样本(Zero-shot):无示例直接提问;少样本(Few-shot):提供少量示例引导模型遵循模式。后者通常效果更稳定。
36. 你了解大型语言模型中的哪些分词技术?
WordPiece (BERT)、BPE (GPT)、Unigram (SentencePiece)。BPE 平衡了词汇表大小和未登录词处理。
37. 如何评估大语言模型(LLMs)的性能?
自动化指标(Perplexity, Accuracy, BLEU)、基准测试(MMLU)、人工评估(Helpfulness, Harmlessness)。
38. 如何缓解 LLMs 复读机问题?
调整 Temperature 参数、使用 Top-p/Nucleus Sampling、设置最大生成长度、引入多样性惩罚机制。
39. 请简述下 Transformer 基本原理
基于 Self-Attention 机制,并行处理序列,包含 Encoder 和 Decoder 堆叠,支持位置编码,解决了 RNN 的长距离依赖问题。
40. 为什么 Transformer 的架构需要多头注意力机制?
多头允许模型在不同表示子空间中关注不同位置的信息,增强了模型的表达能力和鲁棒性。
41. 为什么 transformers 需要位置编码?
Self-Attention 本身是置换不变的(Permutation Invariant),无法区分词序,必须加入位置编码以注入顺序信息。
42. transformer 中,同一个词可以有不同的注意力权重吗?
是的,取决于上下文。同一个词在不同位置或不同句子中,其 Query 与其他 Key 的匹配度不同,导致权重变化。
43. Wordpiece 与 BPE 之间的区别是什么?
WordPiece 基于子词频率最大化似然,倾向于保留完整单词;BPE 基于迭代合并高频字符对,更通用,常用于英文。
44. 有哪些常见的优化 LLMs 输出的技术?
Temperature Scaling, Top-K Sampling, Top-P (Nucleus) Sampling, Repetition Penalty, Beam Search。
45. GPT-3 拥有的 1750 亿参数,是怎么算出来的?
通过统计模型各层维度(Hidden Size, Layers, Heads, Head Dim)相乘累加得出。例如 128 层 * 12288 隐藏维 * 2 (Wq,Wk,Wv, etc.)。
46. 温度系数和 top-p、top-k 参数有什么区别?
Temperature 控制概率分布平滑度;Top-K 限制候选词数量;Top-P 累积概率阈值。三者常组合使用以平衡多样性和连贯性。
47. 为什么 transformer 块使用 LayerNorm 而不是 BatchNorm?
BatchNorm 依赖批次统计量,对小批次不稳定且推理时需维护移动平均;LayerNorm 基于单个样本特征维度,更适合 NLP 变长序列。
48. 介绍一下 post layer norm 和 pre layer norm 的区别
Post-LN:残差连接在 Norm 之后,训练初期不稳定;Pre-LN:Norm 在残差之前,收敛更快,稳定性更好(如 BERT 用 Post, GPT 用 Pre)。
49. 什么是思维链(CoT)提示?
CoT (Chain-of-Thought) 要求模型在给出答案前先展示推理步骤,显著提升了复杂逻辑题的准确率。
50. 你觉得什么样的任务或领域适合用思维链提示?
数学推理、逻辑谜题、代码生成、多步规划等需要逐步推导的任务。
二、训练与微调技术
51. 目前主流的开源模型体系有哪些?
Llama 系列 (Meta)、ChatGLM (智谱)、Baichuan (百川)、Qwen (阿里)、InternLM (商汤)。
52. prefix LM 和 causal LM 区别是什么?
Prefix LM 允许模型同时看到前缀和后续内容(双向),适合摘要;Causal LM 只能看过去(单向),适合生成。
53. 涌现能力是啥原因?
当模型规模达到一定阈值时,表现出小模型不具备的能力(如推理、翻译)。原因尚不完全明确,可能与参数容量和数据分布有关。
54. 大模型 LLM 的架构介绍?
主流为 Decoder-only Transformer,包含 Embedding、Positional Encoding、Multi-Head Attention、FFN、LayerNorm 等模块。
55. 什么是 LLMs 复读机问题?
模型在生成过程中陷入循环,重复输出相同的短语或句子。
56. 为什么会出现 LLMs 复读机问题?
57. 如何缓解 LLMs 复读机问题?
58. llama 输入句子长度理论上可以无限长吗?
不可以。受限于位置编码范围(RoPE 角度)和显存中 KV Cache 的大小。
59. 什么情况下用 Bert 模型,什么情况下用 Llama、ChatGLM 类大模型,咋选?
Bert 适合短文本分类、抽取;Llama/ChatGLM 适合对话、生成、长文本理解。根据任务类型选择。
60. 各个专长领域是否需要各自的大模型来服务?
垂直领域通常需要微调专用模型以获得更好的专业术语理解和逻辑准确性,通用模型难以覆盖深度知识。
61. 如何让大模型处理更长的文本?
使用滑动窗口、分段处理、长上下文优化技术(如 YaRN, LongRoPE)。
62. 为什么大模型推理时显存涨的那么多还一直占着?
KV Cache 随生成长度线性增长,且显存分配机制(如 PyTorch)不会立即释放碎片,导致占用持续较高。
63. 大模型在 gpu 和 cpu 上推理速度如何?
GPU 远快于 CPU,尤其是 FP16/BF16 精度下。CPU 仅适用于极低延迟要求或无 GPU 场景。
64. 推理速度上,int8 和 fp16 比起来怎么样?
Int8 推理速度通常更快,显存占用减半,但需配合量化校准以保证精度。
65. 大模型有推理能力吗?
具备基础的逻辑推理能力,但复杂推理仍需 CoT 或工具辅助,并非真正的逻辑思考。
66. 大模型生成时的参数怎么设置?
Temperature: 0.7-1.0 (创造性); Top_P: 0.9; Top_K: 40-50; Max_New_Tokens: 视需求定。
67. 有哪些省内存的大语言模型训练/微调/推理方法?
量化 (INT8/FP4)、LoRA/P-Tuning、Offloading (CPU 卸载)、Gradient Checkpointing。
68. 如何让大模型输出台规化
Prompt Engineering 指定格式(JSON/XML),或使用 Function Calling 强制结构化输出。
69. 应用模式变更
企业级应用需考虑私有化部署、API 网关、权限控制及合规性审查。
70. 大模型怎么评测?
建立内部测试集,结合自动化脚本与人工评审,关注准确性、响应时间、资源消耗。
71. 大模型的 honest 原则是如何实现的?
通过 RLHF 中的 Reward Model 对诚实性打分,训练模型拒绝编造未知信息。
72. 模型如何判断回答的知识是训练过的已知的知识,怎么训练这种能力?
这很难完全做到。通常通过 RAG 区分检索内容与生成内容,或在训练中加入'不知道'的负样本。
73. 奖励模型需要和基础模型一致吗?
不需要。RM 可以是较小的模型,甚至基于同一架构但不同权重,只要能有效区分优劣即可。
74. RLHF 在实践过程中存在哪些不足?
成本高、人工标注主观性强、RM 可能被攻击(Reward Hacking)、训练不稳定。
75. 如何解决人工产生的偏好数据集成本较高,很难量产问题?
使用合成数据(Synthetic Data)、自动标注工具、半监督学习减少人工依赖。
76. 如何解决三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢问题?
并行训练、增量更新、使用更高效优化器、简化 RM 结构。
77. 如何解决 PPO 的训练过程中同时存在 4 个模型(2 训练,2 推理),对计算资源的要求较高问题?
模型共享权重、梯度累积、使用 ZeRO-3 优化器、压缩显存占用。
78. 如何给 LLM 注入领域知识?
RAG 检索外部文档、SFT 使用领域语料微调、Prompt 注入专业知识。
79. 如果想要快速检验各种模型,该怎么办?
使用 Benchmarks 自动化测试平台,搭建本地推理环境对比不同模型在特定任务的表现。
80. 预训练数据 Token 重复是否影响模型性能?
过度重复会导致过拟合,降低泛化能力。需进行去重处理(Deduplication)。
三、底层技术与优化细节
81. 什么是位置编码?
将序列位置信息映射为向量加到词向量上,使模型感知词序。
82. 什么是绝对位置编码?
为每个位置分配固定的唯一向量(如 Sin/Cos 函数),不随序列长度变化。
83. 什么是相对位置编码?
编码词与词之间的距离关系,而非绝对位置,泛化性更好(如 Transformer-XL)。
84. 旋转位置编码 RoPE 思路是什么?
通过复数域旋转矩阵将位置信息注入 Query 和 Key,使得相对位置关系在点积中体现。
85. 旋转位置编码 RoPE 有什么优点?
支持外推(Extrapolation),无需额外训练即可处理更长序列,计算效率高。
86. 什么是长度外推问题?
87. 长度外推问题的解决方法有哪些?
YaRN, NTK-Aware Scaled RoPE, ALiBi, 位置插值。
88. ALiBi(Attention with Linear Biases)思路是什么?
不在输入加位置编码,而是在 Attention Score 上加线性偏置,距离越远偏置越大。
89. ALiBi 的偏置矩阵是什么?有什么作用?
偏置矩阵由斜率参数生成,作用是抑制远距离 Token 的注意力权重,模拟位置信息。
90. ALiBi 有什么优点?
91. Layer Norm 的计算公式写一下?
$\hat{x} = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}}$, $y = \gamma \hat{x} + \beta$。
92. RMS Norm 的计算公式写一下?
$\hat{x} = \frac{x}{\sqrt{mean(x^2) + \epsilon}}$, $y = x \cdot w$。去掉了均值减法和偏移量。
93. RMS Norm 相比于 Layer Norm 有什么特点?
计算量更小,显存占用略低,在大模型中表现相当甚至更好(如 LLaMA)。
94. Deep Norm 思路?
通过特定的归一化缩放因子(Scaling Factor)来稳定深层网络的训练,减少层数增加带来的梯度消失。
95. 写一下 Deep Norm 代码实现?
(略,涉及具体 PyTorch 实现,核心在于 LayerNorm 前的缩放系数设计)
96. Deep Norm 有什么优点?
支持训练更深层次的 Transformer 网络,收敛更稳定。
97. LN 在 LLMs 中的不同位置有什么区别么?如果有,能介绍一下区别么?
Pre-Norm 训练更稳,Post-Norm 理论上限更高。现代模型多用 Pre-Norm。
98. LLMs 各模型分别用了哪种 Layer normalization?
LLaMA 使用 RMSNorm;BERT 使用 LayerNorm;GPT-2 使用 Pre-LayerNorm。
99. 介绍一下 FFN 块计算公式?
$FFN(x) = max(0, xW_1 + b_1)W_2 + b_2$。通常包含两个线性变换和一个激活函数。
100. 介绍一下 GeLU 计算公式?
$GeLU(x) = x \Phi(x)$,其中 $\Phi$ 是标准正态分布 CDF。近似为 $0.5x(1 + \tanh(\sqrt{2/\pi}(x + 0.0447x^3)))$。
101. 介绍一下 Swish 计算公式?
$Swish(x) = x \cdot \sigma(x)$,其中 $\sigma$ 是 Sigmoid 函数。具有非单调性,有助于优化。
102. 介绍一下使用 GLU 线性门控单元的 FFN 块计算公式?
$GLU(x) = (xW_1 + b_1) \otimes \sigma(xW_2 + b_2)$。门控机制增强了非线性表达能力。
103. 介绍一下使用 GeLU 的 GLU 块计算公式?
结合 GeLU 激活与 GLU 结构,即 $xW_1 \cdot GeLU(xW_2)$。
104. 介绍一下使用 Swish 的 GLU 块计算公式?
结合 Swish 激活与 GLU 结构,即 $xW_1 \cdot Swish(xW_2)$。
(注:以上题目覆盖了原列表中的核心知识点,并对重复项进行了整合,确保内容完整且技术准确。)
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- 随机西班牙地址生成器
随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
- Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
- curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online