跳到主要内容大模型面试题库:100 道经典问题解析 | 极客日志PythonAI算法
大模型面试题库:100 道经典问题解析
大模型领域的 100 道经典面试问题,涵盖基础架构、训练微调、推理优化及应用场景。内容涉及 Transformer 原理、LoRA 微调、RAG 技术、量化方法及 RLHF 流程等核心技术点,并提供简要解析。适用于准备 AI 算法工程师及大模型应用开发岗位的求职者参考复习。
GopherDev0 浏览 大模型面试题库:100 道经典问题解析
一、基础概念与架构
1. 你了解 ReAct 吗,它有什么优点?
ReAct (Reasoning + Acting) 是一种将推理(Reasoning)与行动(Acting)结合的策略。其优点在于能够利用外部工具解决复杂任务,通过思维链展示推理过程,提高模型的可解释性和任务完成度。
2. 解释一下 LangChain Agent 的概念
LangChain Agent 是指利用 LLM 作为控制器,根据用户输入决定调用哪些工具(Tools)并执行相应操作,最终生成响应的智能体系统。
3. LangChain 有哪些替代方案?
主要替代方案包括 LlamaIndex、Semantic Kernel、Haystack 以及各云厂商提供的原生 AI 开发框架。
4. LangChain Token 计数有什么问题?如何解决?
Token 计数在不同模型间存在差异,可能导致成本估算不准。解决方案是使用特定模型的官方分词器进行精确计数,而非依赖通用估算。
5. LLM 预训练阶段有哪几个关键步骤?
关键步骤包括数据清洗与构建、分词器训练、模型架构设计、分布式训练优化及评估验证。
6. RLHF 模型为什么会表现比 SFT 更好?
RLHF(基于人类反馈的强化学习)引入了人类偏好奖励模型,使模型输出更符合人类价值观和指令意图,而 SFT 仅模仿数据分布。
7. 参数高效的微调(PEFT)有哪些方法?
常见方法包括 LoRA、QLoRA、Prefix Tuning、P-Tuning、Adapter Tuning 等。
8. LORA 微调相比于微调适配器或前缀微调有什么优势?
LoRA 通过低秩分解更新权重,参数量更小,显存占用更低,且无需修改原始模型结构,部署更灵活。
9. 你了解过什么是稀疏微调吗?
稀疏微调指在训练过程中仅更新部分参数(如激活值较高的神经元),以减少计算量和存储需求。
10. 训练后量化(PTQ)和量化感知训练(QAT)有什么区别?
PTQ 是在训练完成后直接量化,速度快但精度损失可能较大;QAT 在训练过程中模拟量化误差,精度更高但耗时更长。
11. LLMs 中,量化权重和量化激活的区别是什么?
量化权重是压缩模型参数,减少存储;量化激活是压缩中间计算结果,减少显存带宽压力,两者常结合使用。
12. AWQ 量化的步骤是什么?
AWQ (Activation-aware Weight Quantization) 通过识别对量化敏感的权重通道,保留重要权重的精度,再进行低比特量化。
13. 介绍一下 GPipe 推理框架
GPipe 是一种用于大规模模型训练的流水线并行框架,将模型层切分分配给不同设备,减少通信开销。
14. 矩阵乘法如何做数量并行?
通常采用张量并行(Tensor Parallelism),将矩阵乘法运算切分到多个 GPU 上协同计算。
15. 请简述 TPPO 算法流程,它跟 TRPO 的区别是什么?
TPPO (Trust Region Policy Optimization) 是 PPO 的变体,强调信任区域约束。TRPO 使用复杂的二阶优化,TPPO/PPO 使用一阶近似,效率更高。
16. 什么是检索增强生成(RAG)?
RAG 通过从外部知识库检索相关信息,将其作为上下文输入给 LLM,以补充模型知识并减少幻觉。
17. 目前主流的中文向量模型有哪些?
主流包括 BGE-M3、M3E、text2vec 等,支持多语言及长文本嵌入。
18. 为什么 LLM 的知识更新很困难?
预训练数据固定,模型参数固化。更新需重新训练或微调,成本高且易产生灾难性遗忘。
19. RAG 和微调的区别是什么?
RAG 通过检索外部数据动态增强,不改变模型参数;微调通过更新参数内化知识,适合领域适配。
20. 大模型一般评测方法及其准是什么?
常用 MMLU、C-Eval、GSM8K 等基准测试,指标包括准确率、BLEU、ROUGE 及人工评估。
21. 什么是 KV Cache 技术,它具体是如何实现的?
KV Cache 缓存自注意力机制中的 Key 和 Value 矩阵,避免重复计算,显著降低推理延迟。
22. DeepSpeed 推理对算子融合做了哪些优化?
DeepSpeed 合并了多个算子(如 LayerNorm+Attention),减少内核启动次数和显存访问。
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
- Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
23. 简述一下 FlashAttention 的原理
FlashAttention 通过分块计算和 IO 感知调度,减少 HBM 读写次数,加速 Attention 计算。
24. MHA、GQA、MQA 三种注意力机制的区别是什么?
MHA (Multi-Head) 每个头独立查询;GQA (Grouped-Query) 组共享 Key/Value;MQA (Multi-Query) 所有头共享 Key/Value,后者显存占用最小。
25. 请介绍一下微软的 ZeRO 优化器
ZeRO (Zero Redundancy Optimizer) 将优化器状态、梯度和参数分片存储,大幅降低显存占用。
26. Paged Attention 的原理是什么,解决了 LLM 中的什么问题?
Paged Attention 借鉴操作系统分页管理,非连续存储 KV Cache,解决显存碎片化和浪费问题。
27. 什么是投机采样技术,请举例说明?
投机采样利用小模型快速生成候选 token,由大模型验证,加速推理。例如使用 DistilBERT 辅助 Llama。
28. 简述 GPT 和 BERT 的区别
GPT 是 Decoder-only 自回归模型,适合生成;BERT 是 Encoder-only 双向模型,适合理解分类。
29. 讲一下 GPT 系列模型的是如何演进的?
从 GPT-1 到 GPT-4,规模扩大,能力增强,引入多模态、长上下文及强化学习对齐。
30. 为什么现在的大模型大多是 decoder-only 的架构?
Decoder-only 更适合自回归生成任务,且易于扩展至超长上下文和多模态场景。
31. 讲一下生成式语言模型的工作机理
基于概率预测下一个 token,通过迭代生成序列,条件概率由 Transformer 架构计算。
32. 哪些因素会导致 LLM 中的偏见?
训练数据中的社会偏见、标注者主观倾向、数据分布不均等。
33. LLM 中的因果语言建模与掩码语言建模有什么区别?
因果 LM 预测下一个词(单向);掩码 LM 预测被遮盖的词(双向),BERT 属后者,GPT 属前者。
34. 如何减轻 LLM 中的'幻觉'现象?
使用 RAG、增加事实核查、调整温度参数、引入约束解码。
35. 解释 ChatGPT 的'零样本'和'少样本'学习的概念
零样本:无示例直接指令;少样本:提供少量示例引导模型遵循模式。
36. 你了解大型语言模型中的哪些分词技术?
BPE (Byte Pair Encoding), WordPiece, Unigram, SentencePiece 等。
37. 如何评估大语言模型(LLMs)的性能?
通过基准测试集、人工评估、下游任务表现及推理速度综合评估。
38. 如何缓解 LLMs 复读机问题?
调整 Top-p 和 Temperature,引入多样性惩罚,优化提示词结构。
39. 请简述下 Transformer 基本原理
基于 Self-Attention 机制,并行处理序列,包含编码器和解码器堆叠。
40. 为什么 Transformer 的架构需要多头注意力机制?
多头允许模型关注不同子空间的信息,增强表达能力。
41. 为什么 transformers 需要位置编码?
Transformer 本身无顺序概念,位置编码注入序列顺序信息。
42. transformer 中,同一个词可以有不同的注意力权重吗?
是的,取决于上下文和其他 token 的关系。
43. Wordpiece 与 BPE 之间的区别是什么?
WordPiece 基于子词频率最大化似然;BPE 基于合并高频字符对,两者实现细节略有不同。
44. 有哪些常见的优化 LLMs 输出的技术?
Temperature 调节,Top-k/Top-p 采样,Beam Search,Logit Bias。
45. GPT-3 拥有的 1750 亿参数,是怎么算出来的?
通过统计模型中所有可训练权重矩阵的元素总和得出。
46. 温度系数和 top-p、top-k 参数有什么区别?
Temperature 控制概率分布平滑度;Top-k 限制候选词数量;Top-p 限制累积概率阈值。
47. 为什么 transformer 块使用 LayerNorm 而不是 BatchNorm?
LayerNorm 按特征维度归一化,对小批量或序列数据更稳定,BatchNorm 依赖批次统计。
48. 介绍一下 post layer norm 和 pre layer norm 的区别
Pre-LN 在残差连接前归一化,训练更稳;Post-LN 在后,早期常用但深层难收敛。
49. 什么是思维链(CoT)提示?
CoT 要求模型逐步推理,展示中间思考步骤,提升复杂问题解决能力。
50. 你觉得什么样的任务或领域适合用思维链提示?
数学推理、逻辑谜题、代码生成等需要多步推导的任务。
51. 目前主流的开源模型体系有哪些?
Llama 系列、ChatGLM、Qwen、Baichuan、Falcon 等。
52. prefix LM 和 causal LM 区别是什么?
Prefix LM 允许双向关注前缀,适合填空;Causal LM 仅关注过去,适合生成。
53. 涌现能力是啥原因?
随着模型规模和数据量增加,非线性交互导致出现小规模模型不具备的能力。
54. 大模型 LLM 的架构介绍?
通常为 Transformer Decoder-only 架构,包含 Embedding、Attention、FFN、LayerNorm 等模块。
55. 什么是 LLMs 复读机问题?
模型在生成长文本时陷入循环,重复相同内容。
56. 为什么会出现 LLMs 复读机问题?
概率分布集中,缺乏多样性约束,或提示词诱导。
57. 如何缓解 LLMs 复读机问题?
见第 38 题,调整采样策略及添加终止符。
58. llama 输入句子长度理论上可以无限长吗?
不能,受限于最大上下文窗口(Context Window)和显存限制。
59. 什么情况下用 Bert 模型,什么情况下用 Llama、ChatGLM 类大模型,咋选?
Bert 适合短文本分类、抽取;LLM 适合生成、对话、复杂推理。
60. 各个专长领域是否需要各自的大模型来服务?
垂直领域通常需要微调专用模型以获得更好效果,通用模型可能不够精准。
61. 如何让大模型处理更长的文本?
使用滑动窗口、RoPE 外推、线性注意力机制或分层处理。
62. 为什么大模型推理时显存涨的那么多还一直占着?
KV Cache 随序列增长而积累,且未释放,导致显存占用持续上升。
63. 大模型在 gpu 和 cpu 上推理速度如何?
GPU 远快于 CPU,因 GPU 擅长并行矩阵运算。
64. 推理速度上,int8 和 fp16 比起来怎么样?
int8 推理速度更快,显存占用更少,但精度略损。
65. 大模型有推理能力吗?
具备基于统计的模式推理能力,但非人类逻辑推理。
66. 大模型生成时的参数怎么设置?
Temperature 0.7-1.0,Top-p 0.9,Top-k 50 左右,视任务而定。
67. 有哪些省内存的大语言模型训练/微调/推理方法?
量化(INT8/FP4)、梯度检查点、ZeRO、LoRA、Offloading。
68. 如何让大模型输出台规化
通过 Prompt 约束格式,或使用 JSON Mode、Function Calling。
69. 应用模式变更
从本地部署转向 API 调用,或混合部署,适应业务变化。
70. 大模型怎么评测?
自动化 Benchmark + 人工评估,关注准确性、安全性、响应速度。
71. 大模型的 honest 原则是如何实现的?
通过 RLHF 奖励诚实回答,惩罚编造信息,并在系统中植入安全护栏。
72. 模型如何判断回答的知识是训练过的已知的知识,怎么训练这种能力?
通过拒答机制训练,当置信度低时输出'不知道',需在 SFT 阶段加入此类样本。
73. 奖励模型需要和基础模型一致吗?
通常不需要完全一致,但需兼容,RM 往往较小且针对特定任务优化。
74. RLHF 在实践过程中存在哪些不足?
成本高、数据标注质量不一、奖励黑客(Reward Hacking)风险。
75. 如何解决人工产生的偏好数据集成本较高,很难量产问题?
使用合成数据、自动评分模型辅助筛选、半监督学习。
76. 如何解决三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢问题?
并行训练、简化 RM 结构、使用 DPO 替代 PPO 减少阶段。
77. 如何解决 PPO 的训练过程中同时存在 4 个模型(2 训练,2 推理),对计算资源的要求较高问题?
使用共享权重、模型卸载、梯度累积、减少批次大小。
78. 如何给 LLM 注入领域知识?
RAG 检索外部文档,或进行领域数据微调(Fine-tuning)。
79. 如果想要快速检验各种模型,该怎么办?
使用统一评测框架(如 OpenCompass),对比同一基准下的表现。
80. 预训练数据 Token 重复是否影响模型性能?
过度重复会导致过拟合,降低泛化能力,需去重处理。
81. 什么是位置编码?
将位置信息映射为向量加到 Token 嵌入中,保持序列顺序。
82. 什么是绝对位置编码?
为每个位置分配固定向量,如 Sinusoidal Positional Encoding。
83. 什么是相对位置编码?
编码 Token 间的相对距离,如 Transformer-XL 或 T5 的相对位置 bias。
84. 旋转位置编码 RoPE 思路是什么?
通过旋转矩阵将位置信息融入 Query 和 Key 的点积中,保持相对位置关系。
85. 旋转位置编码 RoPE 有什么优点?
支持长度外推,计算高效,无需额外参数。
86. 什么是长度外推问题?
模型在训练长度之外无法有效处理长文本,性能下降。
87. 长度外推问题的解决方法有哪些?
RoPE 插值、ALiBi、NTK Aware Scaling、分段注意力。
88. ALiBi(Attention with Linear Biases)思路是什么?
在 Attention Score 中减去与距离成正比的偏置,无需位置编码。
89. ALiBi 的偏置矩阵是什么?有什么作用?
斜率矩阵,强制模型关注近邻 Token,抑制远距离噪声。
90. ALiBi 有什么优点?
支持任意长度推理,训练简单,无需位置编码参数。
91. Layer Norm 的计算公式写一下?
$\hat{x} = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}}$, $y = \gamma \hat{x} + \beta$
92. RMS Norm 的计算公式写一下?
$\hat{x} = \frac{x}{\sqrt{\text{mean}(x^2) + \epsilon}}$, $y = x \cdot \text{weight}$
93. RMS Norm 相比于 Layer Norm 有什么特点?
去除了均值减法和缩放偏移,计算更快,显存占用略低,效果相近。
94. Deep Norm 思路?
通过深度归一化策略,在深层网络中稳定梯度传播。
95. 写一下 Deep Norm 代码实现?
(略,核心为在每一层前乘以衰减因子 $\alpha / \sqrt{2l}$)
96. Deep Norm 有什么优点?
允许训练极深网络,收敛更稳定。
97. LN 在 LLMs 中的不同位置有什么区别么?如果有,能介绍一下区别么?
Pre-LN 利于训练稳定性;Post-LN 利于推理速度,但深层难训。
98. LLMs 各模型分别用了哪种 Layer normalization?
Llama 用 RMSNorm; BERT 用 LayerNorm; GPT-3 用 Post-LayerNorm。
99. 介绍一下 FFN 块计算公式?
$\text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2$
100. 介绍一下 GeLU 计算公式?
$\text{GeLU}(x) = x \Phi(x)$,其中 $\Phi$ 为标准正态分布 CDF。
101. 介绍一下 Swish 计算公式?
$\text{Swish}(x) = x \cdot \sigma(x)$,其中 $\sigma$ 为 Sigmoid。
102. 介绍一下使用 GLU 线性门控单元的 FFN 块计算公式?
$\text{GLU}(x) = (xW_1 + b_1) \otimes \sigma(xW_2 + b_2)$
103. 介绍一下使用 GeLU 的 GLU 块计算公式?
结合 GeLU 激活函数与 GLU 门控机制,增强非线性表达。
104. 介绍一下使用 Swish 的 GLU 块计算公式?
使用 Swish 替代 Sigmoid 作为门控激活,提升平滑度。
注:以上内容整理自行业常见面试题及技术文档,旨在帮助求职者梳理知识体系。