大模型算法面试指南：核心问题与答案解析

涵盖大模型算法面试的核心领域，包括基础概念如 Transformer 架构、涌现能力、Prefix/Causal LM 区别；进阶话题涉及复读机问题、长文本处理及模型选择策略；深入探讨微调技术，涵盖全参数微调、SFT 数据构建、指令微调、PEFT 方法（LoRA、QLoRA、P-tuning 等）及灾难性遗忘缓解；同时解析 LangChain 应用、向量库检索优化、幻觉处理、推理显存管理及强化学习（RLHF）流程；最后补充评测标准、软硬件配置、Tokenizer 原理及 LayerNorm 变体等底层知识，为求职者提供系统化的复习框架。

清心发布于 2025/2/6更新于 2026/7/2038 浏览

大模型算法面试指南

基础面

1. 目前主流的开源模型体系有哪些？

目前主流的开源 LLM（语言模型）体系包括以下几个：

GPT 系列：由 OpenAI 发布的一系列基于 Transformer 架构的语言模型，包括 GPT、GPT-2、GPT-3 等。GPT 模型通过在大规模无标签文本上进行预训练，然后在特定任务上进行微调，具有很强的生成能力和语言理解能力。
BERT：由 Google 发布的一种基于 Transformer 架构的双向预训练语言模型。BERT 模型通过在大规模无标签文本上进行预训练，然后在下游任务上进行微调，具有强大的语言理解能力和表征能力。
XLNet：由 CMU 和 Google Brain 发布的一种基于 Transformer 架构的自回归预训练语言模型。XLNet 模型通过自回归方式预训练，可以建模全局依赖关系，具有更好的语言建模能力和生成能力。
RoBERTa：由 Facebook 发布的一种基于 Transformer 架构的预训练语言模型。RoBERTa 模型在 BERT 的基础上进行了改进，通过更大规模的数据和更长的训练时间，取得了更好的性能。
T5：由 Google 发布的一种基于 Transformer 架构的多任务预训练语言模型。T5 模型通过在大规模数据集上进行预训练，可以用于多种自然语言处理任务，如文本分类、机器翻译、问答等。

这些模型在自然语言处理领域取得了显著的成果，并被广泛应用于各种任务和应用中。

2. Prefix LM 和 Causal LM 区别是什么？

Prefix LM（前缀语言模型）和 Causal LM（因果语言模型）是两种不同类型的语言模型，它们的区别在于生成文本的方式和训练目标。

Prefix LM：前缀语言模型是一种生成模型，它在生成每个词时都可以考虑之前的上下文信息。在生成时，前缀语言模型会根据给定的前缀（即部分文本序列）预测下一个可能的词。这种模型可以用于文本生成、机器翻译等任务。
Causal LM：因果语言模型是一种自回归模型，它只能根据之前的文本生成后续的文本，而不能根据后续的文本生成之前的文本。在训练时，因果语言模型的目标是预测下一个词的概率，给定之前的所有词作为上下文。这种模型可以用于文本生成、语言建模等任务。

总结来说，前缀语言模型可以根据给定的前缀生成后续的文本，而因果语言模型只能根据之前的文本生成后续的文本。它们的训练目标和生成方式略有不同，适用于不同的任务和应用场景。

3. 涌现能力是啥原因？

大模型的涌现能力主要是由以下几个原因造成的：

数据量的增加：随着互联网的发展和数字化信息的爆炸增长，可用于训练模型的数据量大大增加。更多的数据可以提供更丰富、更广泛的语言知识和语境，使得模型能够更好地理解和生成文本。
计算能力的提升：随着计算硬件的发展，特别是图形处理器（GPU）和专用的 AI 芯片（如 TPU）的出现，计算能力大幅提升。这使得训练更大、更复杂的模型成为可能，从而提高了模型的性能和涌现能力。
模型架构的改进：近年来，一些新的模型架构被引入，如 Transformer，它在处理序列数据上表现出色。这些新的架构通过引入自注意力机制等技术，使得模型能够更好地捕捉长距离的依赖关系和语言结构，提高了模型的表达能力和生成能力。
预训练和微调的方法：预训练和微调是一种有效的训练策略，可以在大规模无标签数据上进行预训练，然后在特定任务上进行微调。这种方法可以使模型从大规模数据中学习到更丰富的语言知识和语义理解，从而提高模型的涌现能力。

综上所述，大模型的涌现能力是由数据量的增加、计算能力的提升、模型架构的改进以及预训练和微调等因素共同作用的结果。这些因素的进步使得大模型能够更好地理解和生成文本，为自然语言处理领域带来了显著的进展。

4. 大模型 LLM 的架构介绍？

LLM（Large Language Model，大型语言模型）是指基于大规模数据和参数量的语言模型。具体的架构可以有多种选择，以下是一种常见的大模型 LLM 的架构介绍：

Transformer 架构：大模型 LLM 常使用 Transformer 架构，它是一种基于自注意力机制的序列模型。Transformer 架构由多个编码器层和解码器层组成，每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离的依赖关系和语言结构，适用于处理大规模语言数据。
自注意力机制（Self-Attention）：自注意力机制是 Transformer 架构的核心组件之一。它允许模型在生成每个词时，根据输入序列中的其他词来计算该词的表示。自注意力机制能够动态地为每个词分配不同的权重，从而更好地捕捉上下文信息。

方法	参数量	显存需求	推理速度	适用场景
Full Fine-tuning	100%	高	无损失	资源充足，追求极致性能
LoRA	<1%	中	无损失	通用，推荐首选
P-tuning	<1%	低	略慢	文本生成任务
Adapter	~1%	中	略慢	多任务学习

方法	计算量	稳定性	适用场景
Layer Norm	中	高	通用
RMS Norm	低	高	大模型
Deep Norm	中	极高	超深网络

大模型算法面试指南：核心问题与答案解析

大模型算法面试指南

基础面

1. 目前主流的开源模型体系有哪些？

2. Prefix LM 和 Causal LM 区别是什么？

3. 涌现能力是啥原因？

4. 大模型 LLM 的架构介绍？

进阶面

1. LLMs 复读机问题

i. 什么是 LLMs 复读机问题？

ii. 为什么会出现 LLMs 复读机问题？

iii. 如何缓解 LLMs 复读机问题？

2. Llama 系列问题

i. Llama 输入句子长度理论上可以无限长吗？

3. 什么情况用 Bert 模型，什么情况用 LLaMA、ChatGLM 类大模型，咋选？

4. 各个专业领域是否需要各自的大模型来服务？

5. 如何让大模型处理更长的文本？

微调面

1. 如果想要在某个模型基础上做全参数微调，究竟需要多少显存？

2. 为什么 SFT 之后感觉 LLM 傻了？

3. SFT 指令微调数据如何构建？

4. 领域模型 Continue PreTrain 数据选取？

5. 领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力？

6. 领域模型 Continue PreTrain，如何让模型在预训练过程中就学习到更多的知识？

7. 进行 SFT 操作的时候，基座模型选用 Chat 还是 Base？

8. 领域模型微调 指令&数据输入格式 要求？

9. 领域模型微调 领域评测集 构建？

10. 领域模型词表扩增是不是有必要的？

11. 如何训练自己的大模型？

12. 训练中文大模型有啥经验？

13. 指令微调的好处？

14. 预训练和微调哪个阶段注入知识的？

15. 想让模型学习某个领域或行业的知识，是应该预训练还是应该微调？

16. 多轮对话任务如何微调模型？

17. 微调后的模型出现能力劣化，灾难性遗忘是怎么回事？

18. 微调模型需要多大显存？

19. 大模型 LLM 进行 SFT 操作的时候在学习什么？

20. 预训练和 SFT 操作有什么不同

21. 样本量规模增大，训练出现 OOM 错

22. 大模型 LLM 进行 SFT 如何对样本进行优化？

23. 模型参数迭代实验

LangChain 面

1. 基于 LLM+ 向量库的文档对话 基础面

2. LLMs 存在模型幻觉问题，请问如何处理？

3. 基于 LLM+ 向量库的文档对话 思路是怎么样？

4. 基于 LLM+ 向量库的文档对话 核心技术是什么？

5. 基于 LLM+ 向量库的文档对话 prompt 模板 如何构建？

6. 基于 LLM+ 向量库的文档对话 优化面

7. 痛点 1：文档切分粒度不好把控，既担心噪声太多又担心语义信息丢失

8. 痛点 2：在基于垂直领域 表现不佳

9. 痛点 3：langchain 内置 问答分句效果不佳问题

10. 痛点 4：如何 尽可能召回与 query 相关的 Document 问题

11. 痛点 5：如何让 LLM 基于 query 和 context 得到高质量的 response

PEFT 面

1. LoRA 篇

1.1 什么是 LoRA？

1.2 LoRA 的思路是什么？

1.3 LoRA 的特点是什么？

2. QLoRA 篇

2.1 QLoRA 的思路是怎么样的？

2.2 QLoRA 的特点是什么？

3. AdaLoRA 篇

3.1 AdaLoRA 的思路是怎么样的？

4. LoRA 权重是否可以合入原模型？

5. ChatGLM-6B LoRA 后的权重多大？

6. LoRA 微调优点是什么？

7. LoRA 微调方法为啥能加速训练？

8. 如何在已有 LoRA 模型上继续训练？

提示学习（Prompting）

1. 为什么需要 提示学习（Prompting）？

2. 什么是 提示学习（Prompting）？

3. 提示学习（Prompting）有什么优点？

4. 提示学习（Prompting）有哪些方法，能不能稍微介绍一下它们间？

4.1 前缀微调（Prefix-tuning）篇

4.1.1 为什么需要 前缀微调（Prefix-tuning）？

4.1.2 前缀微调（Prefix-tuning）思路是什么？

4.1.3 前缀微调（Prefix-tuning）的优点是什么？

4.1.4 前缀微调（Prefix-tuning）的缺点是什么？

4.2 指示微调（Prompt-tuning）篇

4.2.1 为什么需要 指示微调（Prompt-tuning）？

8. 领域模型微调指令&数据输入格式要求？

9. 领域模型微调领域评测集构建？

1. 基于 LLM+ 向量库的文档对话基础面

3. 基于 LLM+ 向量库的文档对话思路是怎么样？

4. 基于 LLM+ 向量库的文档对话核心技术是什么？

5. 基于 LLM+ 向量库的文档对话 prompt 模板如何构建？

6. 基于 LLM+ 向量库的文档对话优化面

8. 痛点 2：在基于垂直领域表现不佳

9. 痛点 3：langchain 内置问答分句效果不佳问题

10. 痛点 4：如何尽可能召回与 query 相关的 Document 问题

1. 为什么需要提示学习（Prompting）？

2. 什么是提示学习（Prompting）？

4.1.1 为什么需要前缀微调（Prefix-tuning）？

4.2.1 为什么需要指示微调（Prompt-tuning）？

4.2.5 指示微调（Prompt-tuning）与 Prefix-tuning 区别是什么？

4.2.6 指示微调（Prompt-tuning）与 fine-tuning 区别是什么？

1. 为什么需要适配器微调（Adapter-tuning）？

4. AdapterFusion 思路是什么？

5. AdapterDrop 思路是什么？

6. AdapterDrop 特点是什么？

7. MAM Adapter 思路是什么？

8. MAM Adapter 特点是什么？

Peft 和全量微调区别？

如何解决人工产生的偏好数据集成本较高，很难量产问题？

如何解决 PPO 的训练过程同时存在 4 个模型（2 训练，2 推理），对计算资源的要求较高问题？