大模型面试核心知识点与参考答案

一、大模型基础面

1. 目前主流的开源模型体系有哪些？

当前主流开源大模型体系主要包括：

LLaMA 系列：Meta 推出的 LLaMA、LLaMA2、LLaMA3，生态最丰富。
ChatGLM 系列：智谱 AI 推出，中文支持较好。
Qwen 系列：阿里云通义千问，多语言能力强。
Baichuan 百川：百川智能，注重中文场景。
Falcon：TII 推出，推理速度快。
Mistral：欧洲开源代表，效率高。

2. Prefix LM 和 Causal LM 区别是什么？

Causal LM (因果语言模型)：如 GPT 系列。只能看到当前 token 之前的信息，用于自回归生成。掩码机制确保每个位置只能关注前面的词。
Prefix LM (前缀语言模型)：如 T5。允许模型同时看到输入的前缀（上下文）和目标部分，常用于序列到序列任务（翻译、摘要）。编码器 - 解码器架构常见于此。

3. 涌现能力是啥原因？

涌现能力（Emergent Abilities）指模型在参数量达到一定规模后突然表现出的小模型不具备的能力（如推理、指令遵循）。原因尚不完全明确，主流观点认为与模型容量增加带来的表示空间扩展、注意力机制的复杂化以及训练数据规模有关。

4. 大模型 LLM 的架构介绍？

主流架构为 Transformer Decoder-only 结构：

Input Embedding：将 token 转为向量。
Positional Encoding：加入位置信息（RoPE, ALiBi 等）。
Multi-Head Attention：捕捉长距离依赖。
Feed Forward Network (FFN)：非线性变换。
Layer Normalization：稳定训练。
Residual Connection：残差连接缓解梯度消失。

二、大模型进阶面

1. Llama 输入句子长度理论上可以无限长吗？

不可以。受限于位置编码（Positional Encoding）的范围和显存限制。虽然可以通过插值或外推技术（如 YaRN, NTK）扩展上下文窗口，但硬件显存决定了最大可处理的序列长度。

2. 什么是 LLMs 复读机问题？

指模型在生成长文本时，重复输出相同的短语或段落，无法继续生成新内容。这通常与采样策略（如 Temperature 过低）、概率分布坍缩或训练数据中的重复模式有关。

3. 为什么会出现 LLMs 复读机问题？

采样参数设置不当：Temperature 太低导致确定性过高。
概率分布问题：某些 token 概率过高，形成循环。
训练数据偏差：数据中包含大量重复片段。

4. 如何缓解 LLMs 复读机问题？

调整采样参数（提高 Temperature，使用 Top-K/Top-P）。
引入惩罚机制（如 Repetition Penalty）。
优化解码算法（如 Beam Search 调整）。

大模型面试核心知识点与参考答案

大模型面试核心知识点与参考答案

一、大模型基础面

1. 目前主流的开源模型体系有哪些？

2. Prefix LM 和 Causal LM 区别是什么？

3. 涌现能力是啥原因？

4. 大模型 LLM 的架构介绍？

二、大模型进阶面

1. Llama 输入句子长度理论上可以无限长吗？

2. 什么是 LLMs 复读机问题？

3. 为什么会出现 LLMs 复读机问题？

4. 如何缓解 LLMs 复读机问题？

5. 什么情况用 Bert 模型，什么情况用 LLaMA、ChatGLM 类大模型？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

6. 如何让大模型处理更长的文本？

三、大模型微调面

1. 全参数微调需要多少显存？

2. 为什么 SFT 之后感觉 LLM 傻了？

3. SFT 指令微调数据如何构建？

4. 领域模型 Continue PreTrain 数据选取？

5. 如何缓解模型遗忘通用能力？

6. 预训练和微调哪个阶段注入知识的？

7. 进行 SFT 操作的时候，基座模型选用 Chat 还是 Base？

8. 领域模型微调指令&数据输入格式要求？

9. 领域评测集构建？

10. 领域模型词表扩增是不是有必要的？

11. 如何训练自己的大模型？

12. 训练中文大模型有啥经验？

13. 指令微调的好处？

14. 想让模型学习某个领域知识，是应该预训练还是微调？

15. 多轮对话任务如何微调模型？

16. 微调后的模型出现能力劣化，灾难性遗忘是怎么回事？

17. 微调模型需要多大显存？

18. 大模型 LLM 进行 SFT 操作的时候在学习什么？

19. 预训练和 SFT 操作有什么不同？

20. 样本量规模增大，训练出现 OOM 错？

21. 大模型 LLM 进行 SFT 如何对样本进行优化？

22. 模型参数迭代实验？

四、LangChain 面

1. 基于 LLM+ 向量库的文档对话基础面

2. 基于 LLM+ 向量库的文档对话优化面

3. 痛点：文档切分粒度不好把控？

4. LangChain 核心概念？

5. LangChain 替代方案？

五、参数高效微调 (PEFT) 面

1. LoRA 篇

2. QLoRA 篇

3. AdaLoRA 篇

4. 提示学习（Prompting）

5. Adapter-tuning 篇

6. PEFT 最佳实践

六、推理面

1. 推理显存占用高原因？

2. GPU 和 CPU 推理速度对比？

3. int8 和 fp16 对比？

4. 省内存方法？

七、评测面

1. 大模型怎么评测？

八、强化学习面 (RLHF)

1. RLHF 不足？

2. 如何解决成本问题？

3. 三个阶段训练？

九、软硬件配置面

1. 数据集找哪里？

2. 微调需要多少条数据？

十、Token 及位置编码篇

1. 位置编码 RoPE

2. ALiBi

3. Tokenizer 篇

十一、归一化篇

1. Layer Norm vs RMS Norm

2. Deep Norm

十二、激活函数篇

1. GeLU

2. Swish

3. GLU

微信扫一扫，关注极客日志

更多推荐文章