AI 大模型面试核心知识点与参考答案

一、大模型基础

1. 目前主流的开源模型体系有哪些？

目前主流的开源大模型体系包括：

Llama 系列：Meta 发布的 Llama、Llama2、Llama3，采用 Transformer Decoder-only 架构。
ChatGLM 系列：智谱 AI 推出的 ChatGLM、ChatGLM2、ChatGLM3，支持中英双语。
Qwen 系列：阿里云通义千问，如 Qwen、Qwen2、Qwen-Max 等。
Baichuan 百川：百川智能推出的开源模型。
Falcon：TII 发布的 Falcon 系列，强调推理效率。
Mixtral：Mistral AI 推出的 MoE（混合专家）架构模型。

2. Prefix LM 和 Causal LM 区别是什么？

Causal LM (因果语言模型)：如 GPT 系列。只能看到当前 token 之前的信息，无法看到未来的 token。适用于文本生成任务。
Prefix LM (前缀语言模型)：允许模型在生成时访问部分上下文或特定前缀，常用于序列标注或特定结构的生成任务。

3. 涌现能力是啥原因？

涌现能力（Emergent Abilities）指随着模型规模增大而突然出现的、小模型不具备的能力（如推理、多步规划）。原因通常认为是参数量和数据量达到临界点后，模型内部表示空间足够复杂，能够自发形成处理复杂任务的机制。

4. 大模型 LLM 的架构介绍？

主流架构基于 Transformer，主要包含：

Embedding Layer：词向量映射。
Transformer Blocks：由 Self-Attention 和 Feed-Forward Network (FFN) 组成。
Normalization：LayerNorm 或 RMSNorm。
Output Head：线性层 + Softmax 预测下一个 token。

二、大模型进阶

1. Llama 输入句子长度理论上可以无限长吗？

不可以。受限于位置编码（Positional Encoding）的范围和显存限制。虽然可以通过插值（如 YaRN）或 RoPE 扩展上下文窗口，但理论上限仍受硬件和算法约束。

2. 什么是 LLMs 复读机问题？

指模型在生成长文本时陷入循环，重复输出相同的短语或句子。这通常是由于概率分布过于集中或解码策略不当导致。

3. 为什么会出现 LLMs 复读机问题？

温度参数过低：导致输出确定性过高。
惩罚机制缺失：未对重复 token 进行惩罚。
训练数据偏差：训练语料中存在大量重复模式。

4. 如何缓解 LLMs 复读机问题？

调整 repetition_penalty 参数。
使用 Top-K 或 Top-P 采样策略。
增加最大生成长度限制。

5. 什么情况用 Bert 模型，什么情况用 LLaMA、ChatGLM 类大模型？

BERT：适合理解类任务（分类、抽取），双向上下文，参数量较小。

AI 大模型面试核心知识点与参考答案

AI 大模型面试核心知识点与参考答案

一、大模型基础

1. 目前主流的开源模型体系有哪些？

2. Prefix LM 和 Causal LM 区别是什么？

3. 涌现能力是啥原因？

4. 大模型 LLM 的架构介绍？

二、大模型进阶

1. Llama 输入句子长度理论上可以无限长吗？

2. 什么是 LLMs 复读机问题？

3. 为什么会出现 LLMs 复读机问题？

4. 如何缓解 LLMs 复读机问题？

5. 什么情况用 Bert 模型，什么情况用 LLaMA、ChatGLM 类大模型？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

6. 各个专业领域是否需要各自的大模型来服务？

7. 如何让大模型处理更长的文本？

三、大模型微调

1. 全参数微调需要多少显存？

2. 为什么 SFT 之后感觉 LLM 傻了？

3. SFT 指令微调数据如何构建？

4. 领域模型 Continue PreTrain 数据选取？

5. 如何缓解模型遗忘通用能力？

6. 预训练和微调哪个阶段注入知识的？

7. 基座模型选用 Chat 还是 Base？

8. 微调后的模型出现能力劣化，灾难性遗忘是怎么回事？

9. 样本量规模增大，训练出现 OOM 错怎么办？

四、LangChain 应用

1. 什么是 LangChain？

2. LangChain 包含哪些核心概念？

3. 基于 LLM+ 向量库的文档对话思路？

4. LangChain 存在哪些问题及方案？

五、参数高效微调 (PEFT)

1. LoRA 思路是什么？

2. QLoRA 的思路？

3. P-tuning v2 思路？

4. Adapter-tuning 思路？

5. LoRA 权重是否可以合入原模型？

六、推理与评测

1. 推理时显存占用高的原因？

2. int8 和 fp16 推理速度对比？

3. 大模型怎么评测？

4. RLHF 实践中的不足？

七、底层原理详解

1. Tokenizer 篇

2. Layer Normalization 篇

3. 激活函数篇

4. 位置编码篇

5. 软硬件配置篇

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具