大模型面试核心知识点总结与参考答案

一、RAG 技术体系

1. RAG 总体思路

检索增强生成（Retrieval-Augmented Generation, RAG）的基本流程包括：数据预处理 -> 文本分块（关键步骤，影响效果） -> 文本向量化 -> Query 向量化 -> 向量检索 -> 重排（Rerank） -> Query 与检索内容输入大语言模型（LLM） -> 输出结果。

2. 外挂知识库的作用

使用外挂知识库主要为了解决以下问题：

克服大模型的遗忘问题。
提升回答的准确性、权威性和时效性。
解决通用模型对小众领域知识涉猎不足的问题。
提高可控性和可解释性，增强模型的可信度和安全性。

3. RAG 效果评估

检索环节评估：

MMR（最大边际相关性）：衡量查询结果的多样性与相关性。
Hits Rate（命中率）：前 k 项中包含正确信息的比例。
NDCG（归一化折损累计增益）：考虑排序位置的评估指标。

生成环节评估：

非量化：完整性、正确性、相关性。
量化：Rouge-L 等自动评估指标。

4. 幻觉与复读机问题

幻觉问题：生成的内容与源数据不一致或无意义，不忠实于提供的事实。
复读机问题：模型重复生成相同的短语或句子。

原因分析：

幻觉：训练数据与源数据不一致、编码器理解缺陷、解码策略错误，或用户问题超出模型认知范围。
复读机：数据质量低（重复文本多）、文本过长导致条件淹没、Greedy Search 策略导致概率最大 token 循环选择。

解决办法：

引入外挂知识库，加入纠偏规则，限制输出长度。
丰富数据集多样性，过滤重复文本，同义词替换做数据增强。
调整温度参数（Temperature），后处理过滤。

二、主流开源模型架构

1. LLaMA 架构特点

当前开源生态最好的模型是 Meta 的 LLaMA，基于 Transformer 架构改进：

前置归一化：采用 RMSNorm 替代 LayerNorm，提升训练稳定性。
激活函数：使用 SwiGLU 替代 ReLU，受 PaLM 启发。
位置编码：从绝对位置嵌入改为旋转位置嵌入（RoPE）。
注意力机制：使用因果多头注意力的高效实现以减少内存占用。

2. ChatGLM 架构

ChatGLM 基座 GLM 支持 Encoder 和 Decoder。

Mask 方式：[mask]（BERT 形式，随机短 span）和 [gmask]（GPT 形式，末尾长 span）。生成任务使用 [gmask]。
结构变化：位置编码转为 RoPE，激活函数变为 GLU/SwiGLU，LayerNorm 改为 RMSNorm。
ChatGLM 2.0 优化：引入 FlashAttention 加速，Multi-Query Attention（MQA）减少 KV 缓存占用。

3. LLaMA 1 vs LLaMA 2

数据量：LLaMA 2 为 2.0T tokens，LLaMA 1 为 1.4T tokens。
：LLaMA 2 支持 4k，LLaMA 1 为 2k。

大模型面试核心知识点总结与参考答案

大模型面试核心知识点总结与参考答案

一、RAG 技术体系

1. RAG 总体思路

2. 外挂知识库的作用

3. RAG 效果评估

4. 幻觉与复读机问题

二、主流开源模型架构

1. LLaMA 架构特点

2. ChatGLM 架构

3. LLaMA 1 vs LLaMA 2

更多推荐文章

相关免费在线工具

三、微调与训练优化

1. SFT 微调方法

2. LoRA 原理

3. SFT 与 RLHF 对比

4. RLHF 详解

5. 训练 OOM 解决方案

6. 混合精度训练

7. DeepSpeed 机制

四、推理与性能优化

1. 显存占用

2. 长文本处理

3. 注意力机制优化

4. 常见 Attention 计算

五、工具与框架

1. LangChain

2. 向量检索模型

六、总结

更多推荐文章

相关免费在线工具

大模型面试核心知识点总结与参考答案

大模型面试核心知识点总结与参考答案

一、RAG 技术体系

1. RAG 总体思路

2. 外挂知识库的作用

3. RAG 效果评估

4. 幻觉与复读机问题

二、主流开源模型架构

1. LLaMA 架构特点

2. ChatGLM 架构

3. LLaMA 1 vs LLaMA 2

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、微调与训练优化

1. SFT 微调方法

2. LoRA 原理

3. SFT 与 RLHF 对比

4. RLHF 详解

5. 训练 OOM 解决方案

6. 混合精度训练

7. DeepSpeed 机制

四、推理与性能优化

1. 显存占用

2. 长文本处理

3. 注意力机制优化

4. 常见 Attention 计算

五、工具与框架

1. LangChain

2. 向量检索模型

六、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具