大模型面试核心知识点总结与参考答案
一、RAG 技术体系
1. RAG 总体思路
检索增强生成(Retrieval-Augmented Generation, RAG)的基本流程包括:数据预处理 -> 文本分块(关键步骤,影响效果) -> 文本向量化 -> Query 向量化 -> 向量检索 -> 重排(Rerank) -> Query 与检索内容输入大语言模型(LLM) -> 输出结果。
2. 外挂知识库的作用
使用外挂知识库主要为了解决以下问题:
- 克服大模型的遗忘问题。
- 提升回答的准确性、权威性和时效性。
- 解决通用模型对小众领域知识涉猎不足的问题。
- 提高可控性和可解释性,增强模型的可信度和安全性。
3. RAG 效果评估
检索环节评估:
- MMR(最大边际相关性):衡量查询结果的多样性与相关性。
- Hits Rate(命中率):前 k 项中包含正确信息的比例。
- NDCG(归一化折损累计增益):考虑排序位置的评估指标。
生成环节评估:
- 非量化:完整性、正确性、相关性。
- 量化:Rouge-L 等自动评估指标。
4. 幻觉与复读机问题
- 幻觉问题:生成的内容与源数据不一致或无意义,不忠实于提供的事实。
- 复读机问题:模型重复生成相同的短语或句子。
原因分析:
- 幻觉:训练数据与源数据不一致、编码器理解缺陷、解码策略错误,或用户问题超出模型认知范围。
- 复读机:数据质量低(重复文本多)、文本过长导致条件淹没、Greedy Search 策略导致概率最大 token 循环选择。
解决办法:
- 引入外挂知识库,加入纠偏规则,限制输出长度。
- 丰富数据集多样性,过滤重复文本,同义词替换做数据增强。
- 调整温度参数(Temperature),后处理过滤。
二、主流开源模型架构
1. LLaMA 架构特点
当前开源生态最好的模型是 Meta 的 LLaMA,基于 Transformer 架构改进:
- 前置归一化:采用 RMSNorm 替代 LayerNorm,提升训练稳定性。
- 激活函数:使用 SwiGLU 替代 ReLU,受 PaLM 启发。
- 位置编码:从绝对位置嵌入改为旋转位置嵌入(RoPE)。
- 注意力机制:使用因果多头注意力的高效实现以减少内存占用。
2. ChatGLM 架构
ChatGLM 基座 GLM 支持 Encoder 和 Decoder。
- Mask 方式:[mask](BERT 形式,随机短 span)和 [gmask](GPT 形式,末尾长 span)。生成任务使用 [gmask]。
- 结构变化:位置编码转为 RoPE,激活函数变为 GLU/SwiGLU,LayerNorm 改为 RMSNorm。
- ChatGLM 2.0 优化:引入 FlashAttention 加速,Multi-Query Attention(MQA)减少 KV 缓存占用。
3. LLaMA 1 vs LLaMA 2
- 数据量:LLaMA 2 为 2.0T tokens,LLaMA 1 为 1.4T tokens。
- 上下文:LLaMA 2 支持 4k,LLaMA 1 为 2k。
- 架构细节:LLaMA 2 使用 RMSNorm,LLaMA 1 使用原始 LayerNorm;两者均用 SwiGLU 和 RoPE。
三、微调与训练优化
1. SFT 微调方法
- 全微调(Full Fine-tuning)
- Adapter Tuning
- Prefix/Prompt Tuning
- LoRA(Low-Rank Adaptation)
- RLHF(Reinforcement Learning from Human Feedback)
- 建议学习率设置为预训练阶段的 10%。
2. LoRA 原理
在原始 PLM 旁路增加降维再升维操作模拟本征秩。固定 PLM 参数,仅训练矩阵 A(随机高斯初始化)和 B(零矩阵初始化)。输出时叠加 BA 与原参数。
3. SFT 与 RLHF 对比
- SFT:监督微调,直接学习人类指令格式,成本较低,适合对齐特定任务。
- RLHF:通过奖励模型强化学习,进一步优化人类偏好,但训练复杂且不稳定。
4. RLHF 详解
RLHF 包含三个阶段:
- SFT:监督微调,让模型学会遵循指令。
- 奖励模型(Reward Model):训练一个模型来给不同回复打分,反映人类偏好。
- PPO 优化:使用近端策略优化(PPO)更新主模型,最大化奖励模型的评分。
5. 训练 OOM 解决方案
- 梯度累积(Gradient Accumulation)
- 混合精度训练(Mixed Precision)
- 分布式训练(Data Parallelism / Model Parallelism)
- 减轻模型参数(如量化)
- 优化数据处理流水线,减少内存峰值。
6. 混合精度训练
- FP16 优势:内存减半,通讯效率提升,计算速度加快(特定硬件)。
- 风险:溢出和舍入误差。
- 解决方案:权重备份(Weight Backup)、损失放大(Loss Scaling)、精度累加(Precision Accumulated)。
7. DeepSpeed 机制
DeepSpeed 采用 Ring All-Reduce 进行数据并行,避免 Parameter Server 瓶颈。
- Zero 优化:
- Zero1:分割 Adam 参数,减少显存占用。
- Zero2:分割 Adam 和 Gradient。
- Zero3:分割参数、Adam 和 Gradient,Forward 时需 All-Gather,Backward 时 Reduce Scatter。
- Offload:将部分参数移至 CPU 内存,换取更多 GPU 显存用于计算。
四、推理与性能优化
1. 显存占用
- 训练:约 16 倍参数量(含优化器状态、梯度)。
- 推理:约 2 倍参数量(FP16 下)。
- 显存组成:模型参数、输入数据、计算中间结果、KV Cache。
2. 长文本处理
- 分块处理并重叠保证连贯性。
- 增加模型参数量或优化架构以捕捉更长依赖。
- 理论上受限于计算资源和梯度消失/爆炸风险。
3. 注意力机制优化
- KV Cache:缓存 Key 和 Value,避免自回归重复计算。
- MQA (Multi-Query Attention):所有头共享一组 K/V,减少显存。
- GQA (Grouped-Query Attention):K/V 分组共享,平衡 MQA 和 MHA。
- FlashAttention:分块计算,利用 SRAM 减少 HBM IO 瓶颈。
4. 常见 Attention 计算
- Self-Attention:标准 Transformer 机制。
- DIN Attention:保留权重原始信号强度,不进行 Softmax 归一化,利于局部聚焦。
五、工具与框架
1. LangChain
LangChain 是构建 LLM 应用的框架,简化集成工作。
- 模块:Document Loaders(加载)、Text Splitters(分块)、Embeddings(向量化)、Vector Stores(存储)、Chains(逻辑编排)。
2. 向量检索模型
- ANN 算法(近似最近邻)
- 暴力搜索
- HNSWLib
- KD 树
六、总结
大模型岗位面试不仅考察理论深度,还涉及工程落地能力。掌握 RAG 流程、模型微调策略、训练优化技巧以及推理加速方法是核心竞争力。建议结合具体项目经验,深入理解底层原理,灵活应对各类场景。


