跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

大模型面试核心知识点总结与参考答案

综述由AI生成总结了大模型岗位面试的核心知识点,涵盖 RAG 技术体系、幻觉问题处理、主流开源模型架构(如 LLaMA、ChatGLM)、微调方法(SFT、LoRA、RLHF)、训练优化技巧(混合精度、DeepSpeed)及推理显存管理等内容。旨在帮助求职者系统复习大模型相关理论与工程实践。

字节跳动发布于 2025/2/6更新于 2026/6/324 浏览
大模型面试核心知识点总结与参考答案

大模型面试核心知识点总结与参考答案

一、RAG 技术体系

1. RAG 总体思路

检索增强生成(Retrieval-Augmented Generation, RAG)的基本流程包括:数据预处理 -> 文本分块(关键步骤,影响效果) -> 文本向量化 -> Query 向量化 -> 向量检索 -> 重排(Rerank) -> Query 与检索内容输入大语言模型(LLM) -> 输出结果。

2. 外挂知识库的作用

使用外挂知识库主要为了解决以下问题:

  • 克服大模型的遗忘问题。
  • 提升回答的准确性、权威性和时效性。
  • 解决通用模型对小众领域知识涉猎不足的问题。
  • 提高可控性和可解释性,增强模型的可信度和安全性。

3. RAG 效果评估

检索环节评估:

  • MMR(最大边际相关性):衡量查询结果的多样性与相关性。
  • Hits Rate(命中率):前 k 项中包含正确信息的比例。
  • NDCG(归一化折损累计增益):考虑排序位置的评估指标。

生成环节评估:

  • 非量化:完整性、正确性、相关性。
  • 量化:Rouge-L 等自动评估指标。

4. 幻觉与复读机问题

  • 幻觉问题:生成的内容与源数据不一致或无意义,不忠实于提供的事实。
  • 复读机问题:模型重复生成相同的短语或句子。

原因分析:

  • 幻觉:训练数据与源数据不一致、编码器理解缺陷、解码策略错误,或用户问题超出模型认知范围。
  • 复读机:数据质量低(重复文本多)、文本过长导致条件淹没、Greedy Search 策略导致概率最大 token 循环选择。

解决办法:

  • 引入外挂知识库,加入纠偏规则,限制输出长度。
  • 丰富数据集多样性,过滤重复文本,同义词替换做数据增强。
  • 调整温度参数(Temperature),后处理过滤。

二、主流开源模型架构

1. LLaMA 架构特点

当前开源生态最好的模型是 Meta 的 LLaMA,基于 Transformer 架构改进:

  • 前置归一化:采用 RMSNorm 替代 LayerNorm,提升训练稳定性。
  • 激活函数:使用 SwiGLU 替代 ReLU,受 PaLM 启发。
  • 位置编码:从绝对位置嵌入改为旋转位置嵌入(RoPE)。
  • 注意力机制:使用因果多头注意力的高效实现以减少内存占用。

2. ChatGLM 架构

ChatGLM 基座 GLM 支持 Encoder 和 Decoder。

  • Mask 方式:[mask](BERT 形式,随机短 span)和 [gmask](GPT 形式,末尾长 span)。生成任务使用 [gmask]。
  • 结构变化:位置编码转为 RoPE,激活函数变为 GLU/SwiGLU,LayerNorm 改为 RMSNorm。
  • ChatGLM 2.0 优化:引入 FlashAttention 加速,Multi-Query Attention(MQA)减少 KV 缓存占用。

3. LLaMA 1 vs LLaMA 2

  • 数据量:LLaMA 2 为 2.0T tokens,LLaMA 1 为 1.4T tokens。
  • 上下文:LLaMA 2 支持 4k,LLaMA 1 为 2k。
  • 架构细节:LLaMA 2 使用 RMSNorm,LLaMA 1 使用原始 LayerNorm;两者均用 SwiGLU 和 RoPE。

三、微调与训练优化

1. SFT 微调方法

  • 全微调(Full Fine-tuning)
  • Adapter Tuning
  • Prefix/Prompt Tuning
  • LoRA(Low-Rank Adaptation)
  • RLHF(Reinforcement Learning from Human Feedback)
  • 建议学习率设置为预训练阶段的 10%。

2. LoRA 原理

在原始 PLM 旁路增加降维再升维操作模拟本征秩。固定 PLM 参数,仅训练矩阵 A(随机高斯初始化)和 B(零矩阵初始化)。输出时叠加 BA 与原参数。

3. SFT 与 RLHF 对比

  • SFT:监督微调,直接学习人类指令格式,成本较低,适合对齐特定任务。
  • RLHF:通过奖励模型强化学习,进一步优化人类偏好,但训练复杂且不稳定。

4. RLHF 详解

RLHF 包含三个阶段:

  1. SFT:监督微调,让模型学会遵循指令。
  2. 奖励模型(Reward Model):训练一个模型来给不同回复打分,反映人类偏好。
  3. PPO 优化:使用近端策略优化(PPO)更新主模型,最大化奖励模型的评分。

5. 训练 OOM 解决方案

  • 梯度累积(Gradient Accumulation)
  • 混合精度训练(Mixed Precision)
  • 分布式训练(Data Parallelism / Model Parallelism)
  • 减轻模型参数(如量化)
  • 优化数据处理流水线,减少内存峰值。

6. 混合精度训练

  • FP16 优势:内存减半,通讯效率提升,计算速度加快(特定硬件)。
  • 风险:溢出和舍入误差。
  • 解决方案:权重备份(Weight Backup)、损失放大(Loss Scaling)、精度累加(Precision Accumulated)。

7. DeepSpeed 机制

DeepSpeed 采用 Ring All-Reduce 进行数据并行,避免 Parameter Server 瓶颈。

  • Zero 优化:
    • Zero1:分割 Adam 参数,减少显存占用。
    • Zero2:分割 Adam 和 Gradient。
    • Zero3:分割参数、Adam 和 Gradient,Forward 时需 All-Gather,Backward 时 Reduce Scatter。
  • Offload:将部分参数移至 CPU 内存,换取更多 GPU 显存用于计算。

四、推理与性能优化

1. 显存占用

  • 训练:约 16 倍参数量(含优化器状态、梯度)。
  • 推理:约 2 倍参数量(FP16 下)。
  • 显存组成:模型参数、输入数据、计算中间结果、KV Cache。

2. 长文本处理

  • 分块处理并重叠保证连贯性。
  • 增加模型参数量或优化架构以捕捉更长依赖。
  • 理论上受限于计算资源和梯度消失/爆炸风险。

3. 注意力机制优化

  • KV Cache:缓存 Key 和 Value,避免自回归重复计算。
  • MQA (Multi-Query Attention):所有头共享一组 K/V,减少显存。
  • GQA (Grouped-Query Attention):K/V 分组共享,平衡 MQA 和 MHA。
  • FlashAttention:分块计算,利用 SRAM 减少 HBM IO 瓶颈。

4. 常见 Attention 计算

  • Self-Attention:标准 Transformer 机制。
  • DIN Attention:保留权重原始信号强度,不进行 Softmax 归一化,利于局部聚焦。

五、工具与框架

1. LangChain

LangChain 是构建 LLM 应用的框架,简化集成工作。

  • 模块:Document Loaders(加载)、Text Splitters(分块)、Embeddings(向量化)、Vector Stores(存储)、Chains(逻辑编排)。

2. 向量检索模型

  • ANN 算法(近似最近邻)
  • 暴力搜索
  • HNSWLib
  • KD 树

六、总结

大模型岗位面试不仅考察理论深度,还涉及工程落地能力。掌握 RAG 流程、模型微调策略、训练优化技巧以及推理加速方法是核心竞争力。建议结合具体项目经验,深入理解底层原理,灵活应对各类场景。

目录

  1. 大模型面试核心知识点总结与参考答案
  2. 一、RAG 技术体系
  3. 1. RAG 总体思路
  4. 2. 外挂知识库的作用
  5. 3. RAG 效果评估
  6. 4. 幻觉与复读机问题
  7. 二、主流开源模型架构
  8. 1. LLaMA 架构特点
  9. 2. ChatGLM 架构
  10. 3. LLaMA 1 vs LLaMA 2
  11. 三、微调与训练优化
  12. 1. SFT 微调方法
  13. 2. LoRA 原理
  14. 3. SFT 与 RLHF 对比
  15. 4. RLHF 详解
  16. 5. 训练 OOM 解决方案
  17. 6. 混合精度训练
  18. 7. DeepSpeed 机制
  19. 四、推理与性能优化
  20. 1. 显存占用
  21. 2. 长文本处理
  22. 3. 注意力机制优化
  23. 4. 常见 Attention 计算
  24. 五、工具与框架
  25. 1. LangChain
  26. 2. 向量检索模型
  27. 六、总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • OpenCode:开源免费的 AI 编程智能体介绍
  • 前端首屏加载优化实战清单与自查表
  • OpenLLaMA 实战指南:5 步构建智能文案生成系统
  • CentOS 部署 Teemii 搭建私人漫画阅读库
  • Python+Django 城市化自习室管理系统设计与实现
  • 零售行业信息化建设方案:痛点与架构设计
  • AI 安全:基于 PGD 的 Stable Diffusion 视觉提示词注入攻击
  • 前端请求分层与自动接口生成方案
  • 二分算法实战:A-B 数对与高考志愿录取匹配
  • Ubuntu22.04下ROS2 humble与ROS1 noetic共存安装指南
  • Janus-Pro-7B 快速上手:图片问答与文生图功能详解
  • GitHub Copilot 学生认证通过指南(2025 版):流程、材料与避坑
  • 基于百度天气数据的 WebGIS 空气质量可视化实践
  • Windows 下 Git 安装配置与 Gitee 远程仓库连接指南
  • 本地部署 DeskClaw:构建人机协同的自动化工作流
  • 自然语言处理在金融领域的应用与实战
  • Web3 学习指南:从比特币到以太坊的演进
  • 基于 Python+Flask+Vue 的油田土地档案管理系统设计
  • AIGC 赋能 Kubernetes 云原生运维:智能重构与实战指南
  • 《看漫画学 Python》1、2 版核心内容解析与学习指南

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online