大模型算法岗面试核心知识点与真题汇总
随着 2019 年谷歌 T5 到 OpenAI GPT 系列的演进,参数量爆炸的模型不断涌现。尤其是 2022 年底 ChatGPT 的出现,引发了行业对大型语言模型(LLMs)的广泛关注。在大规模语料库上预训练的 Transformer 模型展现出强大的 NLP 能力,当参数规模超过一定水平时,还表现出上下文学习等小模型不具备的能力。
本文结合行业实战经验与常见面试题,将大模型算法岗考核内容归纳为:基础理论、参数微调与训练推理、应用框架、分布式训练及其他技术栈。旨在帮助求职者系统梳理知识体系。
一、大模型基础
本部分主要考察对主流开源模型架构、注意力机制及 Tokenizer 原理的理解。
1. 主流开源大模型与结构
- 关注模型:目前业界关注的开源模型包括 LLaMA 系列、ChatGLM 系列、Qwen 系列、Falcon 等。
- 模型结构:主要包括 Decoder-only (如 GPT)、Encoder-only (如 BERT)、Encoder-Decoder (如 T5)。
- Prefix LM vs Causal LM:Prefix LM 允许模型同时看到前缀和后续文本,Causal LM 仅能看过去和未来(单向)。Encoder-Decoder 则结合了双向编码能力。
- 优缺点对比:Causal LM 适合生成任务,效率较高;Encoder-Decoder 适合理解类任务,但计算开销大。
2. 幻觉与解决方案
- 模型幻觉:指模型生成看似合理但事实错误或无依据的内容。
- 解决方案:通过 RAG(检索增强生成)、SFT(监督微调)引入真实数据、RLHF(人类反馈强化学习)对齐价值观来缓解。
3. Tokenizer 与词表
- 实现方法:常见的有 BPE (Byte Pair Encoding), WordPiece, Unigram 等。
- ChatGLM3 词表:采用了特殊的词表扩充策略,融合了中文子词与英文单词。
- Layer Normalization 区别:不同模型在 LayerNorm 的位置(Pre-LN 或 Post-LN)及是否包含 Bias 存在差异,影响训练稳定性。
4. 激活函数与 Attention
- 常用激活函数:SwiGLU, GeLU, ReLU 等。SwiGLU 在 LLaMA 中表现优异。
- Multi-query vs Grouped-query:MQA 每个头共享一个 KV 缓存,速度最快但精度略降;GQA 是折中方案,兼顾性能与效果。
5. 多模态大模型
- 接触情况:涉及图像、文本联合建模,如 CLIP, Flamingo 等。
- 落地案例:智能客服图文识别、医疗影像报告生成等。
二、大模型参数微调、训练、推理
本部分重点考察 PEFT 技术、SFT 流程及推理优化手段。
1. 微调必要性与方式
- 必要性:通用模型缺乏垂直领域知识,需通过微调适配特定场景。
- 方式:全量微调、LoRA、P-Tuning、Adapter 等。
- Prompt Tuning vs Prefix Tuning:前者在输入层添加可学习向量,后者在 Encoder/Decoder 层插入连续提示向量。
2. LoRA 与 AdaLoRA
- LoRA 原理:冻结权重,旁路低秩矩阵分解,减少显存占用。
- 使用技巧:设置 rank r 和 alpha 比例,选择线性层进行注入。


