大模型算法岗面试真题超全总结

从 2019 年的谷歌 T5 到 OpenAI GPT 系列，参数量爆炸的模型不断涌现。尤其是 2022 年 11 月对话大模型 ChatGPT 的出现，引起了社会各界的广泛关注。

近些年，在大规模语料库上预训练 Transformer 模型产生了预训练语言模型（PLMs），并在解决各类 NLP 任务上展现出了强大的能力。当参数规模超过一定水平时，语言模型实现了显著的性能提升，并展现出小模型中不存在的能力，比如上下文学习。为了区别于 PLM，这类模型被称为大型语言模型（LLMs）。

本文结合大模型面试的真题分享和实战经验，将大模型常考的面试题归纳为：大模型基础、大模型参数微调/训练/推理、大模型应用框架、大模型分布式训练及其他技术等内容。

大模型基础

你比较关注哪些主流的开源大模型？

目前主流开源模型包括 LLaMA 系列（Llama, Llama2, Llama3）、ChatGLM 系列（ChatGLM2, ChatGLM3）、Qwen（通义千问）、Baichuan（百川）、Falcon 等。选择模型时通常考虑许可证、性能、多语言能力以及社区活跃度。

目前大模型模型结构都有那些？

主要结构包括 Encoder-only（如 BERT）、Decoder-only（如 GPT 系列）、Encoder-Decoder（如 T5、BART）。此外还有混合架构（如 Switch Transformer）和多模态架构（如 CLIP、Flamingo）。

Prefix LM 和 Causal LM、Encoder-Decoder 区别及各自有什么优缺点？

Causal LM (Decoder-only): 单向注意力机制，适合生成任务。优点是推理效率高，支持自回归；缺点是难以利用后续信息。
Prefix LM: 允许前缀部分双向注意，后缀单向。结合了编码和解码的优势，适合填充任务。
Encoder-Decoder: 双向注意力用于编码器，单向用于解码器。优点是理解能力强，适合翻译、摘要；缺点是推理速度较慢，资源消耗大。

模型幻觉是什么？业内解决方案是什么？

模型幻觉指模型生成的内容与事实不符或凭空捏造。解决方案包括：增加高质量数据训练、引入检索增强生成（RAG）、使用知识图谱约束、优化损失函数（如 RLHF）以及后处理校验。

大模型的 Tokenizer 的实现方法及原理？

常见方法有 WordPiece（BERT）、Byte-Pair Encoding（GPT）、Unigram（SentencePiece）。原理是将文本分割为子词单元，通过统计频率合并高频字符对，平衡词汇表大小与压缩率，有效处理未登录词。

ChatGLM3 的词表实现方法？

ChatGLM3 基于 SentencePiece 进行分词，采用了特殊的 tokenizer 设计以支持中文和英文的高效编码，同时优化了特殊 token 的处理逻辑。

GPT3、LLAMA、Chatglm 的 Layer Normalization 的区别是什么？各自的优缺点是什么？

GPT3: 使用 Pre-LN（LayerNorm 在 Attention 和 FFN 之前），有助于深层网络训练稳定。
LLAMA: 采用 RMSNorm（Root Mean Square Layer Normalization），去除了均值计算，仅保留方差归一化，计算效率更高，显存占用更低。
ChatGLM: 早期版本使用标准 LN，后续版本也倾向于 RMSNorm 变体以提升效率。

大模型常用的激活函数有哪些？

主要包括 ReLU、SwiGLU（Swish + GLU）、GeLU。SwiGLU 在 LLaMA 等模型中被广泛采用，相比 ReLU 能更好地捕捉非线性特征且梯度更平滑。

Multi-query Attention 与 Grouped-query Attention 是否了解？区别是什么？

Multi-head Attention (MHA): 每个头独立查询、键、值。
Multi-query Attention (MQA): 所有头共享一套键和值，减少 KV Cache 显存占用，但可能影响精度。

大模型算法岗面试真题超全总结