大模型面试核心知识点与参考答案
一、大模型基础面
1. 目前主流的开源模型体系有哪些?
当前主流开源大模型体系主要包括:
- LLaMA 系列:Meta 推出的 LLaMA、LLaMA2、LLaMA3,生态最丰富。
- ChatGLM 系列:智谱 AI 推出,中文支持较好。
- Qwen 系列:阿里云通义千问,多语言能力强。
- Baichuan 百川:百川智能,注重中文场景。
- Falcon:TII 推出,推理速度快。
- Mistral:欧洲开源代表,效率高。
2. Prefix LM 和 Causal LM 区别是什么?
- Causal LM (因果语言模型):如 GPT 系列。只能看到当前 token 之前的信息,用于自回归生成。掩码机制确保每个位置只能关注前面的词。
- Prefix LM (前缀语言模型):如 T5。允许模型同时看到输入的前缀(上下文)和目标部分,常用于序列到序列任务(翻译、摘要)。编码器 - 解码器架构常见于此。
3. 涌现能力是啥原因?
涌现能力(Emergent Abilities)指模型在参数量达到一定规模后突然表现出的小模型不具备的能力(如推理、指令遵循)。原因尚不完全明确,主流观点认为与模型容量增加带来的表示空间扩展、注意力机制的复杂化以及训练数据规模有关。
4. 大模型 LLM 的架构介绍?
主流架构为 Transformer Decoder-only 结构:
- Input Embedding:将 token 转为向量。
- Positional Encoding:加入位置信息(RoPE, ALiBi 等)。
- Multi-Head Attention:捕捉长距离依赖。
- Feed Forward Network (FFN):非线性变换。
- Layer Normalization:稳定训练。
- Residual Connection:残差连接缓解梯度消失。
二、大模型进阶面
1. Llama 输入句子长度理论上可以无限长吗?
不可以。受限于位置编码(Positional Encoding)的范围和显存限制。虽然可以通过插值或外推技术(如 YaRN, NTK)扩展上下文窗口,但硬件显存决定了最大可处理的序列长度。
2. 什么是 LLMs 复读机问题?
指模型在生成长文本时,重复输出相同的短语或段落,无法继续生成新内容。这通常与采样策略(如 Temperature 过低)、概率分布坍缩或训练数据中的重复模式有关。
3. 为什么会出现 LLMs 复读机问题?
- 采样参数设置不当:Temperature 太低导致确定性过高。
- 概率分布问题:某些 token 概率过高,形成循环。
- 训练数据偏差:数据中包含大量重复片段。
4. 如何缓解 LLMs 复读机问题?
- 调整采样参数(提高 Temperature,使用 Top-K/Top-P)。
- 引入惩罚机制(如 Repetition Penalty)。
- 优化解码算法(如 Beam Search 调整)。


