大模型面试核心知识点整理：基础、微调、推理与评测

大模型面试核心知识点整理

一、大模型（LLMs）基础面

1. 目前主流的开源模型体系有哪些？

主流开源模型主要包括 Llama 系列（Llama, Llama2, Llama3）、ChatGLM 系列、Qwen（通义千问）、Baichuan（百川）、InternLM（书生·浦语）等。这些模型在架构上多基于 Transformer，但在具体优化和训练数据上各有侧重。

2. Prefix LM 和 Causal LM 区别是什么？

Causal LM (自回归语言模型)：采用单向注意力机制，当前 token 只能关注前面的 token，适用于文本生成任务。
Prefix LM：允许双向注意力，但限制生成的 token 不能看到未来的信息，常用于序列标注或混合任务。

3. 涌现能力是啥原因？

涌现能力（Emergent Abilities）指随着模型规模增大而突然出现的、小模型不具备的能力（如推理、指令遵循）。原因尚不完全明确，通常认为与参数量、数据量及架构的协同效应有关，使得模型能更好地捕捉复杂模式。

4. 大模型 LLM 的架构介绍？

主流架构为 Transformer Decoder-only 结构。包含 Embedding 层、多层 Transformer Block（Self-Attention + FFN）、LayerNorm 以及输出投影层。关键组件包括位置编码（RoPE/ALiBi）、激活函数（GeLU/Swish）及归一化策略。

二、大模型（LLMs）进阶面

1. Llama 输入句子长度理论上可以无限长吗？

不可以。受限于位置编码范围（如 RoPE 的频率矩阵），模型有最大上下文窗口限制（如 2048, 4096, 32k 等）。超出范围会导致外推效果下降，需通过插值或稀疏注意力优化。

2. 什么是 LLMs 复读机问题？

指模型在生成长文本时，重复输出相同的短语或段落。这通常由概率分布坍缩、解码策略不当或训练数据中的重复模式引起。

3. 为什么会出现 LLMs 复读机问题？

采样温度过低导致多样性不足。
惩罚机制（Repetition Penalty）未生效。
模型对特定 token 的概率预测过高。

4. 如何缓解 LLMs 复读机问题？

调整解码参数（Temperature, Top-P）。
启用重复惩罚（Repetition Penalty）。
使用约束解码或人工干预。

5. 什么情况用 Bert 模型，什么情况用 LLaMA、ChatGLM 类大模型，咋选？

BERT：适合分类、抽取等判别式任务，参数量小，推理快。
LLaMA/ChatGLM：适合生成、对话、复杂推理等 generative 任务，需更多算力。

6. 各个专业领域是否需要各自的大模型来服务？

是的。通用模型在垂直领域（医疗、法律）可能存在知识幻觉或术语理解偏差，通过领域微调（SFT/Continue PreTrain）可提升专业表现。

7. 如何让大模型处理更长的文本？

优化位置编码（如 YaRN, NTK）。
使用滑动窗口注意力。
压缩上下文（摘要、检索增强）。

三、大模型（LLMs）微调面

1. 如果想要在某个模型基础上做全参数微调，究竟需要多少显存？

取决于模型大小和 Batch Size。例如 7B 模型 FP16 全微调整理约需 40GB+ 显存（含梯度、优化器状态），通常需多卡并行。

大模型面试核心知识点整理：基础、微调、推理与评测