大模型面试核心题库与解析

一、基础概念与架构原理

1. 你了解 ReAct 吗，它有什么优点？

ReAct (Reasoning + Acting) 是一种将推理（Reasoning）与行动（Acting）结合的策略。它允许模型在生成答案前先进行思维链推理，并根据推理结果调用工具或搜索信息。优点：提高了复杂任务的可解释性，减少了幻觉，通过外部工具获取实时信息弥补了预训练知识的不足。

2. 解释一下 LangChain Agent 的概念

Agent 是 LangChain 中的核心组件，指能够自主规划、使用工具并执行任务的智能体。它接收用户输入，决定调用哪个工具，处理工具返回的结果，并最终生成回答。

3. LangChain 有哪些替代方案？

常见的替代方案包括 LlamaIndex（侧重数据索引与检索）、Semantic Kernel（微软出品，支持多语言）、Haystack（基于 Python 的 RAG 框架）以及 AutoGen（多智能体协作）。

4. LangChain Token 计数有什么问题？如何解决？

问题：Token 计数不准确可能导致超出上下文限制或成本估算错误；不同模型分词器不一致。解决：使用官方提供的精确 Tokenizer（如 tiktoken），并在应用层统一封装计数逻辑，预留安全边界。

5. LLM 预训练阶段有哪几个关键步骤？

数据清洗与预处理；2. 构建词表（Vocabulary）；3. 初始化模型参数；4. 大规模分布式训练；5. 验证与评估。

6. RLHF 模型为什么会表现比 SFT 更好？

SFT（监督微调）仅模仿人类标注的数据分布，而 RLHF（人类反馈强化学习）引入了奖励模型（Reward Model）和 PPO 算法，使模型输出更符合人类偏好（如有用性、无害性、诚实性），从而在交互质量上更优。

7. 参数高效的微调（PEFT）有哪些方法？

主要包括 LoRA（低秩适应）、QLoRA（量化 LoRA）、Prefix Tuning、P-Tuning、Adapter Tuning 等。它们旨在冻结大部分参数，仅训练少量新增参数以降低显存消耗。

8. LoRA 微调相比于微调适配器或前缀微调有什么优势？

LoRA 通过低秩分解近似权重更新，参数量极小，易于部署和切换，且通常能达到全量微调相近的效果，显存占用更低。

9. 你了解过什么是稀疏微调吗？

稀疏微调指在训练过程中只更新模型的一部分参数（如特定层的某些神经元），或者利用稀疏激活机制来降低计算量，常见于 MoE（Mixture of Experts）架构。

10. 训练后量化（PTQ）和量化感知训练（QAT）有什么区别？

PTQ 是在模型训练完成后直接量化，速度快但精度损失可能较大；QAT 在训练过程中模拟量化噪声，能更好地保持精度，但需要重新训练。

11. LLMs 中，量化权重和量化激活的区别是什么？

权重量化是将静态的模型参数转为低精度格式；激活量化是将动态的前向传播中间值转为低精度。激活量化对延迟敏感，权重量化对存储敏感。

12. AWQ 量化的步骤是什么？

AWQ (Activation-aware Weight Quantization) 主要步骤：1. 识别对量化敏感的权重通道；2. 根据激活分布调整权重缩放因子；3. 执行低比特量化。它能有效减少量化带来的精度下降。

13. 介绍一下 GPipe 推理框架

GPipe 主要用于训练阶段的流水线并行，但在推理优化中也有类似思想。它将模型切分为多个阶段，在不同 GPU 间流水式处理批次，提高吞吐量。

14. 矩阵乘法如何做数量并行？

通常采用张量并行（Tensor Parallelism, TP），将大矩阵切分到多个 GPU 上分别计算，最后聚合结果。例如 Megatron-LM 的实现方式。

15. 请简述 TRPO 算法流程，它跟 PPO 的区别是什么？

TRPO 通过约束策略更新的 KL 散度保证单调提升，计算复杂度高。PPO 引入截断目标函数和重要性采样比率，简化了优化过程，训练更稳定高效。

大模型面试核心题库与解析