2026大模型（LLM）算法岗超全面试题汇总（附答案）

Ne0inhk

26 Mar 2026 — 26 min read

文章目录

前言
一、基础架构与核心理论（LLM 八股必考）
二、模型微调与对齐技术（SFT / PEFT / RLHF）
三、RAG（检索增强生成）深度架构
四、Multi-Agent 系统与智能体开发
总结

前言

现在的 LLM 面试早就不局限于问问 Transformer 怎么计算了，面试官更看重的是：你有没有真刀真枪地微调过模型？懂不懂工程侧的显存优化？能不能用 LangGraph 落地复杂的 Agent 业务架构？

本文结合博主自身面试经历，总结了一些高频面试题，助你拿下 Offer。

一、基础架构与核心理论（LLM 八股必考）

请简述什么是大模型，以及它与传统模型的主要区别是什么？
答：模型通常指的是参数数量巨大的深度学习模型，如GPT系列。它们与传统模型的主要区别在于规模：大模型拥有更多的参数和更复杂的结构，从而能够处理更复杂、更广泛的任务。此外，大模型通常需要更多的数据和计算资源进行训练和推理。
你如何评估大模型的性能？有哪些常用的评估指标？
答：评估大模型性能时，通常会考虑多个方面，包括准确率、召回率、F1值等。对于生成式任务，如文本生成，我们可能还会关注流畅性、多样性和相关性等指标。此外，模型的效率、稳定性和可解释性也是重要的评估方面。
请简述Transformer的基本结构和工作原理？
答：Transformer由编码器（Encoder）和解码器（Decoder）组成，每个编码器和解码器都包含多层自注意力机制和前馈神经网络。自注意力机制允许模型处理输入序列中的依赖关系，无论它们之间的距离有多远。通过堆叠多个编码器和解码器，Transformer可以捕捉更复杂的特征并生成高质量的输出。
Transformer 如何改进传统的 Seq2Seq 模型？
答：传统的 Seq2Seq 模型通常使用循环神经网络（RNN）或其变体（如 LSTM、GRU），存在梯度消失或梯度爆炸问题，且处理长序列时效率较低。Transformer 摒弃了循环结构，采用自注意力机制，能够并行计算，大大提高了训练速度。它可以直接捕捉序列中任意位置之间的依赖关系，无需像 RNN 那样顺序处理，使得模型对长距离依赖的处理能力更强。多头注意力机制进一步增强了模型捕捉不同类型信息的能力，位置编码则解决了输入序列中单词顺序的问题，使模型能够感知单词的位置信息。
多头自注意力机制的作用是什么？
答：多头自注意力机制允许模型在不同子空间上同时捕捉信息，从而增强了对输入序列的表达能力。每个头关注输入序列的不同部分，然后将它们的结果拼接起来，以获得更全面的特征表示。
详细拆解 MHA（多头注意力）、MQA（多查询注意力）与 GQA（分组查询注意力）的区别？
答：MHA (Multi-Head Attention): 每个注意力头都有独立的 Query、Key、Value 矩阵。优点是表达能力强，缺点是推理时 KV Cache 占用极大显存。
MQA (Multi-Query Attention): 所有头共享同一组 Key 和 Value 矩阵。大幅降低 KV Cache 的显存占用，提高推理批处理大小，但会损失一定精度。
GQA (Grouped-Query Attention): Llama 系列的主流选择。将所有的头分组，组内共享一组 Key 和 Value。它是 MHA 和 MQA 的折中方案，在性能和显存占用之间取得了极佳的平衡。
为什么 Transformer 中的 Softmax 之前需要对 Q K T QK^T QKT 除以 d k \sqrt{d_k} dk？
答：随着维度 d k d_k dk 的增大，点积结果的方差也会变大，导致 Softmax 后的分布变得极其陡峭，大部分梯度会趋近于 0（梯度消失）。除以 d k \sqrt{d_k} dk 可以将点积结果的方差拉回 1，保持梯度稳定。
位置编码是什么，为什么要使用它们？
答：位置编码是为输入序列中的每个位置分配一个唯一编码的方法。在 Transformer 模型中，自注意力机制本身无法捕捉单词的顺序信息，因为它平等地对待序列中的每个 token。位置编码通过将位置信息编码到输入向量中，使模型能够理解单词在序列中的相对位置。常见的位置编码方式有正弦位置编码和学习型位置编码。正弦位置编码利用正弦和余弦函数的特性生成位置编码，具有可扩展性和良好的数学性质；学习型位置编码则是在模型训练过程中学习得到位置编码，能更好地适应具体任务的数据特征。
RoPE（旋转位置编码）相对于绝对位置编码的优势？
答：1.外推性：能够较好地处理训练时未见过的长文本。
2.相对距离衰减：随着两个 Token 距离的增加，它们之间的内积（注意力分数）会呈衰减趋势，这符合自然语言的局部依赖直觉。
为什么主流大语言模型都采用了 Decoder-Only 架构？
答：1.训练效率：只需要预测下一个词（Next Token Prediction），可以利用 Causal Mask 实现高度并行的自回归训练。
2.Zero-shot 能力：研究表明（如 Scaling Law），Decoder-Only 架构在参数规模扩大后，更容易产生“涌现能力”和更好的零样本泛化能力。
目前主流的开源模型体系有哪些？
1.Transformer体系：由Google提出的Transformer 模型及其变体，如BERT、GPT 等。
2.PyTorch Lightning：一个基于PyTorch的轻量级深度学习框架，用于快速原型设计和实验。
3.TensorFlow Model Garden：TensorFlow官方提供的一系列预训练模型和模型架构。
4.Hugging Face Transformers：一个流行的开源库，提供了大量预训练模型和工具，用于NLP 任务。
涌现能力是什么原因?
答：涌现能力是指模型在训练过程中突然表现出的新的、之前未曾预料到的能力。这种现象通常发生在大型模型中，原因是大型模型具有更高的表示能力和更多的参数，可以更好地捕捉数据中的模式和关联。随着模型规模的增加，它们能够自动学习到更复杂、更抽象的概念和规律，从而展现出涌现能力。
详细对比一下层归一化（Layer Normalization）和批量归一化（Batch Normalization）的区别？为什么 Transformer 要用 LN？
答：1.归一化的维度不同：
BatchNorm (BN)：在批次（Batch）维度上进行归一化。它计算同一个特征在整个 Batch 中的均值和方差。
LayerNorm (LN)：在特征（Feature/Channel）维度上进行归一化。它计算单个样本（或单个 Token）所有特征的均值和方差。
2.对 Batch Size 的依赖： BN 严重依赖较大的 Batch Size 来保证统计量的稳定；LN 完全独立于 Batch Size，即使单条样本也能正常计算。
3.为什么 Transformer 要用 LN？NLP 任务中，文本序列的长度（Sequence Length）是动态变化的。BN 很难处理变长序列（如果某个 Batch 中有一条特别长的序列，后面位置的特征在计算均值方差时会缺乏足够的数据）。LN 针对单个 Token 进行归一化，完美契合了 RNN、Transformer 等处理变长序列序列模型的天然属性。
词嵌入（Word Embedding）的常用方法经历了哪些演进？阐述其原理。
答：阶段一：One-Hot 编码原理：用一个超长向量表示词，词典有多大，向量就有多长，当前词位置为 1，其余为 0。缺陷：维度灾难（极其稀疏）、无法体现词与词之间的语义相似度（任意两个词的向量内积均为 0）。
阶段二：静态词向量（Word2Vec / GloVe）原理：核心思想是“共现即相关”。以 Word2Vec 为例，包含两种结构：CBOW（根据上下文预测中心词）和 Skip-Gram（根据中心词预测上下文）。优势：将词映射到了低维稠密向量空间，且具备语义代数运算能力（经典例子： V K i n g − V M a n + V W o m a n ≈ V Q u e e n V_{King} - V_{Man} + V_{Woman} \approx V_{Queen} VKing−VMan+VWoman≈VQueen）。缺陷：无法解决一词多义问题（同一个词在任何语境下向量都是一样的）。
阶段三：动态上下文词嵌入（ELMo / BERT / 当前的 LLM）原理：词的向量表示不再是静态的查表，而是通过 Transformer 等模型结合当前上下文实时计算出来的。优势：完美解决一词多义，同一个“苹果”（水果 vs 公司）在不同句子中会生成截然不同的 Embedding。
什么是知识蒸馏（Knowledge Distillation）？在大模型时代有何应用？
答：核心概念：知识蒸馏是一种模型压缩技术。其核心思想是让一个轻量级的小模型（Student）去学习一个庞大且性能强悍的大模型（Teacher）的泛化能力。原理解析（Soft Labels vs Hard Labels）：传统的训练只使用真实标签（Hard Labels，如 [1, 0, 0]）。蒸馏时，Teacher 模型输出的是带有概率分布的软标签（Soft Labels，如 [0.7, 0.2, 0.1]）。软标签包含了类间相似度的丰富暗知识（Dark Knowledge）。温度系数（Temperature, T T T）：在 Softmax 层引入 T T T。当 T > 1 T > 1 T>1 时，输出的概率分布会更加平滑，放大了非目标类别的概率，便于 Student 捕捉这些微小的差异。计算公式为： q i = exp ⁡ ( z i / T ) ∑ j exp ⁡ ( z j / T ) q_i = \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)} qi=∑jexp(zj/T)exp(zi/T)大模型时代的应用：黑盒蒸馏（数据蒸馏）：使用超大模型（如 GPT-4）生成高质量的数据集（指令、CoT 思维链），然后用这些数据去微调开源小模型（如 Llama-3-8B），低成本提升小模型能力。

二、模型微调与对齐技术（SFT / PEFT / RLHF）

什么是模型微调（Fine-Tuning）？什么是全参数微调（FFT）？通常的微调流程是怎样的？
a.微调（Fine-Tuning）是什么？
预训练（Pre-training）阶段让大模型阅读了海量文本，获得了强大的“通用语言理解和续写能力”，但此时的模型就像一个极其渊博但不懂人类沟通规矩的学者（倾向于无脑补全句子）。微调就是在此基础上，使用特定领域或特定格式的数据对模型进行继续训练，使其能力适配特定的下游任务（如问答、信息抽取、代码生成等）。
b.什么是全参数微调（FFT, Full Fine-Tuning）？
全参数微调是指在训练过程中解冻（Unfreeze）模型的所有权重矩阵，利用反向传播更新整个模型的参数。
优点：理论上能达到模型在特定任务上的性能上限，适合领域跨度极大的任务。
缺点：极其昂贵。需要保存模型权重、梯度、优化器状态（如 Adam 的动量和方差），动辄需要极其庞大的显存集群，且容易引发“灾难性遗忘”（忘了原来预训练的通用知识）。
c.微调的基本流程：
1)数据准备：构建高质量的 Prompt-Response 对（通常是 JSONL 格式）。
2)Tokenization（分词）：将文本转化为模型能理解的 Token 序列，并添加特殊的控制字符（如 <|im_start|>，<|im_end|>）。
3)选择微调策略：根据算力决定是做 FFT 还是 PEFT（见下文）。
4)配置超参数：设定学习率（通常比预训练低几个数量级）、Batch Size、Epoch 数等。
5)训练与评估：监控 Loss 曲线，并在验证集上测试模型生成效果。
Tokenization（分词）有哪些常见的方法？请简述其原理和优缺点。
答：在大模型的发展历程中，Tokenization 主要经历了三个阶段的演进：词级别（Word-level） -> 字符级别（Character-level） -> 子词级别（Subword-level）。
目前主流的 LLM（如 GPT 系列、Llama、Qwen 等）几乎全部采用子词级别的方案。
1)词级别分词 (Word-level Tokenization)
原理：以空格或标点符号作为分隔符，将句子直接切分成一个个完整的单词。例如：“I love AI” 变成 [“I”, “love”, “AI”]。
优点： * 保留了完整的词汇语义，对模型理解单字含义很友好。切分出来的序列较短，降低了 Transformer 的计算压力。
缺点（致命）：词表极其庞大：英文中 run、runs、running 会被当作三个完全不同的词，导致词表爆炸。
OOV (Out of Vocabulary) 问题：遇到词表外的新词、网络用语或拼写错误时，只能用 (Unknown) 代替，导致信息严重丢失。
2)字符级别分词 (Character-level Tokenization)
原理：将文本彻底打散，拆分成最基本的字符。例如：“love” 变成 [“l”, “o”, “v”, “e”]。
优点：词表极小（英文仅需 26 个字母加符号，中文几千个常用汉字）。彻底消灭 OOV 问题，任何生僻词都能被拼出来。
缺点：缺乏语义：单个字母 l 或 o 本身没有任何语义，模型需要花费大量算力去学习字符如何组合成词。
序列变得极长：导致 Transformer 的计算复杂度激增，极大地限制了模型能处理的文本总长度。
3)子词级别分词 (Subword-level Tokenization) —— 现代大模型的基石核心思想：结合了前两者的优点。
“高频词整体保留，低频词拆分为高频子词”。例如：高频词 unhappiness 可能会被拆解为 [“un”, “happi”, “ness”]。在面试中，通常会要求你进一步详细区分几种主流的子词算法：
A. BPE (Byte Pair Encoding)代表模型： GPT 系列、Llama 系列。原理：一种基于统计频率的数据驱动算法。初始化：将语料拆分为单个字符序列。统计相邻两个 Token 组合的出现频率。合并频率最高的相邻 Token 对（例如 h 和 e 经常连在一起，就合并为 he），将其加入词表。重复上述过程，直到达到预设的词表大小（Vocab Size）。优缺点：简单高效，平衡了序列长度和词表大小；但在某些语言下可能会切分出缺乏明确语义的碎片。
B. BBPE (Byte-level BPE)代表模型： GPT-2 之后的大多数模型（包括 GPT-4）。原理：传统的 BPE 是基于 Unicode 字符的，遇到多语言（如中文、日文）时，依然面临基础字符过多的问题。BBPE 直接将文本转换为 UTF-8 编码的字节流（Bytes），然后在字节层面上执行 BPE 合并。优势：基础词表大小被死死限制在 256（一个字节的 256 种可能），实现了真正的零 OOV (Zero OOV)，且对多语言代码（Code）数据极其友好。
C. WordPiece代表模型： BERT。原理：与 BPE 类似也是不断合并相邻的 Token。但 BPE 是看“谁出现的频率高就合并谁”，而 WordPiece 是看“合并哪两个 Token 能使整体语言模型的概率提升最大（最大化似然）”。计算方式：评估合并组合 a b ab ab 的得分： S c o r e = P ( a b ) P ( a ) ⋅ P ( b ) Score = \frac{P(ab)}{P(a) \cdot P(b)} Score=P(a)⋅P(b)P(ab)。得分高意味着这两个子词组合在一起的概率远大于它们独立出现的概率（即相关性强）。
D. Unigram (SentencePiece 常用底层算法)原理：与 BPE 的“自底向上合并”不同，Unigram 是“自顶向下裁剪”。它先建立一个超级大的词表（包含各种可能的组合），然后基于语言模型概率，不断剔除那些对整体概率贡献最小的 Token，直到词表缩减到目标大小。

注：在面试中如果被问到『为什么 GPT 要用 BBPE 而不是传统的分词？』，一定要答出：BBPE 通过字节级别的处理，完美解决了多语言和代码混合场景下的 OOV 问题，同时将基础词表控制在了 256 的极小规模，是走向通用人工智能大一统的基建。

大模型的 SFT、PEFT 和 RLHF 分别是什么？它们在训练流程中扮演什么角色？
这三者构成了现代大语言模型从“基座模型（Base Model）”走向“对话助理（Chat Model）”的经典对齐流水线（Alignment Pipeline）。
a.SFT (Supervised Fine-Tuning, 有监督微调)：
目标： “教模型懂规矩”。
做法：使用成千上万条高质量的、由人类撰写或筛选的问答对进行训练。模型通过模仿这些数据，学会了“一问一答”的对话模式，而不再是简单的文本续写。SFT 是激发大模型遵循指令（Instruction Following）能力的最关键步骤。
b.PEFT (Parameter-Efficient Fine-Tuning, 参数高效微调)：
定位：一种技术手段的统称，主要用于解决全参数微调（FFT）算力成本过高的问题。
做法：在微调时，冻结预训练模型的大部分（甚至全部）原生参数，只引入并训练极少量的额外参数。这样既保留了预训练知识，又大幅降低了显存占用和训练时间。常见的 PEFT 方法包括 LoRA、P-Tuning 等。
c.RLHF (Reinforcement Learning from Human Feedback, 基于人类反馈的强化学习)：
目标： “教模型符合人类价值观（对齐）”。
做法： SFT 虽然让模型学会了对话，但模型依然可能产生幻觉、输出有害内容，或者回答不够详尽。
RLHF 通常分为两步：
1)训练一个奖励模型（Reward Model），对 LLM 的不同回答按照人类喜好进行打分。
2)使用强化学习算法（如 PPO）优化 LLM，使其在生成文本时尽可能获得奖励模型的高分。
详细描述 LoRA 的数学原理。它为什么能节省显存？
原理：对于预训练权重矩阵 W 0 ∈ R d × k W_0 \in \mathbb{R}^{d \times k} W0∈Rd×k，LoRA 假设权重更新 Δ W \Delta W ΔW 具有低秩特性。它引入两个低秩矩阵 A ∈ R r × k A \in \mathbb{R}^{r \times k} A∈Rr×k 和 B ∈ R d × r B \in \mathbb{R}^{d \times r} B∈Rd×r（其中 r ≪ min ⁡ ( d , k ) r \ll \min(d, k) r≪min(d,k)）。微调时的前向传播公式为： h = W 0 x + Δ W x = W 0 x + B A x h = W_0 x + \Delta W x = W_0 x + B A x h=W0x+ΔWx=W0x+BAx
显存节省：训练时冻结 W 0 W_0 W0，只需更新极小体量的 A A A 和 B B B 的梯度和优化器状态（如 Adam 的动量），从而将显存需求降低了一个数量级。
P-Tuning v2 和 LoRA 的区别与适用场景？
答：P-Tuning v2: 在 Transformer 的每一层输入前加入可训练的连续 Prompt Embedding。适合 NLU（自然语言理解）任务。
LoRA: 作用于注意力层的 Q、V 投影矩阵或 FFN 层。更适合复杂的生成任务和全量指令微调平替。
DPO（直接偏好优化）相比于 RLHF（基于人类反馈的强化学习）赢在哪里？
痛点解决：传统的 RLHF 需要先训练一个 Reward Model，再用 PPO 算法微调 LLM，过程极其复杂且容易崩溃。
DPO 优势：直接将偏好数据（好回答和坏回答）作为损失函数的优化目标，无需训练独立的奖励模型，大大简化了对齐管道（Alignment Pipeline），且效果持平甚至更好。

多种不同的高效微调方法（PEFT）对比：Adapter、Prefix-Tuning、P-Tuning 与 LoRA
在工业界落地中，PEFT 是算法工程师必须掌握的技能。以下是主流 PEFT 方法的横向对比：

注意：如果面试官问“你做项目时为什么选 LoRA 而不是 Adapter？”，要说明 “LoRA 在部署推理时可以将权重合并回原模型（Reparameterization），不会引入任何额外的推理延迟，而 Adapter 会增加模型深度导致推理变慢”

三、RAG（检索增强生成）深度架构

什么是 RAG？
答：RAG（Retrieval-Augmented Generation ），是一种结合“外部知识检索”和“大语言模型生成”的混合架构。它先从知识库中检索相关文档，再让模型基于这些文档生成回答。
RAG 的好处是什么？
答：能降低幻觉，让回答更贴近事实；还能节省训练成本，无需让模型 “死记硬背”海量数据。
RAG vs SFT 有何区别？
答：SFT（监督微调）是在模型内部“灌知识”；RAG 是让模型“查资料”。一个靠记忆，一个靠检索。RAG 的优势是更新快、灵活；SFT 的优势是推理更自然。
RAG 系统中经常出现“内容缺失”（模型回答“我不知道”或胡编乱造），常见原因有哪些？如何解决？
痛点剖析：
1）语义鸿沟（Semantic Gap）：用户的提问词与文档的表述不一致。例如用户搜“赚钱能力”，而研报中写的是“归母净利润”或“ROE”。简单的向量检索无法精确匹配。
2）Embedding 模型的领域局限：开源的通用 Embedding 模型对特定垂直领域（如量化金融指标、特定学术缩写）的表征能力极差。
3）上下文割裂：暴力的文档切片（Chunking）可能正好把一段完整的逻辑从中间截断，导致两段都缺乏独立存在的意义。
解决方案：
1）查询转换（Query Transformation）：引入 LLM 在检索前对用户的 Query 进行重写（Rewrite）、扩展（Expansion），或者使用 HyDE（假设性文档嵌入）技术，先让 LLM 生成一段虚构答案，再拿虚构答案去检索。
2）混合检索（Hybrid Search）：将向量检索（Dense Retrieval，捕捉语义）与BM25 关键词检索（Sparse Retrieval，捕捉精确字眼如股票代码或专有名词）结合，利用 Reciprocal Rank Fusion (RRF) 融合打分。
3）微调 Embedding 模型：使用垂直领域的正负样本对（如问答对）对 BGE 等开源模型进行对比学习微调。
检索时错过了排名靠前的核心文档，或者放入 Prompt 后被模型忽略了，怎么办？
情况一：粗排阶段排名靠后，导致未被 Top-K 召回（检索漏了）
原因：向量检索（Bi-encoder）为了追求速度，预先计算好向量算余弦相似度，这种交互是浅层的。
对策：引入 Reranker（重排序模型）。它通常是一个 Cross-encoder 架构（将 Query 和 Document 拼接在一起输入 Transformer 计算相关性分数）。在混合检索召回 Top-100 后，用 Reranker 进行极其精细的二次打分，截断出最核心的 Top-5 喂给大模型。
情况二：召回成功了，但大模型“视而不见”（Lost in the Middle）
原因：研究表明，当上下文窗口很长时，大模型倾向于重点关注 Prompt 的开头和结尾，而遗忘中间的文档内容。
对策：
1）上下文重排（Context Reordering）：将 Reranker 打分最高的文档放在 Prompt 的最前面和最后面，把相关性偏低的文档塞在中间。
2）Prompt 压缩：剔除检索文档中无关的噪声句子，只保留核心片段（如使用 LongLLMLingua 等技术）。
RAG 系统中有哪些常见的文档切片（Chunking）策略？如何选择？
切片策略直接决定了召回的质量。常见的策略由简单到复杂包括：
1）固定大小切分（Fixed-size Chunking）：
做法：设定一个固定的 Token 长度（如 512），并设置一个滑动窗口的重叠区域（Overlap，如 50 Token），防止句子被生硬截断。
适用场景：无明显排版结构的纯长文本。
2）基于规则的结构化切分（Recursive Character Text Splitter）：
做法：优先按照段落（\n\n）、然后是句子、最后是单词进行递归切分。对于 Markdown、PDF 或 HTML，会根据标题层级（Header）、表格、代码块等特定结构进行保留。
适用场景：排版严谨的结构化文档（如学术论文、财务报表、代码库）。
3）语义切分（Semantic Chunking）：
做法：利用 Embedding 模型计算相邻两句话的余弦相似度。如果相似度突然出现“断崖式下跌”，说明两句话讨论的不是同一个主题，就在此处切断。
适用场景：对上下文连贯性要求极高的复杂业务逻辑说明。
4）父子文档检索 / 句窗检索（Parent Document / Sentence Window Retriever）：
做法：检索时使用颗粒度极小的块（比如单句话，为了提高 Embedding 的匹配精度），但在将内容喂给 LLM 时，把这句命中的话所在的整个段落（父文档）一起带上，提供充足的上下文。
如何科学地评估一个 RAG 系统的好坏？
答案要点：不能仅凭肉眼看，工业界常用 RAGAS 等自动化评估框架。核心关注四大指标：1）生成事实性（Faithfulness）： LLM 的回答是否全部来源于检索到的文档？（检查幻觉）。2）回答相关性（Answer Relevance）： LLM 的回答有没有答非所问？3）上下文精确度（Context Precision）：检索召回的文档列表中，相关的文档是否排在最前面？4）上下文召回率（Context Recall）：用户的提问所需要的知识，是否都被全部检索出来了？

总结：做 RAG 就像是在做一道精细的烹饪，Embedding 和 Chunking 是切菜备料，Rerank 和混合检索是火候控制，最后 LLM 的生成只是摆盘。前期的工程链路做不好，再强的大模型也出不来好结果。

四、Multi-Agent 系统与智能体开发

ReAct 框架的具体执行流程是怎样的？
答：
ReAct（Reasoning and Acting）要求模型交替输出“思考（Thought）”和“动作（Action）”。
Thought: 分析当前情况，决定下一步需要什么信息。
Action: 生成调用特定工具（如 WebSearch, CodeInterpreter）的指令。
Observation: 获取工具返回的真实结果。
循环上述步骤，直到得出最终答案（Finish）。
复杂的业务场景下，如何设计多智能体协作架构（如 LangGraph 实现）？
Supervisor-Worker 架构：
Supervisor 节点：作为一个大脑（路由），负责拆解用户需求，判断当前状态，并将子任务分发给特定的 Worker。
Worker 节点：如一个挂载了搜索引擎的 Researcher 负责资料搜集，一个挂载了 Python 解释器的 Coder 负责数据处理和回测。
状态图管理（State Graph）：这种架构能够很好地管理系统状态，允许人在回路（Human-in-the-loop）干预，比线性的 LangChain 容错率高得多。

总结

这一份“大模型面试全家桶”是我根据自己的面试经历以及金融 Agent 项目实操梳理而成的实战总结。

大模型技术日新月异，面试题库也在不断演进。我将坚持对本文进行常态化更新，力求涵盖从模型基础、微调对齐到工程优化、RAG 进阶的每一个角落。

如果你觉得有用，请点赞收藏！若发现有博主未提及的高频考点，请务必留言分享，我会第一时间补充。希望这份总结能成为你面试路上的“最强辅助”，我们高处见！