大模型实习面试题 6 道及解析
本文整理了 6 道常见的大模型(LLM)实习面试题,涵盖模型架构、归一化技术、参数量计算、提示微调策略、注意力机制复杂度以及微调中的灾难性遗忘问题。内容适合算法岗求职者深入复习。
本文总结了 6 道大模型实习面试题,涉及 LLaMA 与 ChatGLM 架构差异、BN 与 LN 归一化区别、BERT 参数量计算、P-tuning v2 与 Prompt tuning 对比、多头注意力时间复杂度以及微调中的灾难性遗忘问题。内容涵盖模型架构、优化技术及训练策略,适合算法岗求职者参考。

本文整理了 6 道常见的大模型(LLM)实习面试题,涵盖模型架构、归一化技术、参数量计算、提示微调策略、注意力机制复杂度以及微调中的灾难性遗忘问题。内容适合算法岗求职者深入复习。
LLaMA(Large Language Model Meta AI)与 ChatGLM(General Language Model)是两款具有代表性的开源大语言模型,它们在架构设计、训练目标和应用场景上存在显著差异。
归一化技术在深度学习中至关重要,BatchNorm(BN)和 LayerNorm(LN)是两种最常用的方法,它们的计算维度和适用场景不同。
BERT(Bidirectional Encoder Representations from Transformers)的参数量主要由其超参数配置决定,具体包括层数(Layers)、隐藏层大小(Hidden Size)、注意力头数(Attention Heads)等。
BERT 模型由多个 Transformer Encoder 堆叠而成。单层的参数量大致包含以下部分:
总参数量近似为: $$Params \approx Layers \times (12 \times HiddenSize^2) + VocabSize \times HiddenSize$$
参数量直接决定了模型的容量和显存占用。增加层数或隐藏层维度会呈平方级增加参数量。在实际工程中,选择 BERT 模型时需根据任务需求和硬件资源在精度与速度之间权衡。
Prompt Tuning 和 P-tuning v2 都是参数高效微调(PEFT)技术,旨在通过优化少量参数来适配下游任务,避免全量微调带来的高昂成本。
P-tuning v2 通过引入多层 Prompt 和去除冗余组件,显著提升了 Prompt Tuning 在小模型和复杂任务上的表现,是目前参数高效微调的主流方案之一。
多头注意力机制(Multi-Head Attention)和单个注意力机制(Single-Head Attention)的时间复杂度在理论上是相同的。
假设序列长度为 $n$,词向量维度为 $d$。
多头注意力将维度 $d$ 分割为 $h$ 个头,每个头的维度为 $d/h$。
无论是多头还是单个注意力机制,时间复杂度均为 $O(n^2 d)$。多头的主要优势在于增加了模型的表达能力(允许模型关注不同子空间的信息),而非降低计算复杂度。不过,多头并行计算在现代 GPU 上往往能获得更好的硬件利用率。
灾难性遗忘(Catastrophic Forgetting)是指模型在学习新任务时,严重丢失旧任务知识的现象。在大模型微调中,可采用以下策略缓解:
保留一部分旧任务的样本数据,与新任务数据混合进行训练。这能让模型在更新权重时不断'回忆'旧知识,保持分布的一致性。
通过计算 Fisher 信息矩阵,识别对旧任务重要的参数,并在损失函数中加入正则化项,限制这些参数的变化幅度。公式如下: $$L = L_{new} + \lambda \sum_i F_i (\theta_i - \theta_i^)^2$$ 其中 $F_i$ 是 Fisher 信息,$\theta_i^$ 是旧参数值。
利用原始预训练模型(教师模型)的输出作为软标签,指导微调后的模型(学生模型)。这样学生模型不仅学习新任务的硬标签,还保留了教师模型的知识分布。
尽量使用与原始预训练任务相关或相似的数据进行微调。例如,用通用语料继续预训练后再做微调,比直接用垂直领域数据微调更能保持通用能力。
以上 6 个问题涵盖了大模型技术的核心考点。建议求职者在准备面试时,不仅要记忆答案,更要理解背后的数学原理和工程权衡。掌握这些基础知识,有助于在实际工作中更好地选型和优化模型。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online