2024 年 AI 大模型面试题集锦:大厂精选与答案全解析
AI 大模型面试题涵盖了从基础架构到前沿优化的全方位内容。本文整理了 50 道高频真题,包括 GPT 与 BERT 区别、Transformer 原理、注意力机制变体、微调方法如 LoRA、量化技术、推理优化及 RAG 等核心知识点。通过系统梳理这些问题的标准答案,帮助求职者深入理解大模型底层逻辑与工程实践,提升面试通过率与技术储备。

AI 大模型面试题涵盖了从基础架构到前沿优化的全方位内容。本文整理了 50 道高频真题,包括 GPT 与 BERT 区别、Transformer 原理、注意力机制变体、微调方法如 LoRA、量化技术、推理优化及 RAG 等核心知识点。通过系统梳理这些问题的标准答案,帮助求职者深入理解大模型底层逻辑与工程实践,提升面试通过率与技术储备。

随着人工智能技术的快速发展,大模型已成为行业核心关注点。本文整理了涵盖基础理论、架构演进、微调优化及工程实践的高频面试题,旨在帮助求职者系统梳理知识体系,深入理解技术细节。
GPT(Generative Pre-trained Transformer)采用 Decoder-only 架构,基于自回归方式生成文本,适合生成任务;BERT(Bidirectional Encoder Representations from Transformers)采用 Encoder-only 架构,双向掩码建模,适合理解类任务如分类、抽取。
从 GPT-1 到 GPT-3.5/4,主要演进包括:参数量指数级增长、预训练数据规模扩大、引入更多指令微调(Instruction Tuning)、强化人类反馈(RLHF)以提升对齐性,以及多模态能力的集成。
Decoder-only 架构更易于并行化训练(相比 RNN),且通过自注意力机制能更好地捕捉长距离依赖。在生成式任务中,单向因果掩码符合自然语言生成的顺序特性,扩展性更好。
模型接收输入序列,通过概率分布预测下一个 token。训练时最小化预测 token 与真实 token 之间的交叉熵损失。推理时,根据当前上下文生成下一个词,迭代直至结束符。
训练数据中的社会文化偏见、标注数据的不平衡、模型对历史数据的过度拟合,以及提示词设计不当都可能引发偏见输出。
因果语言建模(Causal LM)使用单向掩码,只允许看到过去信息,用于生成;掩码语言建模(MLM)随机掩盖部分 token,要求模型双向预测上下文,用于理解。
方法包括:检索增强生成(RAG)提供事实依据、增加 RLHF 对齐训练、引入思维链(CoT)推理、设置置信度阈值过滤低质量输出。
零样本(Zero-shot)指模型直接根据指令生成回答,无示例;少样本(Few-shot)指在指令前提供少量示例,引导模型模仿格式或逻辑。
常见技术包括 WordPiece(BERT 使用)、Byte Pair Encoding (BPE, GPT 使用)、Unigram Language Model(SentencePiece)。它们旨在将词汇表限制在合理大小同时覆盖罕见词。
常用指标包括困惑度(Perplexity)、BLEU/ROUGE(文本生成)、Human Eval(代码能力)、MMLU(常识与知识)、以及人工评估对齐度与安全性。
可通过惩罚重复 n-gram、调整采样策略(如 Top-k/Top-p)、使用重复惩罚参数(repetition_penalty)或在解码阶段检测循环模式。
基于自注意力机制(Self-Attention)替代 RNN/CNN,实现并行计算。包含多头注意力、前馈神经网络、残差连接与层归一化,支持处理变长序列。
多头注意力允许模型在不同表示子空间中联合关注不同位置的信息,增强了模型的表达能力,使其能捕捉多种类型的依赖关系。
需要。Transformer 本身是排列不变的(Permutation Invariant),位置编码(Positional Encoding)用于注入序列顺序信息,使模型区分词序。
可以。在不同的 Attention Head 中,或者在不同的层中,同一个词对不同位置的词会有不同的注意力权重,取决于上下文语义。
WordPiece 基于最大似然估计合并子词,倾向于保留完整单词;BPE 基于频率统计迭代合并最常见字符对。两者目标相似,但合并策略略有不同。
包括温度系数(Temperature)、Top-k 采样、Top-p(Nucleus)采样、束搜索(Beam Search)、重复惩罚及约束解码。
参数总量 = 输入维度 * 隐藏层维度 + 隐藏层维度 * 前馈维度 + ... 具体为各层矩阵权重的总和。GPT-3 有 96 层,每层 12288 维,总参数量约为 175B。
Temperature 控制输出分布的平滑度;Top-k 限制候选词范围;Top-p 动态选择累积概率达到 p 的最小词集。Temperature 影响整体随机性,后两者影响局部选择。
LayerNorm 独立于 batch size,对每个样本单独归一化,更适合 NLP 任务中变长序列和小批量训练;BatchNorm 依赖 batch statistics,易受序列长度变化影响。
Pre-LN 在残差连接前归一化,训练更稳定,收敛更快;Post-LN 在残差连接后归一化,早期论文常用,但在深层网络中可能不稳定。
Chain-of-Thought Prompting,通过在问题后添加'让我们一步步思考'等引导,促使模型生成中间推理步骤,提升复杂逻辑任务的表现。
数学推理、逻辑谜题、科学问答、代码调试等需要多步推导的任务。简单事实查询通常不需要。
ReAct (Reasoning + Acting) 结合推理与工具调用。优点是能让模型自主决定何时推理、何时调用外部工具(如搜索),提高解决开放域问题的能力。
LangChain Agent 是指利用大模型作为控制器,根据用户请求自动规划并调用一系列工具(Tools)来完成任务的智能体框架。
LlamaIndex、Semantic Kernel、Haystack、AutoGen、Dify 等。各有侧重,如 LlamaIndex 擅长 RAG,AutoGen 侧重多智能体协作。
问题:Token 计数不准确(如中文分词差异)、API 计费不一致。解决:使用官方 tokenizer 库(如 tiktoken),统一前后端计数标准。
数据清洗与去重、分词器训练、预训练(Masked/Autoregressive)、继续预训练(Domain Adaptation)、指令微调(SFT)。
SFT 仅模仿人类指令格式,RLHF 通过奖励模型(Reward Model)对齐人类偏好(有用性、无害性、诚实性),使模型更符合人类价值观。
LoRA(低秩适应)、Prefix Tuning、Prompt Tuning、P-Tuning、Adapter Layers。旨在冻结主参数,仅训练少量新增参数。
LoRA 通过低秩分解更新权重,显存占用更低,推理时无额外延迟,且效果接近全量微调,部署更便捷。
Sparse Fine-tuning 指仅更新模型中一小部分参数(如特定层或特定神经元),其余保持冻结,以节省计算资源并减少灾难性遗忘。
PTQ 在训练完成后直接量化,速度快但精度损失大;QAT 在训练过程中模拟量化误差,精度更高但需重新训练。
权重量化针对静态参数,可离线进行;激活量化针对动态中间值,需在线校准。混合量化(Weight-Activation Quantization)常结合使用。
AWQ (Activation-aware Weight Quantization) 识别对激活敏感的权重通道,保护这些通道不被过度量化,从而在低比特下保持精度。
GPipe 是一种流水线并行框架,将模型层切分到不同设备上,通过气泡调度减少空闲时间,适用于超大规模模型训练。
将大矩阵按行或列切分,分布在多个 GPU 上。例如 Row-wise 并行计算部分结果,再通过 All-Reduce 聚合,实现分布式矩阵乘法。
PPO 通过截断策略梯度更新,限制新旧策略差异,避免性能崩溃。TRPO 使用共轭梯度法保证单调提升,计算开销大;PPO 近似 TRPO 但更高效。
RAG 在生成前先检索外部知识库,将相关片段作为上下文输入模型,解决知识时效性与幻觉问题,无需重新训练模型。
BGE-M3、Text2Vec、M3E、Embedding-CN 等。需根据场景选择支持长文本或多语言的模型。
模型参数固化了训练时的知识。更新需全量微调或 PEFT,成本高且易导致旧知识遗忘(灾难性遗忘)。
RAG 通过外挂知识库更新知识,成本低、实时性强;微调修改模型内部参数,适合改变风格或特定领域逻辑,成本高。
基准包括 MMLU(学科知识)、GSM8K(数学)、HumanEval(代码)、BIG-Bench(综合)。评测方法含自动化打分与人工评估。
KVCache 缓存 Key 和 Value 矩阵,避免每次生成新 token 时重复计算历史 token 的注意力。实现上分配固定显存存储历史状态,逐层追加。
DeepSpeed-Inference 融合 Attention、LayerNorm、Softmax 等算子,减少内核启动开销与显存访问,显著提升吞吐量。
FlashAttention 通过分块计算(Tiling)与 IO 感知优化,减少 HBM 读写次数,在不降低精度的前提下加速 Attention 计算。
MHA(Multi-Head)每个头独立 Query/Key/Value;GQA(Grouped-Query)多 Query 共享一组 KV;MQA(Multi-Query)所有 Query 共享一组 KV。后者显存占用更小,推理更快。
ZeRO (Zero Redundancy Optimizer) 将优化器状态、梯度、参数切分存储在不同设备,大幅降低显存占用,支持更大模型训练。
PagedAttention 借鉴操作系统分页机制,管理 KV Cache 的非连续内存,解决显存碎片化问题,提升显存利用率与并发处理能力。
Speculative Decoding,用小模型快速生成草稿,大模型验证。例如小模型生成 5 个 token,大模型并行校验,减少大模型推理次数,加速生成。
掌握上述知识点有助于构建扎实的大模型技术栈。建议结合实际项目持续练习,关注社区最新进展,保持技术敏感度。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online