跳到主要内容大模型核心面试问题与解析:100 道高频考点梳理 | 极客日志PythonAI算法
大模型核心面试问题与解析:100 道高频考点梳理
涵盖大模型架构、训练微调、推理优化及 RAG 等核心知识点。整理 100 道高频面试题,包含 ReAct、LangChain、LoRA、量化技术、注意力机制变体及位置编码等内容,提供简明技术解析,帮助求职者系统掌握大模型领域关键概念与工程实践。
日志猎手1 浏览 大模型核心面试问题与解析
一、基础架构与原理
Q: 请简述下 Transformer 基本原理
Transformer 是一种基于自注意力机制(Self-Attention)的序列转导模型。它摒弃了传统的循环和卷积结构,通过多头注意力机制并行处理序列数据,利用位置编码注入顺序信息,包含 Encoder 和 Decoder 堆叠层,每层由多头注意力和前馈神经网络组成。
Q: 为什么 Transformer 的架构需要多头注意力机制?
多头注意力允许模型在不同的表示子空间中同时关注不同位置的信息。这增强了模型捕捉复杂依赖关系的能力,例如同时关注语法结构和语义含义,提高了模型的表达能力和泛化性能。
Q: 为什么 transformers 需要位置编码?
由于 Transformer 使用并行计算且没有循环结构,模型本身无法感知 token 的顺序。位置编码将位置信息注入到输入嵌入中,使模型能够区分不同位置的词序,从而理解句子的结构。
Q: transformer 中,同一个词可以有不同的注意力权重吗?
是的。在 Self-Attention 机制中,每个 token 会根据其与序列中其他所有 token 的相关性动态计算权重。同一个词在不同位置或作为 Query 时,其注意力分布会随上下文变化。
Q: Wordpiece 与 BPE 之间的区别是什么?
Wordpiece 是 Google 提出的分词方法,倾向于将未登录词拆分为有意义的子词单元;BPE(Byte Pair Encoding)是一种迭代合并频率最高的字节对的分词算法。两者都用于处理 OOV 问题,但合并策略和切分粒度略有不同。
Q: 什么是绝对位置编码?什么是相对位置编码?
绝对位置编码为序列中的每个位置添加固定的向量偏移;相对位置编码则关注 token 之间的距离关系而非绝对位置。RoPE(旋转位置编码)是相对位置编码的一种改进,能更好地支持外推。
Q: 什么是长度外推问题?解决方法有哪些?
长度外推指模型在训练长度之外进行推理时性能下降的问题。解决方法包括 ALiBi(线性偏置)、RoPE(旋转位置编码)以及插值技术(如 NTK-aware scaling)。
Q: GPT 和 BERT 的区别是什么?
GPT 是单向因果语言模型(Decoder-only),适合生成任务;BERT 是双向掩码语言模型(Encoder-only),适合理解任务。GPT 只能看到当前及之前的 token,BERT 可以看到上下文两侧的信息。
Q: 为什么现在的大模型大多是 decoder-only 的架构?
Decoder-only 架构更易于扩展参数规模,推理效率更高,且在预训练阶段只需预测下一个 token,数据利用率高,更适合大规模无监督预训练和后续指令微调。
Q: 讲一下生成式语言模型的工作机理?
生成式语言模型基于概率分布,根据输入的上下文序列预测下一个 token 的概率分布,采样后追加到输入中,循环迭代直至生成结束符,从而生成连贯的文本序列。
Q: LLMs 各模型分别用了哪种 Layer normalization?
不同模型选择不同。例如 BERT 使用 Post-LayerNorm,而 GPT-2 及后续许多模型倾向于 Pre-LayerNorm 以改善训练稳定性。LLaMA 系列使用了 RMSNorm 替代标准 LayerNorm。
Q: Layer Norm 的计算公式写一下?RMS Norm 呢?
LayerNorm 公式:$y = \frac{x - \mu}{\sigma} \cdot \gamma + \beta$。RMSNorm 去除了均值减法和偏置项,公式为:$y = x \cdot \frac{\gamma}{\sqrt{E[x^2]}}$,计算更高效。
Q: Deep Norm 思路?有什么优点?
DeepNorm 是一种残差连接初始化方案,通过调整残差连接的缩放比例来稳定深层网络的训练。优点是允许训练极深的网络而不出现梯度消失或爆炸。
Q: 介绍一下 FFN 块计算公式?GeLU?Swish?
FFN 通常包含两个线性变换和一个激活函数。GeLU 是 $x \cdot \Phi(x)$,近似高斯累积分布;Swish 是 $x \cdot \text{sigmoid}(\beta x)$。GLU 变体引入门控机制,如 $FFN(x) = (W_1 x) \otimes \text{SiLU}(W_2 x)$。
二、训练与微调技术
Q: LLM 预训练阶段有哪几个关键步骤?
主要包括数据清洗与构建、Tokenization、模型架构设计、分布式训练优化(如 ZeRO)、损失函数计算(Next Token Prediction)以及超参数调优。
Q: RLHF 模型为什么会表现比 SFT 更好?
SFT(监督微调)仅模仿人类标注数据,而 RLHF(人类反馈强化学习)引入了奖励模型,通过 PPO 等算法优化策略,使模型输出更符合人类偏好,减少有害内容并提升有用性。
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
- Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
Q: 参数高效的微调(PEFT)有哪些方法?
常见方法包括 LoRA(低秩适应)、Prefix Tuning、P-Tuning、Adapter Layers 等。它们冻结主模型参数,仅训练少量额外参数,降低显存和计算成本。
Q: LORA 微调相比于微调适配器或前缀微调有什么优势?
LoRA 通过低秩矩阵分解更新权重,实现零显存开销增加(相对于全量微调),推理时无需合并权重即可生效,部署灵活且效果接近全量微调。
Q: 你了解过什么是稀疏微调吗?
稀疏微调指仅更新模型中部分参数(如特定层或特定神经元),其余参数保持冻结。这有助于减少计算量并防止灾难性遗忘,适用于特定领域适配。
Q: 训练后量化(PTQ)和量化感知训练(QAT)有什么区别?
PTQ 在训练完成后直接量化权重,速度快但精度损失可能较大;QAT 在训练过程中模拟量化噪声,能更好地校准量化参数,精度更高但需重新训练。
Q: LLMs 中,量化权重和量化激活的区别是什么?
权重量化针对静态参数,可离线完成;激活量化针对动态中间结果,需在线校准。混合量化(如 AWQ)常结合两者以平衡速度与精度。
Q: AWQ 量化的步骤是什么?
AWQ(Activation-aware Weight Quantization)首先识别对输出影响大的通道(敏感通道),保护这些通道的权重不被过度量化,然后对非敏感通道进行低比特量化。
Q: 如何解决人工产生的偏好数据集成本较高,很难量产问题?
可采用合成数据生成、自动评分模型筛选、或者利用现有高质量数据进行蒸馏,减少对昂贵人工标注的依赖。
Q: 如何解决三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢问题?
可简化流程,例如使用 DPO(Direct Preference Optimization)替代 PPO,无需单独训练奖励模型,直接优化策略,显著降低训练成本和复杂度。
Q: 如何解决 PPO 的训练过程中同时存在 4 个模型,对计算资源的要求较高问题?
可使用共享骨干网络、梯度检查点、ZeRO 优化器压缩显存,或采用单模型偏好优化算法(如 DPO)减少模型数量。
Q: 预训练数据 Token 重复是否影响模型性能?
适度的重复有助于模型巩固知识,但过度重复会导致过拟合,降低泛化能力。通常需要进行去重处理以保证数据多样性。
Q: 如何给 LLM 注入领域知识?
可通过领域数据继续预训练、SFT 微调、RAG(检索增强生成)外挂知识库,或使用 PEFT 技术低成本适配特定垂直领域。
三、推理与优化
Q: 什么是 Kv cache 技术,它具体是如何实现的?
KV Cache 缓存已生成 token 的 Key 和 Value 矩阵,避免重复计算。实现上通常在解码阶段保存每一层的 KV 状态,新 token 仅需计算当前的 Q 并与缓存的 KV 做注意力。
Q: 请简述一下 FlashAttention 的原理
FlashAttention 通过 I/O 感知算法,将注意力计算分块存储在片上内存(SRAM)中,减少 HBM 读写次数,加速计算并降低显存占用,同时保证数值精确性。
Q: MHA、GQA、MQA 三种注意力机制的区别是什么?
MHA(Multi-Head Attention)每个头独立查询键值;GQA(Grouped-Query Attention)多个头共享一组 KV;MQA(Multi-Query Attention)所有头共享一组 KV。GQA/MQA 减少 KV Cache 显存占用,提升推理速度。
Q: Paged Attention 的原理是什么,解决了 LLM 中的什么问题?
Paged Attention 借鉴操作系统分页管理思想,将 KV Cache 分散存储在不连续的显存块中,解决显存碎片化问题,显著提升连续批处理(Continuous Batching)的效率。
Q: DeepSpeed 推理对算子融合做了哪些优化?
DeepSpeed 将多个小算子(如 Linear+Bias+Activation)融合为大算子,减少内核启动开销和显存访问,提升 GPU 利用率。
Q: 大模型推理时显存涨的那么多还一直占着?
主要因为 KV Cache 随生成长度线性增长,以及 Batch Size 带来的中间状态。此外,某些框架未释放临时显存也会导致残留。
Q: 大模型在 gpu 和 cpu 上推理速度如何?
GPU 凭借高并行度和大带宽,推理速度远快于 CPU。CPU 通常仅用于极低延迟要求不高的场景或边缘设备。
Q: 推理速度上,int8 和 fp16 比起来怎么样?
int8 量化后计算速度更快,显存占用减半,但需配合量化感知或校准以保证精度。fp16 精度更高但速度较慢。实际取决于硬件支持(如 Tensor Core)。
Q: 有哪些省内存的大语言模型训练/微调/推理方法?
包括梯度检查点、ZeRO 优化器、LoRA 微调、模型量化(INT8/FP4)、Paged Attention 以及 Offloading(将部分层卸载至 CPU/磁盘)。
Q: llama 输入句子长度理论上可以无限长吗?
不能。受限于位置编码范围、显存容量(KV Cache)及计算复杂度(O(N^2))。虽然 RoPE 支持一定外推,但超长文本仍需切片或压缩。
Q: 如何让大模型处理更长的文本?
使用滑动窗口注意力、稀疏注意力机制、位置外推技术(NTK/RoPE),或采用 RAG 将长文档切片检索相关片段喂给模型。
Q: 投机采样技术,请举例说明?
投机采样(Speculative Sampling)利用一个小模型快速生成候选 token,再由大模型验证。若验证通过则接受,否则回退。可加速推理过程。
Q: 温度系数和 top-p、top-k 参数有什么区别?
Temperature 控制输出随机性;Top-K 限制从概率最高的 K 个词中采样;Top-P(核采样)限制从累积概率达 P 的词集中采样。三者常组合使用调节生成风格。
Q: 大模型生成时的参数怎么设置?
通常 Temperature=0.7~1.0(创造性),Top-P=0.9,Top-K=50。确定性任务(如代码)可设 Temperature=0。
四、应用与框架
Q: 你了解 ReAct 吗,它有什么优点?
ReAct(Reasoning + Acting)结合推理链和行动调用。优点是能让模型自主规划步骤,调用工具解决问题,增强复杂任务的执行能力。
Q: 解释一下 langchain Agent 的概念
LangChain Agent 是连接 LLM 与外部工具的组件。LLM 根据用户请求决定调用哪个工具(如搜索、计算器),并将结果反馈给自身生成最终回答。
Q: langchain 有哪些替代方案?
包括 AutoGen、LlamaIndex、Semantic Kernel、Haystack 等。它们提供类似的编排、记忆和工具调用能力。
Q: langchain token 计数有什么问题?如何解决?
Token 计数依赖于分词器,不同模型计数不一致。解决方案是使用统一的分词库(如 tiktoken)或 API 提供的准确计数接口。
Q: 什么是检索增强生成(RAG)?
RAG 通过检索外部知识库获取相关信息,将其作为上下文输入 LLM,增强模型回答的事实准确性,解决知识截止和幻觉问题。
Q: 目前主流的中文向量模型有哪些?
包括 BGE-M3、M3E、Text2Vec-Chinese 等。它们针对中文语境优化,支持多粒度检索。
Q: RAG 和微调的区别是什么?
RAG 通过外挂知识库更新信息,成本低、时效性强;微调修改模型内部参数,擅长风格迁移和特定逻辑,但更新知识成本高。
Q: 大模型一般评测方法及其准是什么?
常用基准包括 MMLU、C-Eval、HumanEval 等。指标涵盖准确率、BLEU、ROUGE 及人工评估维度(有用性、安全性)。
Q: 如何减轻 LLM 中的'幻觉'现象?
采用 RAG 约束事实来源、提示工程要求引用依据、微调加入拒答机制、以及使用自我反思(Self-Reflection)技术。
Q: 解释 ChatGPT 的'零样本'和'少样本'学习的概念
零样本(Zero-shot)指不给示例直接让模型完成任务;少样本(Few-shot)指提供少量示例引导模型遵循模式。后者通常效果更好。
Q: 你了解大型语言模型中的哪些分词技术?
包括 BPE、WordPiece、Unigram、SentencePiece 等。它们将文本切分为子词单元,平衡词汇表大小与覆盖率。
Q: 如何评估大语言模型(LLMs)的性能?
通过标准化 Benchmark(如 MMLU)、人工打分、自动化测试集(如 GSM8K)以及业务场景 A/B 测试综合评估。
Q: 如何缓解 LLMs 复读机问题?
复读机指模型重复相同短语。可通过设置最大重复次数、调整 Top-P、使用惩罚参数(Repetition Penalty)或在 Prompt 中强调多样性来解决。
Q: 哪些因素会导致 LLM 中的偏见?
训练数据中的社会刻板印象、标注者主观倾向、数据分布不均等都会导致模型输出带有性别、种族或文化偏见。
Q: LLM 中的因果语言建模与掩码语言建模有什么区别?
因果 LM(如 GPT)只预测未来 token;掩码 LM(如 BERT)随机掩盖部分 token 预测被掩盖内容。前者适合生成,后者适合理解。
Q: prefix LM 和 causal LM 区别是什么?
Prefix LM 允许模型关注左侧前缀和部分右侧信息(如 T5),Causal LM 严格只能看左侧。Prefix 更适合填槽或翻译任务。
Q: 涌现能力是啥原因?
涌现指模型规模超过阈值后突然展现出的未明确训练的能力(如推理、编程)。原因尚不明确,可能与参数规模和训练数据量的非线性关系有关。
Q: 大模型 LLM 的架构介绍?
主流为 Transformer Decoder-only 架构,包含 Embedding、Positional Encoding、多层 Attention+FFN、LayerNorm 及 Head 层。
Q: 什么是 LLMs 复读机问题?为什么会出现?
复读机指模型陷入局部循环重复输出。原因包括采样策略不当、概率分布峰值过高或上下文干扰。
Q: 各个专长领域是否需要各自的大模型来服务?
通用模型可覆盖多数场景,但垂直领域(医疗、法律)专用模型在专业术语和逻辑上表现更佳,通常采用通用基座 + 领域微调模式。
Q: 如何让大模型输出台规化?
通过 Few-shot 示例、JSON Schema 约束、系统提示词强制格式要求,或使用 Function Calling 规范输出结构。
Q: 应用模式变更
随着技术发展,应用模式从简单的问答转向 Agent 自主执行、多模态交互及端侧部署。
Q: 大模型怎么评测?
建立多维评测体系,包括知识问答、逻辑推理、代码生成、安全合规等,结合自动化脚本与人工复核。
Q: 大模型的 honest 原则是如何实现的?
通过在 RLHF 阶段加入诚实性奖励信号,训练模型承认未知,拒绝编造事实,并在 Prompt 中设定诚实准则。
Q: 模型如何判断回答的知识是训练过的已知的知识,怎么训练这种能力?
模型本身难以精确区分。通常通过 RAG 辅助判断,或在微调时加入'不知道'类样本,训练模型在置信度低时拒答。
Q: 奖励模型需要和基础模型一致吗?
通常奖励模型是基础模型的微调版本或独立训练的小模型,结构可相似但不必完全一致,重点在于对齐人类偏好。
Q: RLHF 在实践过程中存在哪些不足?
成本高、训练不稳定、奖励黑客(Reward Hacking)风险、以及可能抑制模型创造力。
Q: 如果想要快速检验各种模型,该怎么办?
使用轻量级评测框架(如 lm-evaluation-harness),在标准数据集上批量运行,对比得分快速筛选。
Q: 什么情况下用 Bert 模型,什么情况下用 Llama、ChatGLM 类大模型,咋选?
Bert 适合短文本分类、抽取等理解任务;Llama/ChatGLM 适合对话、生成、长文本理解。根据任务类型和算力资源选择。
Q: 大模型有推理能力吗?
具备初步的逻辑推理能力,尤其在 CoT(思维链)提示下能展示多步推理,但仍不如符号系统精确,易出错。
Q: 什么是思维链(CoT)提示?你觉得什么样的任务适合?
CoT 要求模型展示推理步骤。适合数学计算、逻辑推理、复杂规划等需要多步推导的任务。
Q: 目前主流的开源模型体系有哪些?
包括 LLaMA 系列、Qwen、ChatGLM、Baichuan、Falcon 等。各有侧重,如 Qwen 中文强,LLaMA 生态广。
Q: 介绍一下微软的 ZeRO 优化器
ZeRO(Zero Redundancy Optimizer)将优化器状态、梯度和参数分片存储在不同 GPU 上,大幅降低显存占用,支持更大模型训练。
Q: 简述一下 TPPO 算法流程,它跟 TRPO 的区别是什么?
TPPO 是 Trust Region Policy Optimization 的变体。TRPO 使用复杂的共轭梯度法约束策略更新,TPPO 简化了约束计算,更易于实现。
Q: 介绍一下 GPipe 推理框架
GPipe 主要用于训练时的流水线并行,将模型层切分到不同设备。推理中类似技术包括 Tensor Parallelism。
Q: 矩阵乘法如何做数量并行?
通常指张量并行(Tensor Parallelism),将矩阵运算拆分到多个 GPU,每个 GPU 计算一部分结果再聚合,加速大矩阵乘法。
Q: 什么是投机采样技术,请举例说明?
见上文。例如用小模型生成 3 个 token,大模型验证,若全部匹配则一次性接受,节省大模型计算。
Q: 讲一下 GPT 系列模型的是如何演进的?
从 GPT-1(单层 Transformer)到 GPT-2(增大规模),再到 GPT-3(千亿参数),GPT-3.5/4 引入指令微调、RLHF 及多模态能力。
Q: 为什么 Transformer 块使用 LayerNorm 而不是 BatchNorm?
BatchNorm 依赖 Batch 统计量,对小 Batch 或推理时不稳定;LayerNorm 基于单个样本特征维度,更适合 NLP 序列任务。
Q: 介绍一下 post layer norm 和 pre layer norm 的区别
Post-LN 在残差连接后归一化,训练初期不稳定;Pre-LN 在残差连接前归一化,训练更稳定,利于深层网络收敛。
Q: 旋转位置编码 RoPE 思路是什么?有什么优点?
RoPE 通过旋转矩阵将位置信息融入向量内积。优点是对长度外推友好,支持相对位置表达,且计算高效。
Q: ALiBi 思路是什么?有什么作用?
ALiBi 在注意力分数上加线性偏置,距离越远偏置越大。作用是无需位置编码即可支持长度外推,训练与推理长度可分离。
Q: 大模型在 gpu 和 cpu 上推理速度如何?
GPU 快得多。CPU 适合低功耗场景,但吞吐量低。
Q: 推理速度上,int8 和 fp16 比起来怎么样?
int8 更快,显存更小,精度略损。需硬件支持 INT8 指令集。
Q: 有哪些省内存的大语言模型训练/微调/推理方法?
见上文。ZeRO, LoRA, Quantization, Offloading.
Q: 如何让大模型输出台规化
Prompt 约束 + JSON Mode + 校验逻辑。
Q: 应用模式变更
从 API 调用向本地部署、Agent 自治演进。
Q: 大模型怎么评测?
Benchmark + 人工 + 业务指标。
Q: 大模型的 honest 原则是如何实现的?
RLHF 奖励 + 拒答训练。
Q: 模型如何判断回答的知识是训练过的已知的知识,怎么训练这种能力?
RAG 辅助 + 置信度阈值训练。
Q: 奖励模型需要和基础模型一致吗?
结构可不同,目标一致。
Q: RLHF 在实践过程中存在哪些不足?
成本、稳定性、对抗攻击。
Q: 如何解决人工产生的偏好数据集成本较高,很难量产问题?
合成数据 + 自动筛选。
Q: 如何解决三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢问题?
DPO 替代 PPO。
Q: 如何解决 PPO 的训练过程中同时存在 4 个模型,对计算资源的要求较高问题?
共享骨干 + 梯度检查点。
Q: 如何给 LLM 注入领域知识?
继续预训练 + 微调 + RAG。
Q: 如果想要快速检验各种模型,该怎么办?
自动化评测框架。
Q: 预训练数据 Token 重复是否影响模型性能?
适度有益,过多有害。
Q: 什么是位置编码?什么是绝对位置编码?什么是相对位置编码?
见上文。
Q: 旋转位置编码 RoPE 思路是什么?旋转位置编码 RoPE 有什么优点?
见上文。
Q: 什么是长度外推问题?长度外推问题的解决方法有哪些?
见上文。
Q: ALiBi(Attention with Linear Biases)思路是什么?ALiBi 的偏置矩阵是什么?有什么作用?ALiBi 有什么优点?
见上文。
Q: Layer Norm 的计算公式写一下?RMS Norm 的计算公式写一下?RMS Norm 相比于 Layer Norm 有什么特点?
见上文。
Q: Deep Norm 思路?写一下 Deep Norm 代码实现?Deep Norm 有什么优点?
见上文。代码涉及残差缩放因子调整。
Q: LN 在 LLMs 中的不同位置有什么区别么?如果有,能介绍一下区别么?
Pre-LN 优于 Post-LN,利于深层训练。
Q: LLMs 各模型分别用了哪种 Layer normalization?
BERT(Pre), GPT(Post), LLaMA(RMSNorm).
Q: 介绍一下 FFN 块计算公式?介绍一下 GeLU 计算公式?介绍一下 Swish 计算公式?介绍一下使用 GLU 线性门控单元的 FFN 块计算公式?介绍一下使用 GeLU 的 GLU 块计算公式?介绍一下使用 Swish 的 GLU 块计算公式?
见上文。
Q: 简述 GPT 和 BERT 的区别
见上文。
Q: 讲一下 GPT 系列模型的是如何演进的?
见上文。
Q: 为什么现在的大模型大多是 decoder-only 的架构?
见上文。
Q: 哪些因素会导致 LLM 中的偏见?
见上文。
Q: LLM 中的因果语言建模与掩码语言建模有什么区别?
见上文。
Q: 如何减轻 LLM 中的'幻觉'现象?
见上文。
Q: 解释 ChatGPT 的'零样本'和'少样本'学习的概念
见上文。
Q: 你了解大型语言模型中的哪些分词技术?
见上文。
Q: 如何评估大语言模型(LLMs)的性能?
见上文。
Q: 请简述下 Transformer 基本原理
见上文。
Q: 为什么 Transformer 的架构需要多头注意力机制?
见上文。
Q: 为什么 transformes 需要位置编码?
见上文。
Q: transformer 中,同一个词可以有不同的注意力权重吗?
见上文。
Q: Wordpiece 与 BPE 之间的区别是什么?
见上文。
Q: 有哪些常见的优化 LLMs 输出的技术?
Temperature, Top-P, Repetition Penalty, Beam Search.
Q: GPT-3 拥有的 1750 亿参数,是怎么算出来的?
基于模型架构层数、隐藏层维度、头数等参数量累加得出。
Q: 温度系数和 top-p、top-k 参数有什么区别?
见上文。
Q: 为什么 transformer 块使用 LayerNorm 而不是 BatchNorm?
见上文。
Q: 介绍一下 post layer norm 和 pre layer norm 的区别
见上文。
Q: 什么是思维链(CoT)提示?你觉得什么样的任务或领域适合用思维链提示?
见上文。
Q: prefix LM 和 causal LM 区别是什么?
见上文。
Q: 为什么会出现 LLMs 复读机问题?
见上文。
Q: llama 输入句子长度理论上可以无限长吗?
见上文。
Q: 什么情况下用 Bert 模型,什么情况下用 Llama、ChatGLM 类大模型,咋选?
见上文。
Q: 各个专长领域是否需要各自的大模型来服务?
见上文。
Q: 为什么大模型推理时显存涨的那么多还一直占着?
见上文。
Q: 大模型在 gpu 和 cpu 上推理速度如何?
见上文。
Q: 推理速度上,int8 和 fp16 比起来怎么样?
见上文。
Q: 有哪些省内存的大语言模型训练/微调/推理方法?
见上文。
Q: 大模型的 honest 原则是如何实现的?
见上文。
Q: 模型如何判断回答的知识是训练过的已知的知识,怎么训练这种能力?
见上文。
Q: RLHF 在实践过程中存在哪些不足?
见上文。
Q: 如何解决人工产生的偏好数据集成本较高,很难量产问题?
见上文。
Q: 如何解决三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢问题?
见上文。
Q: 如何解决 PPO 的训练过程中同时存在 4 个模型(2 训练,2 推理),对计算资源的要求较高问题?
见上文。
Q: 如果想要快速检验各种模型,该怎么办?
见上文。
Q: 预训练数据 Token 重复是否影响模型性能?
见上文。
Q: 旋转位置编码 RoPE 思路是什么?
见上文。
Q: 旋转位置编码 RoPE 有什么优点?
见上文。
Q: ALiBi(Attention with Linear Biases)思路是什么?
见上文。
Q: ALiBi(Attention with Linear Biases)的偏置矩阵是什么?有什么作用?
见上文。
Q: ALiBi(Attention with Linear Biases)有什么优点?
见上文。
Q: Layer Norm 的计算公式写一下?
见上文。
Q: RMS Norm 的计算公式写一下?
见上文。
Q: RMS Norm 相比于 Layer Norm 有什么特点?
见上文。
Q: 写一下 Deep Norm 代码实现?
见上文。
Q: LN 在 LLMs 中的不同位置有什么区别么?如果有,能介绍一下区别么?
见上文。
Q: LLMs 各模型分别用了哪种 Layer normalization?
见上文。
Q: 介绍一下使用 GLU 线性门控单元的 FFN 块计算公式?
见上文。
Q: 介绍一下使用 GeLU 的 GLU 块计算公式?
见上文。
Q: 介绍一下使用 Swish 的 GLU 块计算公式?
见上文。
本文整理自行业高频面试题,旨在帮助开发者系统复习大模型核心技术栈。建议结合实际项目经验深入理解上述概念。