跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

2024 年 AI 大模型面试题集锦:大厂精选与答案全解析

综述由AI生成AI 大模型面试题涵盖了从基础架构到前沿优化的全方位内容。 50 道高频真题,包括 GPT 与 BERT 区别、Transformer 原理、注意力机制变体、微调方法如 LoRA、量化技术、推理优化及 RAG 等核心知识点。通过系统梳理这些问题的标准答案,帮助求职者深入理解大模型底层逻辑与工程实践,提升面试通过率与技术储备。

日志猎手发布于 2025/2/7更新于 2026/6/317 浏览
2024 年 AI 大模型面试题集锦:大厂精选与答案全解析

2024 年 AI 大模型面试题集锦

引言

随着人工智能技术的快速发展,大模型已成为行业核心关注点。本文整理了涵盖基础理论、架构演进、微调优化及工程实践的高频面试题,旨在帮助求职者系统梳理知识体系,深入理解技术细节。

高频面试题与解析

1. 简述 GPT 和 BERT 的区别

GPT(Generative Pre-trained Transformer)采用 Decoder-only 架构,基于自回归方式生成文本,适合生成任务;BERT(Bidirectional Encoder Representations from Transformers)采用 Encoder-only 架构,双向掩码建模,适合理解类任务如分类、抽取。

2. 讲一下 GPT 系列模型是如何演进的?

从 GPT-1 到 GPT-3.5/4,主要演进包括:参数量指数级增长、预训练数据规模扩大、引入更多指令微调(Instruction Tuning)、强化人类反馈(RLHF)以提升对齐性,以及多模态能力的集成。

3. 为什么现在的大模型大多是 decoder-only 的架构?

Decoder-only 架构更易于并行化训练(相比 RNN),且通过自注意力机制能更好地捕捉长距离依赖。在生成式任务中,单向因果掩码符合自然语言生成的顺序特性,扩展性更好。

4. 讲一下生成式语言模型的工作机理

模型接收输入序列,通过概率分布预测下一个 token。训练时最小化预测 token 与真实 token 之间的交叉熵损失。推理时,根据当前上下文生成下一个词,迭代直至结束符。

5. 哪些因素会导致 LLM 的偏见?

训练数据中的社会文化偏见、标注数据的不平衡、模型对历史数据的过度拟合,以及提示词设计不当都可能引发偏见输出。

6. LLM 中的因果语言建模与掩码语言建模有什么区别?

因果语言建模(Causal LM)使用单向掩码,只允许看到过去信息,用于生成;掩码语言建模(MLM)随机掩盖部分 token,要求模型双向预测上下文,用于理解。

7. 如何减轻 LLM 中的幻觉现象?

方法包括:检索增强生成(RAG)提供事实依据、增加 RLHF 对齐训练、引入思维链(CoT)推理、设置置信度阈值过滤低质量输出。

8. 解释 ChatGPT 的零样本和少样本学习的概念

零样本(Zero-shot)指模型直接根据指令生成回答,无示例;少样本(Few-shot)指在指令前提供少量示例,引导模型模仿格式或逻辑。

9. 你了解大型语言模型中的哪些分词技术?

常见技术包括 WordPiece(BERT 使用)、Byte Pair Encoding (BPE, GPT 使用)、Unigram Language Model(SentencePiece)。它们旨在将词汇表限制在合理大小同时覆盖罕见词。

10. 如何评估大语言模型(LLMs)的性能?

常用指标包括困惑度(Perplexity)、BLEU/ROUGE(文本生成)、Human Eval(代码能力)、MMLU(常识与知识)、以及人工评估对齐度与安全性。

11. 如何缓解 LLMs 重复读问题?

可通过惩罚重复 n-gram、调整采样策略(如 Top-k/Top-p)、使用重复惩罚参数(repetition_penalty)或在解码阶段检测循环模式。

12. 请简述 Transformer 基本原理

基于自注意力机制(Self-Attention)替代 RNN/CNN,实现并行计算。包含多头注意力、前馈神经网络、残差连接与层归一化,支持处理变长序列。

13. 为什么 Transformer 的架构需要多头注意力机制?

多头注意力允许模型在不同表示子空间中联合关注不同位置的信息,增强了模型的表达能力,使其能捕捉多种类型的依赖关系。

14. transformers 需要位置编码吗?

需要。Transformer 本身是排列不变的(Permutation Invariant),位置编码(Positional Encoding)用于注入序列顺序信息,使模型区分词序。

15. transformer 中,同一个词可以有不同的注意力权重吗?

可以。在不同的 Attention Head 中,或者在不同的层中,同一个词对不同位置的词会有不同的注意力权重,取决于上下文语义。

16. Wordpiece 与 BPE 之间的区别是什么?

WordPiece 基于最大似然估计合并子词,倾向于保留完整单词;BPE 基于频率统计迭代合并最常见字符对。两者目标相似,但合并策略略有不同。

17. 有哪些常见的优化 LLMs 输出的技术?

包括温度系数(Temperature)、Top-k 采样、Top-p(Nucleus)采样、束搜索(Beam Search)、重复惩罚及约束解码。

18. GPT-3 拥有的 1750 亿参数,是怎么算出来的?

参数总量 = 输入维度 * 隐藏层维度 + 隐藏层维度 * 前馈维度 + ... 具体为各层矩阵权重的总和。GPT-3 有 96 层,每层 12288 维,总参数量约为 175B。

19. 温度系数和 top-p,top-k 参数有什么区别?

Temperature 控制输出分布的平滑度;Top-k 限制候选词范围;Top-p 动态选择累积概率达到 p 的最小词集。Temperature 影响整体随机性,后两者影响局部选择。

20. 为什么 transformer 块使用 LayerNorm 而不是 BatchNorm?

LayerNorm 独立于 batch size,对每个样本单独归一化,更适合 NLP 任务中变长序列和小批量训练;BatchNorm 依赖 batch statistics,易受序列长度变化影响。

21. 介绍一下 postlayernorm 和 prelayernorm 的区别

Pre-LN 在残差连接前归一化,训练更稳定,收敛更快;Post-LN 在残差连接后归一化,早期论文常用,但在深层网络中可能不稳定。

22. 什么是思维链(CoT)提示?

Chain-of-Thought Prompting,通过在问题后添加'让我们一步步思考'等引导,促使模型生成中间推理步骤,提升复杂逻辑任务的表现。

23. 你觉得什么样的任务或领域适合用思维链提示?

数学推理、逻辑谜题、科学问答、代码调试等需要多步推导的任务。简单事实查询通常不需要。

24. 你了解 ReAct 吗,它有什么优点?

ReAct (Reasoning + Acting) 结合推理与工具调用。优点是能让模型自主决定何时推理、何时调用外部工具(如搜索),提高解决开放域问题的能力。

25. 解释一下 langchainAgent 的概念

LangChain Agent 是指利用大模型作为控制器,根据用户请求自动规划并调用一系列工具(Tools)来完成任务的智能体框架。

26. langchain 有哪些替代方案?

LlamaIndex、Semantic Kernel、Haystack、AutoGen、Dify 等。各有侧重,如 LlamaIndex 擅长 RAG,AutoGen 侧重多智能体协作。

27. langchaintoken 计数有什么问题?如何解决?

问题:Token 计数不准确(如中文分词差异)、API 计费不一致。解决:使用官方 tokenizer 库(如 tiktoken),统一前后端计数标准。

28. LLM 预训练阶段有哪几个关键步骤?

数据清洗与去重、分词器训练、预训练(Masked/Autoregressive)、继续预训练(Domain Adaptation)、指令微调(SFT)。

29. RLHF 模型为什么会表现比 SFT 更好?

SFT 仅模仿人类指令格式,RLHF 通过奖励模型(Reward Model)对齐人类偏好(有用性、无害性、诚实性),使模型更符合人类价值观。

30. 参数高效的微调(PEFT)有哪些方法?

LoRA(低秩适应)、Prefix Tuning、Prompt Tuning、P-Tuning、Adapter Layers。旨在冻结主参数,仅训练少量新增参数。

31. LORA 微调相比于微调适配器或前缀微调有什么优势?

LoRA 通过低秩分解更新权重,显存占用更低,推理时无额外延迟,且效果接近全量微调,部署更便捷。

32. 有了解过什么是稀疏微调吗?

Sparse Fine-tuning 指仅更新模型中一小部分参数(如特定层或特定神经元),其余保持冻结,以节省计算资源并减少灾难性遗忘。

33. 训练后量化(PTQ)和量化感知训练(QAT)与什么区别?

PTQ 在训练完成后直接量化,速度快但精度损失大;QAT 在训练过程中模拟量化误差,精度更高但需重新训练。

34. LLMs 中,量化权重和量化激活的区别是什么?

权重量化针对静态参数,可离线进行;激活量化针对动态中间值,需在线校准。混合量化(Weight-Activation Quantization)常结合使用。

35. AWQ 量化的步骤是什么?

AWQ (Activation-aware Weight Quantization) 识别对激活敏感的权重通道,保护这些通道不被过度量化,从而在低比特下保持精度。

36. 介绍一下 GPipe 推理框架

GPipe 是一种流水线并行框架,将模型层切分到不同设备上,通过气泡调度减少空闲时间,适用于超大规模模型训练。

37. 矩阵乘法如何做张量并行?

将大矩阵按行或列切分,分布在多个 GPU 上。例如 Row-wise 并行计算部分结果,再通过 All-Reduce 聚合,实现分布式矩阵乘法。

38. 请简述下 PPO 算法流程,它跟 TRPO 的区别是什么?

PPO 通过截断策略梯度更新,限制新旧策略差异,避免性能崩溃。TRPO 使用共轭梯度法保证单调提升,计算开销大;PPO 近似 TRPO 但更高效。

39. 什么是检索增强生成(RAG)?

RAG 在生成前先检索外部知识库,将相关片段作为上下文输入模型,解决知识时效性与幻觉问题,无需重新训练模型。

40. 自前主流的中文向量模型有哪些?

BGE-M3、Text2Vec、M3E、Embedding-CN 等。需根据场景选择支持长文本或多语言的模型。

41. 为什么 LLM 的知识更新很困难?

模型参数固化了训练时的知识。更新需全量微调或 PEFT,成本高且易导致旧知识遗忘(灾难性遗忘)。

42. RAG 和微调的区别是什么?

RAG 通过外挂知识库更新知识,成本低、实时性强;微调修改模型内部参数,适合改变风格或特定领域逻辑,成本高。

43. 大模型一般评测方法及基准是什么?

基准包括 MMLU(学科知识)、GSM8K(数学)、HumanEval(代码)、BIG-Bench(综合)。评测方法含自动化打分与人工评估。

44. 什么是 KVCache 技术,它具体是如何实现的?

KVCache 缓存 Key 和 Value 矩阵,避免每次生成新 token 时重复计算历史 token 的注意力。实现上分配固定显存存储历史状态,逐层追加。

45. DeepSpeed 推理对算子融合做了哪些优化?

DeepSpeed-Inference 融合 Attention、LayerNorm、Softmax 等算子,减少内核启动开销与显存访问,显著提升吞吐量。

46. 简述一下 FlashAttention 的原理

FlashAttention 通过分块计算(Tiling)与 IO 感知优化,减少 HBM 读写次数,在不降低精度的前提下加速 Attention 计算。

47. MHA,GQA,MQA 三种注意力机制的区别是什么?

MHA(Multi-Head)每个头独立 Query/Key/Value;GQA(Grouped-Query)多 Query 共享一组 KV;MQA(Multi-Query)所有 Query 共享一组 KV。后者显存占用更小,推理更快。

48. 请介绍一下微软的 ZeRO 优化器

ZeRO (Zero Redundancy Optimizer) 将优化器状态、梯度、参数切分存储在不同设备,大幅降低显存占用,支持更大模型训练。

49. PagedAttention 的原理是什么,解决了 LLM 中的什么问题?

PagedAttention 借鉴操作系统分页机制,管理 KV Cache 的非连续内存,解决显存碎片化问题,提升显存利用率与并发处理能力。

50. 什么是投机采样技术,请举例说明?

Speculative Decoding,用小模型快速生成草稿,大模型验证。例如小模型生成 5 个 token,大模型并行校验,减少大模型推理次数,加速生成。

结语

掌握上述知识点有助于构建扎实的大模型技术栈。建议结合实际项目持续练习,关注社区最新进展,保持技术敏感度。

目录

  1. 2024 年 AI 大模型面试题集锦
  2. 引言
  3. 高频面试题与解析
  4. 1. 简述 GPT 和 BERT 的区别
  5. 2. 讲一下 GPT 系列模型是如何演进的?
  6. 3. 为什么现在的大模型大多是 decoder-only 的架构?
  7. 4. 讲一下生成式语言模型的工作机理
  8. 5. 哪些因素会导致 LLM 的偏见?
  9. 6. LLM 中的因果语言建模与掩码语言建模有什么区别?
  10. 7. 如何减轻 LLM 中的幻觉现象?
  11. 8. 解释 ChatGPT 的零样本和少样本学习的概念
  12. 9. 你了解大型语言模型中的哪些分词技术?
  13. 10. 如何评估大语言模型(LLMs)的性能?
  14. 11. 如何缓解 LLMs 重复读问题?
  15. 12. 请简述 Transformer 基本原理
  16. 13. 为什么 Transformer 的架构需要多头注意力机制?
  17. 14. transformers 需要位置编码吗?
  18. 15. transformer 中,同一个词可以有不同的注意力权重吗?
  19. 16. Wordpiece 与 BPE 之间的区别是什么?
  20. 17. 有哪些常见的优化 LLMs 输出的技术?
  21. 18. GPT-3 拥有的 1750 亿参数,是怎么算出来的?
  22. 19. 温度系数和 top-p,top-k 参数有什么区别?
  23. 20. 为什么 transformer 块使用 LayerNorm 而不是 BatchNorm?
  24. 21. 介绍一下 postlayernorm 和 prelayernorm 的区别
  25. 22. 什么是思维链(CoT)提示?
  26. 23. 你觉得什么样的任务或领域适合用思维链提示?
  27. 24. 你了解 ReAct 吗,它有什么优点?
  28. 25. 解释一下 langchainAgent 的概念
  29. 26. langchain 有哪些替代方案?
  30. 27. langchaintoken 计数有什么问题?如何解决?
  31. 28. LLM 预训练阶段有哪几个关键步骤?
  32. 29. RLHF 模型为什么会表现比 SFT 更好?
  33. 30. 参数高效的微调(PEFT)有哪些方法?
  34. 31. LORA 微调相比于微调适配器或前缀微调有什么优势?
  35. 32. 有了解过什么是稀疏微调吗?
  36. 33. 训练后量化(PTQ)和量化感知训练(QAT)与什么区别?
  37. 34. LLMs 中,量化权重和量化激活的区别是什么?
  38. 35. AWQ 量化的步骤是什么?
  39. 36. 介绍一下 GPipe 推理框架
  40. 37. 矩阵乘法如何做张量并行?
  41. 38. 请简述下 PPO 算法流程,它跟 TRPO 的区别是什么?
  42. 39. 什么是检索增强生成(RAG)?
  43. 40. 自前主流的中文向量模型有哪些?
  44. 41. 为什么 LLM 的知识更新很困难?
  45. 42. RAG 和微调的区别是什么?
  46. 43. 大模型一般评测方法及基准是什么?
  47. 44. 什么是 KVCache 技术,它具体是如何实现的?
  48. 45. DeepSpeed 推理对算子融合做了哪些优化?
  49. 46. 简述一下 FlashAttention 的原理
  50. 47. MHA,GQA,MQA 三种注意力机制的区别是什么?
  51. 48. 请介绍一下微软的 ZeRO 优化器
  52. 49. PagedAttention 的原理是什么,解决了 LLM 中的什么问题?
  53. 50. 什么是投机采样技术,请举例说明?
  54. 结语
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Python 异步爬虫实战:Playwright 与 aiohttp 爬取科技媒体文章
  • AQS 核心机制与 CountDownLatch 源码解析
  • Spring Boot 集成 ECharts 实现数据可视化实战
  • Spring Boot 日志实战指南:从入门到高级配置
  • AI 产品经理的 5 点核心认知与实践指南
  • 学术论文查重与 AIGC 检测工具评测:Paperzz 功能实测与分析
  • 8 款 Gitee 开源效率工具推荐
  • 大模型学习路径与核心技术指南
  • 数据结构:八种常见排序算法
  • 7 款主流渗透测试框架及其特点分析
  • 平衡二叉搜索树之 AVL 树的模拟实现
  • Python 异步编程与协程实战指南
  • Coze 获取对标行业新闻转视频文案写入飞书多维表实战
  • C++ std::stringstream 详解
  • Java Web 开发基础:Spring Web MVC 核心注解详解
  • Mac 虚拟机搭建 Keil5 STM32 开发环境及 ST-Link 驱动问题排查
  • gsplat 跨平台安装配置指南:Windows/Linux/Mac
  • C++ STL 容器详解:map 与 set 核心用法与底层逻辑
  • Python 属性描述符:从原理到 ORM 实践详解
  • Spatial Joy 2025 全球 AR&AI 赛事:开发者资源、玩法与避坑攻略

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online