跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

AI 大模型面试核心知识点与参考答案

人工智能大模型(LLM)面试的核心问题与解答,涵盖基础架构、微调技术(SFT/PEFT)、LangChain 应用、推理优化、评测标准及硬件配置等关键领域。内容涉及 Transformer 原理、位置编码、归一化方法、分词器机制以及 LoRA、QLoRA 等高效微调策略,旨在帮助开发者系统掌握大模型开发技能与面试要点。

霸天发布于 2025/2/6更新于 2026/5/1319 浏览
AI 大模型面试核心知识点与参考答案

AI 大模型面试核心知识点与参考答案

一、大模型基础

1. 目前主流的开源模型体系有哪些?

目前主流的开源大模型体系包括:

  • Llama 系列:Meta 发布的 Llama、Llama2、Llama3,采用 Transformer Decoder-only 架构。
  • ChatGLM 系列:智谱 AI 推出的 ChatGLM、ChatGLM2、ChatGLM3,支持中英双语。
  • Qwen 系列:阿里云通义千问,如 Qwen、Qwen2、Qwen-Max 等。
  • Baichuan 百川:百川智能推出的开源模型。
  • Falcon:TII 发布的 Falcon 系列,强调推理效率。
  • Mixtral:Mistral AI 推出的 MoE(混合专家)架构模型。

2. Prefix LM 和 Causal LM 区别是什么?

  • Causal LM (因果语言模型):如 GPT 系列。只能看到当前 token 之前的信息,无法看到未来的 token。适用于文本生成任务。
  • Prefix LM (前缀语言模型):允许模型在生成时访问部分上下文或特定前缀,常用于序列标注或特定结构的生成任务。

3. 涌现能力是啥原因?

涌现能力(Emergent Abilities)指随着模型规模增大而突然出现的、小模型不具备的能力(如推理、多步规划)。原因通常认为是参数量和数据量达到临界点后,模型内部表示空间足够复杂,能够自发形成处理复杂任务的机制。

4. 大模型 LLM 的架构介绍?

主流架构基于 Transformer,主要包含:

  • Embedding Layer:词向量映射。
  • Transformer Blocks:由 Self-Attention 和 Feed-Forward Network (FFN) 组成。
  • Normalization:LayerNorm 或 RMSNorm。
  • Output Head:线性层 + Softmax 预测下一个 token。

二、大模型进阶

1. Llama 输入句子长度理论上可以无限长吗?

不可以。受限于位置编码(Positional Encoding)的范围和显存限制。虽然可以通过插值(如 YaRN)或 RoPE 扩展上下文窗口,但理论上限仍受硬件和算法约束。

2. 什么是 LLMs 复读机问题?

指模型在生成长文本时陷入循环,重复输出相同的短语或句子。这通常是由于概率分布过于集中或解码策略不当导致。

3. 为什么会出现 LLMs 复读机问题?

  • 温度参数过低:导致输出确定性过高。
  • 惩罚机制缺失:未对重复 token 进行惩罚。
  • 训练数据偏差:训练语料中存在大量重复模式。

4. 如何缓解 LLMs 复读机问题?

  • 调整 repetition_penalty 参数。
  • 使用 Top-K 或 Top-P 采样策略。
  • 增加最大生成长度限制。

5. 什么情况用 Bert 模型,什么情况用 LLaMA、ChatGLM 类大模型?

  • BERT:适合理解类任务(分类、抽取),双向上下文,参数量较小。
  • LLaMA/ChatGLM:适合生成类任务(对话、写作),单向或指令微调,参数量大,通用性强。
  • 6. 各个专业领域是否需要各自的大模型来服务?

    是的。通用大模型在垂直领域(医疗、法律)可能存在幻觉或知识滞后。通过领域预训练(Continual Pre-training)或指令微调(SFT)构建领域模型效果更好。

    7. 如何让大模型处理更长的文本?

    • 使用支持长上下文的模型(如 Llama-3-8B-8k+)。
    • 优化位置编码(RoPE, ALiBi)。
    • 使用滑动窗口注意力机制。
    • 外部检索增强(RAG)。

    三、大模型微调

    1. 全参数微调需要多少显存?

    取决于模型大小和 Batch Size。例如 7B 模型 FP16 全量微调通常需要至少 40GB-80GB 显存(单卡或多卡并行)。

    2. 为什么 SFT 之后感觉 LLM 傻了?

    • 灾难性遗忘:过度拟合特定数据导致通用能力下降。
    • 数据质量差:指令数据格式错误或逻辑混乱。
    • 学习率过大:破坏了预训练权重。

    3. SFT 指令微调数据如何构建?

    遵循 Instruction -> Input -> Output 格式。确保多样性、准确性,覆盖多种任务类型(问答、摘要、代码等)。

    4. 领域模型 Continue PreTrain 数据选取?

    选择高质量、无版权风险的领域文档(论文、技术手册、行业报告),清洗去重,保持与预训练数据分布一致。

    5. 如何缓解模型遗忘通用能力?

    • 混合通用数据和领域数据(如 1:1 比例)。
    • 使用低秩适应(LoRA)而非全量微调。
    • 定期评估通用基准测试集。

    6. 预训练和微调哪个阶段注入知识的?

    • 预训练:注入通用世界知识和语言规律。
    • 微调:注入特定任务指令和领域知识。

    7. 基座模型选用 Chat 还是 Base?

    • Base:适合继续预训练或从头微调。
    • Chat:适合直接进行指令微调,对齐人类偏好。

    8. 微调后的模型出现能力劣化,灾难性遗忘是怎么回事?

    模型在学习新任务时覆盖了旧任务的参数分布。可通过弹性权重巩固(EWC)或混合数据训练缓解。

    9. 样本量规模增大,训练出现 OOM 错怎么办?

    • 减小 Batch Size。
    • 使用梯度累积(Gradient Accumulation)。
    • 开启显存优化(如 Flash Attention)。
    • 使用 ZeRO 分布式训练。

    四、LangChain 应用

    1. 什么是 LangChain?

    LangChain 是一个用于构建 LLM 应用的框架,提供组件链式调用、记忆管理、工具集成等功能。

    2. LangChain 包含哪些核心概念?

    • Models:LLM 接口封装。
    • Prompts:提示词模板管理。
    • Chains:将多个组件串联成工作流。
    • Agents:让模型自主决定调用工具。
    • Memory:维护对话历史。
    • Indexes & Retrievers:文档检索与向量库。

    3. 基于 LLM+ 向量库的文档对话思路?

    1. 文档切片(Chunking)。
    2. Embedding 向量化。
    3. 存入向量数据库(如 FAISS, Chroma)。
    4. 用户 Query 转为向量,检索相似文档。
    5. 将检索结果作为 Context 输入 LLM 生成回答。

    4. LangChain 存在哪些问题及方案?

    • 令牌使用低效:优化 Prompt 结构,减少冗余。
    • 文档切分粒度难控:尝试递归字符分割或按语义分割。
    • 垂直领域表现不佳:引入 Rerank 模型或领域知识库。
    • 幻觉问题:强制引用来源,设置置信度阈值。

    五、参数高效微调 (PEFT)

    1. LoRA 思路是什么?

    Low-Rank Adaptation。冻结预训练权重,在旁路添加低秩分解矩阵(A*B)进行训练,大幅减少可训练参数量。

    2. QLoRA 的思路?

    Quantized LoRA。在 LoRA 基础上进一步量化主模型权重(如 4-bit NF4),显著降低显存占用,使单卡微调大模型成为可能。

    3. P-tuning v2 思路?

    在输入层插入可训练的连续 Prompt 向量,不修改模型主体参数,仅优化这些向量以引导模型行为。

    4. Adapter-tuning 思路?

    在 Transformer 层之间插入小型适配器模块(Adapter),训练时只更新适配器参数。

    5. LoRA 权重是否可以合入原模型?

    可以。通过合并 LoRA 权重到原始权重中,得到完整模型,便于部署。

    六、推理与评测

    1. 推理时显存占用高的原因?

    KV Cache 随序列长度增长,以及模型权重加载。可使用量化(Int8/FP4)或卸载(Offload)优化。

    2. int8 和 fp16 推理速度对比?

    int8 通常更快且显存占用减半,精度损失较小;fp16 精度更高但资源消耗大。

    3. 大模型怎么评测?

    • 自动化指标:BLEU, ROUGE, Perplexity。
    • 人工评估:相关性、流畅度、安全性。
    • 基准测试:MMLU, GSM8K, HumanEval。

    4. RLHF 实践中的不足?

    • 人工标注成本高。
    • 奖励模型可能与真实偏好不一致。
    • PPO 训练不稳定,资源消耗大。

    七、底层原理详解

    1. Tokenizer 篇

    • BPE (Byte-Pair Encoding):自底向上合并高频子词,处理未登录词能力强。
    • WordPiece:Google BERT 使用,基于最大似然估计拆分,常用 ## 标记子词。
    • SentencePiece:基于 BPE,支持 Unicode,无需依赖空格分词,适合多语言。

    2. Layer Normalization 篇

    • Layer Norm:对每个样本的特征维度归一化,公式为 $\hat{x} = \frac{x - \mu}{\sigma}$。
    • RMS Norm:均方根归一化,去除均值计算,仅保留方差缩放,计算更高效(如 Llama 使用)。
    • Deep Norm:在每一层插入归一化,解决深层网络梯度消失问题。

    3. 激活函数篇

    • GeLU:$x \cdot \Phi(x)$,平滑非线性,Transformer 常用。
    • Swish:$x \cdot \text{sigmoid}(\beta x)$,可学习参数,性能优于 ReLU。
    • GLU:门控线性单元,增强表达能力,常用于 FFN 块。
    import torch
    import torch.nn as nn
    
    class DeepNorm(nn.Module):
        def __init__(self, input_dim, hidden_dims, output_dim):
            super(DeepNorm, self).__init__()
            self.layers = nn.ModuleList()
            self.norm_layers = nn.ModuleList()
            for i, hidden_dim in enumerate(hidden_dims):
                self.layers.append(nn.Linear(input_dim, hidden_dim))
                self.norm_layers.append(nn.LayerNorm(hidden_dim))
                input_dim = hidden_dim
            self.output_layer = nn.Linear(input_dim, output_dim)
    
        def forward(self, x):
            for layer, norm_layer in zip(self.layers, self.norm_layers):
                x = layer(x)
                x = norm_layer(x)
                x = torch.relu(x)
            x = self.output_layer(x)
            return x
    

    4. 位置编码篇

    • RoPE (Rotary Positional Embedding):旋转位置编码,通过复数旋转矩阵实现相对位置感知,支持外推。
    • ALiBi:Attention with Linear Biases,添加偏置项模拟距离衰减,无需训练位置编码。

    5. 软硬件配置篇

    • 显存优化:ZeRO 优化器状态分片、梯度检查点、Flash Attention。
    • 分布式训练:DDP (Distributed Data Parallel), FSDP (Fully Sharded Data Parallel)。

    注:本文内容整理自公开技术社区与大模型开发经验,旨在提供面试参考与技术梳理。

    目录

    1. AI 大模型面试核心知识点与参考答案
    2. 一、大模型基础
    3. 1. 目前主流的开源模型体系有哪些?
    4. 2. Prefix LM 和 Causal LM 区别是什么?
    5. 3. 涌现能力是啥原因?
    6. 4. 大模型 LLM 的架构介绍?
    7. 二、大模型进阶
    8. 1. Llama 输入句子长度理论上可以无限长吗?
    9. 2. 什么是 LLMs 复读机问题?
    10. 3. 为什么会出现 LLMs 复读机问题?
    11. 4. 如何缓解 LLMs 复读机问题?
    12. 5. 什么情况用 Bert 模型,什么情况用 LLaMA、ChatGLM 类大模型?
    13. 6. 各个专业领域是否需要各自的大模型来服务?
    14. 7. 如何让大模型处理更长的文本?
    15. 三、大模型微调
    16. 1. 全参数微调需要多少显存?
    17. 2. 为什么 SFT 之后感觉 LLM 傻了?
    18. 3. SFT 指令微调数据如何构建?
    19. 4. 领域模型 Continue PreTrain 数据选取?
    20. 5. 如何缓解模型遗忘通用能力?
    21. 6. 预训练和微调哪个阶段注入知识的?
    22. 7. 基座模型选用 Chat 还是 Base?
    23. 8. 微调后的模型出现能力劣化,灾难性遗忘是怎么回事?
    24. 9. 样本量规模增大,训练出现 OOM 错怎么办?
    25. 四、LangChain 应用
    26. 1. 什么是 LangChain?
    27. 2. LangChain 包含哪些核心概念?
    28. 3. 基于 LLM+ 向量库的文档对话思路?
    29. 4. LangChain 存在哪些问题及方案?
    30. 五、参数高效微调 (PEFT)
    31. 1. LoRA 思路是什么?
    32. 2. QLoRA 的思路?
    33. 3. P-tuning v2 思路?
    34. 4. Adapter-tuning 思路?
    35. 5. LoRA 权重是否可以合入原模型?
    36. 六、推理与评测
    37. 1. 推理时显存占用高的原因?
    38. 2. int8 和 fp16 推理速度对比?
    39. 3. 大模型怎么评测?
    40. 4. RLHF 实践中的不足?
    41. 七、底层原理详解
    42. 1. Tokenizer 篇
    43. 2. Layer Normalization 篇
    44. 3. 激活函数篇
    45. 4. 位置编码篇
    46. 5. 软硬件配置篇
    • 💰 8折买阿里云服务器限时8折了解详情
    • Magick API 一键接入全球大模型注册送1000万token查看
    • 🤖 一键搭建Deepseek满血版了解详情
    • 一键打造专属AI 智能体了解详情
    极客日志微信公众号二维码

    微信扫一扫,关注极客日志

    微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

    更多推荐文章

    查看全部
    • 从 XMLHttpRequest 到 Fetch API:现代前端网络请求的演进与迁移指南
    • 大语言模型(LLMs)技术原理与应用指南
    • 基于 LangChain 和 ChatGLM 的本地知识库问答系统搭建
    • 大模型微调必要性分析:LoRA 与 RAG 方案对比
    • 基于 SpringAI Alibaba 开发大模型智能体,支持基础版和多模式
    • 轮腿机器人代码调试补充
    • 低代码开发:提升企业应用搭建效率的新方式
    • eBay 商品数据采集实战:基于网页抓取 API 的 Python 接入方案
    • GitHub 实战指南:版本控制与协作核心
    • 华为 OD 机试双机位 C 卷:补种未成活胡杨
    • Python 绘图基础:matplotlib 库常用功能详解
    • Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测
    • 前端团队协作最佳实践指南
    • 实战:使用 Jenkins Pipeline 自动化构建与部署 Java 项目
    • 漏洞挖掘、分析与利用的核心方法论与职业路径
    • AI 安全实战:基于 PGD 的 Stable Diffusion 视觉提示词注入攻击分析
    • 递归与搜索算法实战:汉诺塔、链表操作及快速幂
    • VB.NET 视频教程总结(八至十五单元)
    • ToDesk ToClaw AI 实现科技新闻日报自动化实战
    • 2025年AIGC市场:规模、趋势与挑战

    相关免费在线工具

    • 加密/解密文本

      使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

    • RSA密钥对生成器

      生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

    • Mermaid 预览与可视化编辑

      基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

    • 随机西班牙地址生成器

      随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

    • Gemini 图片去水印

      基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

    • curl 转代码

      解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online