2024 年大厂 AI 大模型核心面试题与深度解析
前言
随着人工智能技术的飞速发展,大语言模型(LLM)已成为行业关注的焦点。在当前的招聘市场中,掌握大模型的核心原理、架构设计及优化技术是求职者必备的技能。本文整理了高频面试题目,涵盖从基础理论到前沿应用的全方位内容,旨在帮助读者深入理解 AGI 领域的关键技术点。
一、模型架构与基本原理
-
简述 GPT 和 BERT 的区别 GPT(Generative Pre-trained Transformer)采用 Decoder-only 架构,基于自回归方式生成文本,擅长文本生成任务。BERT(Bidirectional Encoder Representations from Transformers)采用 Encoder-only 架构,利用双向上下文进行掩码语言建模,擅长文本分类、问答等理解类任务。GPT 是单向的,BERT 是双向的。
-
讲一下 GPT 系列模型是如何演进的? GPT-1 引入了预训练 + 微调范式;GPT-2 扩大了参数量和数据集,展示了少样本学习能力;GPT-3 进一步增加参数至 1750 亿,实现了零样本学习;GPT-3.5 通过人类反馈强化学习(RLHF)提升了对话质量;GPT-4 在多模态、推理能力和安全性上有了显著提升。
-
为什么现在的大模型大多是 decoder-only 的架构? Decoder-only 架构更适合自回归生成任务,计算效率高,易于并行化(如 FlashAttention)。Encoder-Decoder 架构虽然适合翻译等任务,但在超长序列生成时显存占用大且推理速度慢。Decoder-only 结构更利于扩展参数量和上下文窗口。
-
讲一下生成式语言模型的工作机理 生成式语言模型基于概率分布预测下一个 token。输入序列经过 Embedding 层、Transformer 层处理,输出层通过 Softmax 计算每个词的概率,采样得到下一个词,循环迭代直至生成结束符。
-
哪些因素会导致 LLM 的偏见? 训练数据本身包含的社会偏见、标注人员的主观倾向、数据分布不均以及模型对高频词的过度拟合都可能导致偏见。此外,缺乏多样性数据的覆盖也会加剧特定群体的刻板印象。
-
LLM 中的因果语言建模与掩码语言建模有什么区别? 因果语言建模(CLM)只允许模型看到当前时刻之前的 token,用于自回归生成,如 GPT。掩码语言建模(MLM)随机掩盖部分 token,要求模型根据上下文预测被掩盖的词,用于双向理解,如 BERT。
-
如何减轻 LLM 中的幻觉现象? 可以通过检索增强生成(RAG)引入外部知识、使用事实核查机制、优化训练数据质量、引入 RLHF 约束模型输出、以及在推理阶段使用温度系数控制随机性来减少幻觉。
-
解释 ChatGPT 的零样本和少样本学习的概念 零样本学习(Zero-shot)指模型在未见过特定任务示例的情况下直接完成任务。少样本学习(Few-shot)指提供少量任务示例让模型模仿模式后再执行任务。这利用了模型的泛化能力。
-
你了解大型语言模型中的哪些分词技术? 常见的有 WordPiece(BERT 使用)、Byte Pair Encoding (BPE,GPT 使用)、Unigram LM。它们旨在平衡词汇表大小和未登录词问题,将文本切分为子词单元。
-
如何评估大语言模型(LLMs)的性能? 常用指标包括困惑度(Perplexity)、准确率(Accuracy)、BLEU、ROUGE 分数。基准测试集如 MMLU、GLUE、SuperGLUE 也是重要评估标准。人工评估则关注回答的相关性、准确性和流畅度。
-
如何缓解 LLMs 重复读问题? 重复问题通常由采样策略引起。可通过设置惩罚项(Repetition Penalty)、调整 Top-k/Top-p 采样参数、使用束搜索(Beam Search)或在解码过程中检测重复序列并强制跳过来解决。
-
请简述 Transformer 基本原理 Transformer 基于自注意力机制(Self-Attention),摒弃了 RNN 的循环结构,实现并行计算。主要组件包括多头注意力、前馈神经网络、残差连接和层归一化。位置编码用于注入顺序信息。
-
为什么 Transformer 的架构需要多头注意力机制? 多头注意力允许模型在不同表示子空间中同时关注不同位置的信息,增强了模型捕捉复杂依赖关系的能力。它类似于集成学习,提高了模型的表达能力和鲁棒性。
-
是的。因为 Self-Attention 机制本身是置换不变的(Permutation Invariant),无法区分 token 的顺序。位置编码(Positional Encoding)将位置信息注入到 Embedding 中,使模型能够感知序列顺序。


