2025 大厂 AI 大模型面试题精编与答案解析
前言
随着人工智能市场的快速发展,AGI(通用人工智能)领域的人才需求日益增长。为了帮助求职者深入理解行业选拔标准,掌握核心面试真题至关重要。本文整理了涵盖基础知识到前沿技术的 50 道高频面试题及详细解析,助力构建完善的 AGI 技术体系。
基础概念与架构
1. 简述 GPT 和 BERT 的区别
GPT(Generative Pre-trained Transformer)采用 Decoder-only 架构,基于自回归方式生成文本,擅长文本生成任务;BERT(Bidirectional Encoder Representations from Transformers)采用 Encoder-only 架构,利用双向上下文进行掩码语言建模,擅长文本分类、问答等理解任务。GPT 是单向的,BERT 是双向的。
2. 讲一下 GPT 系列模型是如何演进的?
GPT-1 引入预训练 + 微调范式;GPT-2 扩大参数量至 15 亿,展示少样本学习能力;GPT-3 参数达 1750 亿,实现零样本/少样本学习;GPT-3.5 优化指令遵循能力;GPT-4 在多模态、推理能力和安全性上显著提升。
3. 为什么现在的大模型大多是 decoder-only 的架构?
Decoder-only 架构更适合自回归生成任务,计算效率高,易于扩展参数量。相比 Transformer 编码器 - 解码器结构,它减少了冗余计算,且通过注意力掩码机制保证了因果性,非常适合大规模预训练和生成式应用。
4. 讲一下生成式语言模型的工作机理
模型基于概率分布预测下一个 token。输入序列经过 Embedding 层、多层 Transformer 块(Self-Attention + FFN),输出 logits 经 Softmax 转化为概率分布,采样得到下一个词,循环直至结束符。
5. 哪些因素会导致 LLM 的偏见?
训练数据本身包含的社会文化偏见、标注人员的主观倾向、数据分布不均(如某些群体样本过少)、以及模型在微调过程中对特定语料的过度拟合。
6. LLM 中的因果语言建模与掩码语言建模有什么区别?
因果语言建模(Causal LM)使用自回归方式,只关注当前 token 之前的上下文,用于生成任务;掩码语言建模(MLM)随机掩盖部分 token,要求模型根据双向上下文预测被掩盖内容,用于理解任务。
7. 如何减轻 LLM 中的幻觉现象?
增加高质量训练数据、引入检索增强生成(RAG)、使用思维链(CoT)提示、强化人类反馈强化学习(RLHF)、设置置信度阈值过滤低概率输出。
8. 解释 ChatGPT 的零样本和少样本学习的概念
零样本学习(Zero-shot):模型直接根据指令完成任务,无示例;少样本学习(Few-shot):提供少量示例(Prompt 中包含输入输出对),引导模型模仿模式完成任务。
9. 你了解大型语言模型中的哪些分词技术?
WordPiece(BERT 使用)、Byte Pair Encoding (BPE)(GPT 使用)、Unigram Language Model(SentencePiece)。它们旨在平衡词汇表大小与 OOV 率,提高模型对未见词的泛化能力。
10. 如何评估大语言模型的性能?
使用基准测试集(如 MMLU, GLUE, SuperGLUE)、人工评估(相关性、流畅度、事实准确性)、自动化指标(BLEU, ROUGE, Perplexity)以及针对特定任务的评测。
11. 如何缓解 LLMs 重复读问题?
使用惩罚机制(如 Repetition Penalty)、调整 Top-k/Top-p 采样策略、引入停止符检测、优化解码算法(如 Beam Search 限制长度)。
12. 请简述 Transformer 基本原理
基于 Self-Attention 机制捕捉长距离依赖,并行计算效率高。包含多头注意力、前馈神经网络、残差连接和 LayerNorm。位置编码注入顺序信息。
13. 为什么 Transformer 的架构需要多头注意力机制?
多头注意力允许模型在不同表示子空间中同时关注不同位置的信息,增强了模型的表达能力和鲁棒性,能捕捉更丰富的语义特征。


