2025 大厂 AI 大模型面试题精编与答案解析

前言

随着人工智能市场的快速发展，AGI（通用人工智能）领域的人才需求日益增长。为了帮助求职者深入理解行业选拔标准，掌握核心面试真题至关重要。本文整理了涵盖基础知识到前沿技术的 50 道高频面试题及详细解析，助力构建完善的 AGI 技术体系。

基础概念与架构

1. 简述 GPT 和 BERT 的区别

GPT（Generative Pre-trained Transformer）采用 Decoder-only 架构，基于自回归方式生成文本，擅长文本生成任务；BERT（Bidirectional Encoder Representations from Transformers）采用 Encoder-only 架构，利用双向上下文进行掩码语言建模，擅长文本分类、问答等理解任务。GPT 是单向的，BERT 是双向的。

2. 讲一下 GPT 系列模型是如何演进的？

GPT-1 引入预训练 + 微调范式；GPT-2 扩大参数量至 15 亿，展示少样本学习能力；GPT-3 参数达 1750 亿，实现零样本/少样本学习；GPT-3.5 优化指令遵循能力；GPT-4 在多模态、推理能力和安全性上显著提升。

3. 为什么现在的大模型大多是 decoder-only 的架构？

Decoder-only 架构更适合自回归生成任务，计算效率高，易于扩展参数量。相比 Transformer 编码器 - 解码器结构，它减少了冗余计算，且通过注意力掩码机制保证了因果性，非常适合大规模预训练和生成式应用。

4. 讲一下生成式语言模型的工作机理

模型基于概率分布预测下一个 token。输入序列经过 Embedding 层、多层 Transformer 块（Self-Attention + FFN），输出 logits 经 Softmax 转化为概率分布，采样得到下一个词，循环直至结束符。

5. 哪些因素会导致 LLM 的偏见？

训练数据本身包含的社会文化偏见、标注人员的主观倾向、数据分布不均（如某些群体样本过少）、以及模型在微调过程中对特定语料的过度拟合。

6. LLM 中的因果语言建模与掩码语言建模有什么区别？

因果语言建模（Causal LM）使用自回归方式，只关注当前 token 之前的上下文，用于生成任务；掩码语言建模（MLM）随机掩盖部分 token，要求模型根据双向上下文预测被掩盖内容，用于理解任务。

7. 如何减轻 LLM 中的幻觉现象？

增加高质量训练数据、引入检索增强生成（RAG）、使用思维链（CoT）提示、强化人类反馈强化学习（RLHF）、设置置信度阈值过滤低概率输出。

8. 解释 ChatGPT 的零样本和少样本学习的概念

零样本学习（Zero-shot）：模型直接根据指令完成任务，无示例；少样本学习（Few-shot）：提供少量示例（Prompt 中包含输入输出对），引导模型模仿模式完成任务。

9. 你了解大型语言模型中的哪些分词技术？

WordPiece（BERT 使用）、Byte Pair Encoding (BPE)（GPT 使用）、Unigram Language Model（SentencePiece）。它们旨在平衡词汇表大小与 OOV 率，提高模型对未见词的泛化能力。

10. 如何评估大语言模型的性能？

使用基准测试集（如 MMLU, GLUE, SuperGLUE）、人工评估（相关性、流畅度、事实准确性）、自动化指标（BLEU, ROUGE, Perplexity）以及针对特定任务的评测。

11. 如何缓解 LLMs 重复读问题？

使用惩罚机制（如 Repetition Penalty）、调整 Top-k/Top-p 采样策略、引入停止符检测、优化解码算法（如 Beam Search 限制长度）。

12. 请简述 Transformer 基本原理

基于 Self-Attention 机制捕捉长距离依赖，并行计算效率高。包含多头注意力、前馈神经网络、残差连接和 LayerNorm。位置编码注入顺序信息。

13. 为什么 Transformer 的架构需要多头注意力机制？

多头注意力允许模型在不同表示子空间中同时关注不同位置的信息，增强了模型的表达能力和鲁棒性，能捕捉更丰富的语义特征。

2025 大厂 AI 大模型面试题精编与答案解析