大模型面试高频题整理

基础篇

1、目前主流的开源模型体系有哪些？

常见的开源模型体系里，Transformer 仍然是主干。围绕它衍生出来的 BERT、GPT、T5、LLaMA 这类模型，基本把今天大模型的常见路线都覆盖了。除此之外，Hugging Face Transformers、TensorFlow Model Garden 这类库更偏工具层，前者在开源生态里用得更广，后者则更像官方模型仓库。

2、prefix LM 和 causal LM 区别是什么？

prefix LM 会给输入前面加一段可学习的前缀，让模型先'看见'任务提示再生成结果，适合带条件生成。causal LM 则是标准的自回归方式，只能基于左侧上下文预测下一个 token，天然适合续写和对话。

前者更像'先定调，再回答'，后者更像'边写边想'。

3、涌现能力是啥原因？

涌现通常不是某一个神秘机制突然打开了，而是模型规模、数据覆盖面和优化目标一起把某些能力推到了可观察阈值以上。小模型里这些模式也许已经存在，只是还不够稳定，不够强。

4、大模型 LLM 的架构介绍？

今天的大模型基本都离不开 Transformer。它的核心是自注意力和前馈网络，前者负责建模 token 之间的依赖关系，后者负责做非线性变换。堆叠多层之后，模型就能在较长上下文里提取语义。

如果只说架构，LLM 大体会落在编码器、解码器、或编码器-解码器三种形态上。GPT 这类偏解码器，BERT 偏编码器，T5 走的是 encoder-decoder。实际工程里，更多人关心的是它是不是适合生成、推理成本高不高、长上下文能不能撑住。

5、目前比较受欢迎的开源大模型有哪些？

常见的有 GPT 系列、BERT 系列、T5 系列，以及后来更主流的 LLaMA、ChatGLM、Qwen 这类开源或开放权重模型。面试里如果只背早期名字，往往显得信息停在几年前。

6、目前大模型模型结构都有哪些？

主流还是三类：Transformer 编码器、Transformer 解码器、Transformer 编码器-解码器。具体到模型上，BERT 属于编码器，GPT 属于解码器，T5 属于编码器-解码器。

7、prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点？

prefix LM 适合在任务提示明确的场景下做条件生成，改动小，接预训练权重也比较顺手；缺点是前缀长度有限，提示不够时表达能力会被卡住。

causal LM 的优势是通用，生成任务很好接；问题也很直接，它看不到未来 token，做某些需要双向上下文理解的任务时不如编码器模型自然。

encoder-decoder 更适合输入输出都很明确的任务，比如翻译、摘要、结构化转换。它的代价是模型更重，训练和推理都更费资源。

8、模型幻觉是什么？业内解决方案是什么？

幻觉就是模型把不确定的内容说得很像真的，甚至编造细节。这个问题通常没法靠单一手段解决，比较现实的做法是把模型能力和外部知识源结合起来：检索增强、事实校验、约束解码、提高训练数据质量，都是常见路子。

9、大模型的 Tokenizer 的实现方法及原理？

常见实现还是子词切分，BPE、SentencePiece、Unigram 这些方案都很常见。思路没那么玄：先把文本切成稳定的小单元，再映射成 token id。这样既能覆盖生僻词，也不会把词表做得太夸张。

10、ChatGLM3 的词表实现方法？

ChatGLM3 也用了基于子词的词表设计，核心目标和别的模型类似：兼顾中文、英文和符号混排时的稳定切分。实际工程里，词表设计不是炫技点，更多是在准确率、词表大小和推理效率之间找平衡。

11、GPT3、LLAMA、ChatGLM 的 Layer Normalization 的区别是什么？各自的优缺点是什么？

GPT-3 和 ChatGLM 更接近 Post-LN，LLaMA 走的是 Pre-LN。Pre-LN 一般更稳，尤其在深层网络里更容易训练；Post-LN 有时在某些设置下效果不错，但训练稳定性更依赖细节。

12、大模型常用的激活函数有哪些？

ReLU、GeLU、Swish 都很常见。现在 Transformer 系列里，GeLU 用得尤其多，原因很简单：它在实践里更顺手，训练和效果都比较均衡。

13、多查询注意力与群查询注意力是否了解？区别是什么？

Multi-Query Attention 会让多个查询共享较少的 key/value，重点是省显存和提升推理速度。Grouped-Query Attention 则介于传统多头注意力和 MQA 之间，按组共享 KV，兼顾效果和效率。

如果要落到工程选择上，MQA 更省，但表达能力会压缩得更明显；GQA 往往是更折中的方案。

14、多模态大模型是否有接触？落地案例？

多模态模型就是把文本、图像、语音等不同输入放在一个系统里处理。比较典型的方向是图像描述、视觉问答、图文生成。DALL·E、GPT 系列、Multimodal Transformer 都属于经常被拿来举例的方向。

进阶篇

1、llama 输入句子长度理论上可以无限长吗？

不能。理论上位置编码和上下文建模方式会先把它限制住，工程上又会被显存和吞吐进一步卡死。真实系统里，能支持多长，最终还是看模型设计和部署预算。

大模型面试高频题整理

基础篇

进阶篇

更多推荐文章

相关免费在线工具

LangChain 应用开发

什么是 LangChain？

1、LangChain 包含哪些核心概念？

2、什么是 LangChain Agent？

3、如何使用 LangChain？

4、LangChain 支持哪些功能？

5、什么是 LangChain model？

6、LangChain 包含哪些特点？

7、LangChain 如何使用？

8、LangChain 存在哪些问题及方法方案？

9、LangChain 替代方案？

10、LangChain 中 Components and Chains 是什么？

11、LangChain 中 Prompt Templates and Values 是什么？

12、LangChain 中 Example Selectors 是什么？

13、LangChain 中 Output Parsers 是什么？

14、LangChain 中 Indexes and Retrievers 是什么？

15、LangChain 中 Chat Message History 是什么？

16、LangChain 中 Agents and Toolkits 是什么？

17、LangChain 如何调用 LLMs 生成回复？

18、LangChain 如何修改提示模板？

19、LangChain 如何链接多个组件处理一个特定的下游任务？

20、LangChain 如何 Embedding&vector store？

分布式训练

推理优化

更多推荐文章

相关免费在线工具

大模型面试高频题整理

基础篇

进阶篇

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

LangChain 应用开发

什么是 LangChain？

1、LangChain 包含哪些核心概念？

2、什么是 LangChain Agent？

3、如何使用 LangChain？

4、LangChain 支持哪些功能？

5、什么是 LangChain model？

6、LangChain 包含哪些特点？

7、LangChain 如何使用？

8、LangChain 存在哪些问题及方法方案？

9、LangChain 替代方案？

10、LangChain 中 Components and Chains 是什么？

11、LangChain 中 Prompt Templates and Values 是什么？

12、LangChain 中 Example Selectors 是什么？

13、LangChain 中 Output Parsers 是什么？

14、LangChain 中 Indexes and Retrievers 是什么？

15、LangChain 中 Chat Message History 是什么？

16、LangChain 中 Agents and Toolkits 是什么？

17、LangChain 如何调用 LLMs 生成回复？

18、LangChain 如何修改提示模板？

19、LangChain 如何链接多个组件处理一个特定的下游任务？

20、LangChain 如何 Embedding&vector store？

分布式训练

推理优化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具