大模型面试指南：基础、微调、LangChain 及推理面经

大模型（LLMs）基础面

1. 目前主流的开源模型体系有哪些？

目前主流的开源 LLM（语言模型）体系包括以下几个：

GPT 系列：由 OpenAI 发布的一系列基于 Transformer 架构的语言模型，包括 GPT、GPT-2、GPT-3 等。GPT 模型通过在大规模无标签文本上进行预训练，然后在特定任务上进行微调，具有很强的生成能力和语言理解能力。
BERT：由 Google 发布的一种基于 Transformer 架构的双向预训练语言模型。BERT 模型通过在大规模无标签文本上进行预训练，然后在下游任务上进行微调，具有强大的语言理解能力和表征能力。
XLNet：由 CMU 和 Google Brain 发布的一种基于 Transformer 架构的自回归预训练语言模型。XLNet 模型通过自回归方式预训练，可以建模全局依赖关系，具有更好的语言建模能力和生成能力。
RoBERTa：由 Facebook 发布的一种基于 Transformer 架构的预训练语言模型。RoBERTa 模型在 BERT 的基础上进行了改进，通过更大规模的数据和更长的训练时间，取得了更好的性能。
T5：由 Google 发布的一种基于 Transformer 架构的多任务预训练语言模型。T5 模型通过在大规模数据集上进行预训练，可以用于多种自然语言处理任务，如文本分类、机器翻译、问答等。

这些模型在自然语言处理领域取得了显著的成果，并被广泛应用于各种任务和应用中。

2. Prefix LM 和 Causal LM 区别是什么？

Prefix LM（前缀语言模型）和 Causal LM（因果语言模型）是两种不同类型的语言模型，它们的区别在于生成文本的方式和训练目标。

Prefix LM：前缀语言模型是一种生成模型，它在生成每个词时都可以考虑之前的上下文信息。在生成时，前缀语言模型会根据给定的前缀（即部分文本序列）预测下一个可能的词。这种模型可以用于文本生成、机器翻译等任务。
Causal LM：因果语言模型是一种自回归模型，它只能根据之前的文本生成后续的文本，而不能根据后续的文本生成之前的文本。在训练时，因果语言模型的目标是预测下一个词的概率，给定之前的所有词作为上下文。这种模型可以用于文本生成、语言建模等任务。

总结来说，前缀语言模型可以根据给定的前缀生成后续的文本，而因果语言模型只能根据之前的文本生成后续的文本。它们的训练目标和生成方式略有不同，适用于不同的任务和应用场景。

3. 涌现能力是啥原因？

大模型的涌现能力主要是由以下几个原因造成的：

数据量的增加：随着互联网的发展和数字化信息的爆炸增长，可用于训练模型的数据量大大增加。更多的数据可以提供更丰富、更广泛的语言知识和语境，使得模型能够更好地理解和生成文本。
计算能力的提升：随着计算硬件的发展，特别是图形处理器（GPU）和专用的 AI 芯片（如 TPU）的出现，计算能力大幅提升。这使得训练更大、更复杂的模型成为可能，从而提高了模型的性能和涌现能力。
模型架构的改进：近年来，一些新的模型架构被引入，如 Transformer，它在处理序列数据上表现出色。这些新的架构通过引入自注意力机制等技术，使得模型能够更好地捕捉长距离的依赖关系和语言结构，提高了模型的表达能力和生成能力。
预训练和微调的方法：预训练和微调是一种有效的训练策略，可以在大规模无标签数据上进行预训练，然后在特定任务上进行微调。这种方法可以使模型从大规模数据中学习到更丰富的语言知识和语义理解，从而提高模型的涌现能力。

综上所述，大模型的涌现能力是由数据量的增加、计算能力的提升、模型架构的改进以及预训练和微调等因素共同作用的结果。

4. 大模型 LLM 的架构介绍？

LLM（Large Language Model，大型语言模型）是指基于大规模数据和参数量的语言模型。具体的架构可以有多种选择，以下是一种常见的架构介绍：

Transformer 架构：大模型 LLM 常使用 Transformer 架构，它是一种基于自注意力机制的序列模型。Transformer 架构由多个编码器层和解码器层组成，每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离的依赖关系和语言结构，适用于处理大规模语言数据。
自注意力机制（Self-Attention）：自注意力机制是 Transformer 架构的核心组件之一。它允许模型在生成每个词时，根据输入序列中的其他词来计算该词的表示。自注意力机制能够动态地为每个词分配不同的权重，从而更好地捕捉上下文信息。

大模型面试指南：基础、微调、LangChain 及推理面经

大模型（LLMs）基础面

1. 目前主流的开源模型体系有哪些？

2. Prefix LM 和 Causal LM 区别是什么？

3. 涌现能力是啥原因？

4. 大模型 LLM 的架构介绍？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

大模型（LLMs）进阶面

1. Llama 输入句子长度理论上可以无限长吗？

2. 什么是 LLMs 复读机问题？

3. 什么情况用 Bert 模型，什么情况用 LLaMA、ChatGLM 类大模型，咋选？

4. 各个专业领域是否需要各自的大模型来服务？

5. 如何让大模型处理更长的文本？

大模型（LLMs）微调面

1. 如果想要在某个模型基础上做全参数微调，究竟需要多少显存？

2. 为什么 SFT 之后感觉 LLM 傻了？

3. SFT 指令微调数据如何构建？

4. 领域模型 Continue PreTrain 数据选取？

5. 领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力？

6. 进行 SFT 操作的时候，基座模型选用 Chat 还是 Base？

7. 领域模型微调指令&数据输入格式要求？

8. 领域模型微调领域评测集构建？

9. 领域模型词表扩增是不是有必要的？

10. 如何训练自己的大模型？

11. 训练中文大模型有啥经验？

12. 指令微调的好处？

13. 预训练和微调哪个阶段注入知识的？

14. 想让模型学习某个领域或行业的知识，是应该预训练还是应该微调？

15. 多轮对话任务如何微调模型？

16. 微调后的模型出现能力劣化，灾难性遗忘是怎么回事？

17. 微调模型需要多大显存？

18. 大模型 LLM 进行 SFT 操作的时候在学习什么？

19. 预训练和 SFT 操作有什么不同？

20. 样本量规模增大，训练出现 OOM 错

21. 大模型 LLM 进行 SFT 如何对样本进行优化？

大模型（LLMs）LangChain 面

1. 什么是 LangChain？

2. LangChain 包含哪些核心概念？

3. LangChain 支持哪些功能？

4. LangChain 如何使用？

调用 LLMs 生成回复

修改提示模板

链接多个组件处理下游任务

Embedding & Vector Store

5. LangChain 存在的问题及方案？

6. 替代方案？

7. 基于 LLM+ 向量库的文档对话经验面

基础面

优化面

痛点解决

大模型（LLMs）参数高效微调 (PEFT) 面

1. LoRA 篇

2. QLoRA 篇

3. AdaLoRA 篇

4. 提示学习（Prompting）

5. PEFT 对比

大模型（LLMs）推理面

1. 推理显存与速度

2. 省内存方法

3. 合规化输出

大模型（LLMs）评测面

1. 大模型怎么评测？

2. Honest 原则

大模型（LLMs）强化学习面

1. RLHF 流程

2. 实践不足与解决

大模型（LLMs）软硬件配置面

大模型（LLMs）Token 及位置编码篇

1. Tokenizer

2. 位置编码

大模型（LLMs）Layer Normalization 篇

大模型（LLMs）Agent 面

大模型（LLMs）显存与分布式训练面

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具