AI 大模型技术经过 2023 年的快速发展,2024 年迎来应用落地阶段,对 IT 从业者而言蕴含着大量技术机会。越来越多的企业开始招聘 AI 大模型相关岗位,本文梳理了 AI 大模型开发技术的面试要点,从 AI 大模型基础、进阶选型、LangChain 开发框架、向量数据库等不同知识维度,帮助开发者构建系统的面试速成模式。
AI 大模型基础面
Q1:目前主流的大模型体系有哪些?
A1:目前主流的开源大模型体系主要包括以下几个方向:
- GPT(Generative Pre-trained Transformer)系列:由 OpenAI 发布的一系列基于 Transformer 架构的语言模型,包括 GPT-1、GPT-2、GPT-3、ChatGPT 等。GPT 模型通过在大规模无标签文本上进行预训练,然后在特定任务上进行微调,具有很强的生成能力和语言理解能力。
- BERT(Bidirectional Encoder Representations from Transformers):由 Google 发布的一种基于 Transformer 架构的双向预训练语言模型。BERT 模型通过在大规模无标签文本上进行预训练,然后在下游任务上进行微调,具有强大的语言理解能力和表征能力。
- XLNet:由 CMU 和 Google Brain 发布的一种基于 Transformer 架构的自回归预训练语言模型。XLNet 模型通过自回归方式预训练,可以建模全局依赖关系,具有更好的语言建模能力和生成能力。
- RoBERTa:由 Meta 发布的一种基于 Transformer 架构的预训练语言模型。RoBERTa 模型在 BERT 的基础上进行了改进,通过更大规模的数据和更长的训练时间,取得了更好的性能。
- T5(Text-to-Text Transfer Transformer):由 Google 发布的一种基于 Transformer 架构的多任务预训练语言模型。T5 模型通过在大规模数据集上进行预训练,可以用于多种自然语言处理任务,如文本分类、机器翻译、问答等。
这些大模型在自然语言处理领域取得了显著的成果,并被广泛应用于各种任务和应用中。
Q2:涌现能力是啥原因?
A2:大模型的涌现能力主要是由以下几个因素共同作用的结果:
- 数据量的增加:随着互联网的发展和数字化信息的爆炸增长,可用于训练模型的数据量大大增加。更多的数据可以提供更丰富、更广泛的语言知识和语境,使得模型能够更好地理解和生成文本。
- 计算能力的提升:随着计算硬件的发展,特别是图形处理器(GPU)和专用的 AI 芯片(比如 TPU)的出现,计算能力大幅提升。这使得训练更大、更复杂的模型成为可能,从而提高了模型的性能和涌现能力。
- 模型架构的改进:近年来,一些新的模型架构被引入,比如 Transformer,它在处理序列数据上表现出色。这些新的架构通过引入自注意力机制等技术,使得模型能够更好地捕捉长距离的依赖关系和语言结构,提高了模型的表达能力和生成能力。
- 预训练和微调的方法:预训练和微调是一种有效的训练策略,可以在大规模无标签数据上进行预训练,然后在特定任务上进行微调。这种方法可以使模型从大规模数据中学习到更丰富的语言知识和语义理解,从而提高模型的涌现能力。
综上所述,大模型的涌现能力是由数据量的增加、计算能力的提升、模型架构的改进以及预训练和微调等因素共同作用的结果。这些因素的进步使得大模型能够更好地理解和生成文本,为自然语言处理领域带来了显著的进展。
AI 大模型进阶面
Q3:大模型如何选型?如何基于场景选用 ChatGLM、LlaMA、Bert 类大模型?
A3:选择使用哪种大模型,取决于具体的应用场景和需求。以下是指导原则:
- ChatGLM 大模型:ChatGLM 是一个面向对话生成的大语言模型,适用于构建聊天机器人、智能客服等对话系统。如果你的应用场景需要模型能够生成连贯、流畅的对话回复,并且需要处理对话上下文、生成多轮对话等,ChatGLM 模型可能是一个较好的选择。ChatGLM 的架构为 Prefix Decoder,训练语料为中英双语,中英文比例为 1:1。所以适合于中文和英文文本生成的任务。
- LLaMA 大模型:LLaMA(Large Language Model Meta AI)包含从 7B 到 65B 的参数范围,训练使用多达 14,000 亿 tokens 语料,具有常识推理、问答、数学推理、代码生成、语言理解等能力。它由一个 Transformer 解码器组成。训练预料主要为以英语为主的拉丁语系,不包含中日韩文。所以适合于英文文本生成的任务。


