一、大型语言模型(Large Language Model)定义
大型语言模型(Large Language Model, LLM)是一种基于深度学习的算法,能够执行各种自然语言处理(NLP)任务。其底层核心通常使用多个转换器(Transformer)模型,这些转换器由一组神经网络组成。
LLM 是使用海量数据集进行训练的超大型深度学习模型。这也是它们能够识别、翻译、预测或生成文本及其他内容的强大基础所在。因此,大型语言模型常被称为神经网络(NN),是受人类大脑启发而开发出的计算系统。这些神经网络利用分层的节点网络工作,类似于神经元。它们由具有自注意力功能的编码器和解码器组成,能够从一系列文本中提取含义,并理解单词和短语之间的关系。
与早期按顺序处理输入的循环神经网络(RNN)不同,转换器模型可以并行处理整个序列。这使得数据科学家能够使用 GPU 训练基于转换器的 LLM,从而大幅度缩短训练时间。除了向人工智能(AI)应用程序教授人类语言外,还可以训练大型语言模型来执行各种任务,如理解蛋白质结构、编写软件代码等。像人类大脑一样,大型语言模型必须经过预先训练,然后再进行微调,这样它们才能解决文本分类、问题解答、文档摘要和文本生成等问题。
二、大型语言模型如何运作?
LLM 运作原理的一个关键因素是它们表示单词的方式。早期的机器学习使用数字表来表示每个单词,但这种表示形式无法识别单词之间的关系。人们采用如下方式克服此限制:使用多维向量(通常称为单词嵌入)来表示单词,从而使具有相似上下文含义或其他关系的单词在向量空间中彼此接近。
使用单词嵌入,转换器可以通过编码器将文本预处理为数字表示,并理解含义相似的单词和短语的上下文以及单词之间的其他关系。然后,LLM 就可以通过解码器应用这些语言知识来生成独特的输出。
即大型语言模型以转换器模型为基础,其工作原理是:接收输入,对输入进行编码,然后解码以生成输出预测。但是,在大型语言模型能够接收文本输入并生成输出预测之前,需要先对它进行训练,以便执行一些常规功能,然后再进行微调后才能执行特定任务。
- 训练阶段:大型语言模型会使用维基百科、GitHub 或其他网站的大型文本数据集进行预先训练。这些数据集包含数以万亿计的字词,它们的质量会影响语言模型的性能。在这个阶段,大型语言模型主要进行无监督学习,这意味着它会在没有特定指令的情况下处理输入的数据集。在这个过程中,LLM 的 AI 算法可以学习字词的意思,以及字词之间的关系。此外,它还会根据上下文学习分辨字词。例如,它将学习理解'right'是'正确'的意思,还是'左'的反义词。
- 微调阶段:为了让大型语言模型执行诸如翻译等特定任务,则必须针对特定活动对它进行微调。微调可优化特定任务的性能。
- 提示调优:作用与微调类似,也就是通过少样本提示或零样本提示来训练模型执行特定任务。提示是提供给 LLM 的指令。少样本提示会通过使用示例来教模型预测输出。例如,在情绪分析练习中,少样本提示会提供正负样本示例,让模型理解语义关联。零样本提示不会使用示例,而是明确指出语言模型应执行的任务。
三、如何训练大型语言模型?
基于转换器的神经网络非常庞大。这些网络包含多个节点和层。层中的每个节点都有指向后续层中所有节点的连接,并且每个节点都有权重和偏差。权重和偏差以及嵌入称为模型参数。基于转换器的大型神经网络可以有数十亿个参数。模型的大小通常由模型大小、参数数量和训练数据规模之间的经验关系决定。
使用大量高质量数据执行训练。在训练过程中,模型会迭代调整参数值,直到模型可根据前一个输入令牌序列正确预测下一个令牌。为此,模型使用自学技术,这些技术教导模型调整参数,以最大限度地提高训练示例中正确预测下一个令牌的可能性。
训练过程包括两个主要步骤:预训练(pre-training)和微调(fine-tuning):
- 在预训练阶段,模型从一个巨大的、多样化的数据集中学习,通常包含来自不同来源的数十亿词汇,如网站、书籍和文章。这个阶段允许模型学习一般的语言模式和表征。
- 在微调阶段,模型在与目标任务或领域相关的更具体、更小的数据集上进一步训练。这有助于模型微调其理解,并适应任务的特殊要求。
存在三种常见的学习模式:
- 零样本学习:Base LLM 无需明确训练即可响应各种请求,通常是通过提示,但是答案的准确性各不相同。
- 少量样本学习:通过提供一些相关的训练示例,基础模型在该特定领域的表现显著提升。
- 微调:这是少量样本学习的扩展,其中数据科学家训练基础模型,使模型使用与特定应用相关的其他数据来调整其参数。
四、什么是自然语言处理 (NLP)?
自然语言处理会通过多种不同方式工作:
- 基于 AI 的 NLP:涉及使用 Machine Learning 算法和技巧来处理、理解和生成人类语言。
- 基于规则的 NLP:涉及创建一个可用来分析和生成语言数据的规则或模式的集合。


