Meta 大型概念模型重塑语言推理技术解析
引言
大规模语言模型(LLM)已彻底改变了人工智能领域,成为许多任务的事实标准工具。目前,LLM 的主流技术是基于标记(Token)级别处理输入并生成输出。这与人类的处理方式截然不同,人类在多个抽象层次上操作,远远超出了单词层级,以分析信息并生成创造性内容。
本文提出了一种尝试,设计了一种在显式更高层次语义表示上操作的架构,我们将其命名为'概念'。概念是语言和模态无关的,表示流中的一个更高层次的思想或动作。因此,我们构建了一个'大型概念模型'(Large Concept Model, LCM)。
在本研究中,作为可行性证明,我们假设一个概念对应于一个句子,并使用现有的句子嵌入空间——SONAR,该空间支持多达 200 种语言,包括文本和语音模态。大型概念模型被训练为在嵌入空间中执行自回归句子预测。我们探索了多种方法,包括均方误差(MSE)回归、扩散生成模型的变种以及在量化 SONAR 空间中操作的模型。这些探索使用了 16 亿参数的模型和大约 1.3 万亿标记的训练数据。随后,我们将一种架构扩展到具有 70 亿参数的模型,并使用大约 2.7 万亿标记的训练数据。我们在几个生成任务上进行了实验评估,主要包括摘要生成和一种新的任务——摘要扩展。最后,我们展示了我们的模型在零-shot 泛化性能上展现出令人印象深刻的表现,超越了同等规模的现有 LLM。我们的模型训练代码是开放的。
参考论文:https://arxiv.org/pdf/2412.08821
背景与挑战
当前 LLM 的局限性
大规模语言模型正在主导当前的自然语言处理研究,并且随着它们最近扩展到更多模态,如图像、视频和语音,它们似乎被视为接近人类智能的事实标准技术。LLM 在各种任务上取得了令人印象深刻的表现,例如提供详细的常识问题答案、帮助进行长文档分析、撰写不同类型的消息或编写和调试代码。
从零开始构建一个 LLM 需要巨大的计算资源,以处理越来越大量的数据并训练参数超过四千亿的模型。LLM 的知识获取高度依赖数据,扩展到更多语言或模态通常需要注入额外的(合成)数据来涵盖它们。
目前可用的 LLM 可以分为开放模型(如 Llama、Mistral、Bloom 或 Falcon)和封闭模型(如 Gemini、GPT 或 Claude)。值得注意的是,所有这些模型都基于相同的基础架构:一种基于 Transformer 的解码器语言模型,经过预训练以根据前面的上下文预测下一个标记。尽管 LLM 取得了不可否认的成功并持续进展,但当前所有的 LLM 都缺少人类智能的一个关键特征:在多个抽象层次上的显式推理和规划。
人脑并不是仅仅在单词层面操作。我们通常有一个自上而下的过程来解决复杂任务或撰写长文档:我们首先在更高的层次上规划整体结构,然后一步步在更低的抽象层次上添加细节。可以说,LLM 隐式地在学习一种层次化表示,但我们认为具有显式层次化架构的模型更适合生成连贯的长篇输出。
人类思维与 LLM 的差异
想象一下,研究人员正在做一个十五分钟的演讲。在这种情况下,研究人员通常不会通过写出每一个将要说的字来准备详细的演讲稿。相反,他们会概述他们想要传达的更高层次的想法。如果他们多次进行相同的演讲,实际说出的词语可能会有所不同,演讲甚至可以用不同的语言进行,但更高层次的抽象想法的流程将保持不变。类似地,当撰写关于某一特定主题的研究论文或文章时,人类通常会首先准备一个大纲,将整篇文章分成若干部分,然后逐步细化。在处理和分析信息时,人类很少会逐字考虑一篇长文档中的每个单词。相反,我们使用一种层次化的方法:我们记住应该在哪个部分查找特定信息。
据我们所知,这种在抽象层次上、独立于特定语言或模态的显式层次结构在当前的 LLM 中并不存在。在这项工作中,我们提出了一种新的方法,摆脱了在标记级别处理的方式,转而更接近于在抽象嵌入空间中的(层次化)推理。这个抽象嵌入空间的设计目标是独立于内容所表达的语言或模态;换句话说,我们旨在在纯粹的语义层面建模潜在的推理过程,而不是它在特定语言中的实例化。
为了验证我们的方法,我们将研究限制在两个抽象层次:子词标记和概念。我们将概念定义为一个抽象的原子思想。在实践中,概念通常对应于文本文档中的一个句子,或等效的语音表述。我们认为,句子是实现语言独立性的合适单位,而不是单个词。这与当前的 LLM 技术形成鲜明对比,后者严重依赖英语和标记。
方法论与架构
核心思路
我们的基本思路可以基于任何固定大小的句子嵌入空间,只要该空间有编码器和解码器可用。特别是,我们可以目标训练一个专门优化为我们推理架构的新的嵌入空间。在这项工作中,我们选择了一个现有的、免费提供的句子嵌入——SONAR(Duquenne 等,2023b)。SONAR 支持 200 种语言的文本输入和输出,支持 76 种语言的语音输入,并且支持英语的语音输出。
图 1 左侧展示了在嵌入空间中的推理,举了一个摘要任务的例子,该任务通过嵌入空间中的函数实现,将五个概念表示映射为两个。图 1 右侧总结了整体架构和处理流程。输入首先被分割成句子,并使用 SONAR 对每个句子进行编码,从而得到一系列概念,即句子嵌入。然后,这一系列概念通过大型概念模型(LCM)处理,在输出端生成新的概念序列。最后,生成的概念通过 SONAR 解码成一个子词序列。编码器和解码器是固定的,并且不进行训练。


