跳到主要内容
极客日志极客日志
首页博客AI提示词GitHub精选代理工具
搜索
|注册
博客列表
编程语言AI算法

Meta 大型概念模型重塑语言推理技术解析

综述由AI生成Meta 提出大型概念模型(LCM),旨在解决传统 LLM 仅基于标记级别处理信息的局限性。该模型利用 SONAR 嵌入空间,将句子视为概念单元,在显式的语义层次上进行推理。LCM 架构包含固定的编码解码器和可训练的概念模型,支持多语言和多模态输入。相比传统 Transformer,LCM 显著缩短了序列长度,提升了长上下文处理能力,并具备强大的零样本泛化能力。实验表明,LCM 在摘要生成等任务上表现优异,且代码开源,为未来语言建模提供了新的架构方向。

moshang发布于 2025/2/6更新于 2026/5/89 浏览
Meta 大型概念模型重塑语言推理技术解析

Meta 大型概念模型重塑语言推理技术解析

引言

大规模语言模型(LLM)已彻底改变了人工智能领域,成为许多任务的事实标准工具。目前,LLM 的主流技术是基于标记(Token)级别处理输入并生成输出。这与人类的处理方式截然不同,人类在多个抽象层次上操作,远远超出了单词层级,以分析信息并生成创造性内容。

本文提出了一种尝试,设计了一种在显式更高层次语义表示上操作的架构,我们将其命名为'概念'。概念是语言和模态无关的,表示流中的一个更高层次的思想或动作。因此,我们构建了一个'大型概念模型'(Large Concept Model, LCM)。

在本研究中,作为可行性证明,我们假设一个概念对应于一个句子,并使用现有的句子嵌入空间——SONAR,该空间支持多达 200 种语言,包括文本和语音模态。大型概念模型被训练为在嵌入空间中执行自回归句子预测。我们探索了多种方法,包括均方误差(MSE)回归、扩散生成模型的变种以及在量化 SONAR 空间中操作的模型。这些探索使用了 16 亿参数的模型和大约 1.3 万亿标记的训练数据。随后,我们将一种架构扩展到具有 70 亿参数的模型,并使用大约 2.7 万亿标记的训练数据。我们在几个生成任务上进行了实验评估,主要包括摘要生成和一种新的任务——摘要扩展。最后,我们展示了我们的模型在零-shot 泛化性能上展现出令人印象深刻的表现,超越了同等规模的现有 LLM。我们的模型训练代码是开放的。

参考论文:https://arxiv.org/pdf/2412.08821

背景与挑战

当前 LLM 的局限性

大规模语言模型正在主导当前的自然语言处理研究,并且随着它们最近扩展到更多模态,如图像、视频和语音,它们似乎被视为接近人类智能的事实标准技术。LLM 在各种任务上取得了令人印象深刻的表现,例如提供详细的常识问题答案、帮助进行长文档分析、撰写不同类型的消息或编写和调试代码。

从零开始构建一个 LLM 需要巨大的计算资源,以处理越来越大量的数据并训练参数超过四千亿的模型。LLM 的知识获取高度依赖数据,扩展到更多语言或模态通常需要注入额外的(合成)数据来涵盖它们。

目前可用的 LLM 可以分为开放模型(如 Llama、Mistral、Bloom 或 Falcon)和封闭模型(如 Gemini、GPT 或 Claude)。值得注意的是,所有这些模型都基于相同的基础架构:一种基于 Transformer 的解码器语言模型,经过预训练以根据前面的上下文预测下一个标记。尽管 LLM 取得了不可否认的成功并持续进展,但当前所有的 LLM 都缺少人类智能的一个关键特征:在多个抽象层次上的显式推理和规划。

人脑并不是仅仅在单词层面操作。我们通常有一个自上而下的过程来解决复杂任务或撰写长文档:我们首先在更高的层次上规划整体结构,然后一步步在更低的抽象层次上添加细节。可以说,LLM 隐式地在学习一种层次化表示,但我们认为具有显式层次化架构的模型更适合生成连贯的长篇输出。

人类思维与 LLM 的差异

想象一下,研究人员正在做一个十五分钟的演讲。在这种情况下,研究人员通常不会通过写出每一个将要说的字来准备详细的演讲稿。相反,他们会概述他们想要传达的更高层次的想法。如果他们多次进行相同的演讲,实际说出的词语可能会有所不同,演讲甚至可以用不同的语言进行,但更高层次的抽象想法的流程将保持不变。类似地,当撰写关于某一特定主题的研究论文或文章时,人类通常会首先准备一个大纲,将整篇文章分成若干部分,然后逐步细化。在处理和分析信息时,人类很少会逐字考虑一篇长文档中的每个单词。相反,我们使用一种层次化的方法:我们记住应该在哪个部分查找特定信息。

据我们所知,这种在抽象层次上、独立于特定语言或模态的显式层次结构在当前的 LLM 中并不存在。在这项工作中,我们提出了一种新的方法,摆脱了在标记级别处理的方式,转而更接近于在抽象嵌入空间中的(层次化)推理。这个抽象嵌入空间的设计目标是独立于内容所表达的语言或模态;换句话说,我们旨在在纯粹的语义层面建模潜在的推理过程,而不是它在特定语言中的实例化。

为了验证我们的方法,我们将研究限制在两个抽象层次:子词标记和概念。我们将概念定义为一个抽象的原子思想。在实践中,概念通常对应于文本文档中的一个句子,或等效的语音表述。我们认为,句子是实现语言独立性的合适单位,而不是单个词。这与当前的 LLM 技术形成鲜明对比,后者严重依赖英语和标记。

方法论与架构

核心思路

我们的基本思路可以基于任何固定大小的句子嵌入空间,只要该空间有编码器和解码器可用。特别是,我们可以目标训练一个专门优化为我们推理架构的新的嵌入空间。在这项工作中,我们选择了一个现有的、免费提供的句子嵌入——SONAR(Duquenne 等,2023b)。SONAR 支持 200 种语言的文本输入和输出,支持 76 种语言的语音输入,并且支持英语的语音输出。

图 1 左侧展示了在嵌入空间中的推理,举了一个摘要任务的例子,该任务通过嵌入空间中的函数实现,将五个概念表示映射为两个。图 1 右侧总结了整体架构和处理流程。输入首先被分割成句子,并使用 SONAR 对每个句子进行编码,从而得到一系列概念,即句子嵌入。然后,这一系列概念通过大型概念模型(LCM)处理,在输出端生成新的概念序列。最后,生成的概念通过 SONAR 解码成一个子词序列。编码器和解码器是固定的,并且不进行训练。

需要强调的是,LCM 输出端不变的概念序列可以解码成其他语言或模态,而无需重新进行整个推理过程。本着同样的理念,像摘要这样的推理操作可以在零-shot 设置下对任何语言或模态的输入进行处理,因为它仅仅操作概念。总之,LCM 既不具有输入语言或模态的信息,也不生成特定语言或模态的输出。我们探索了多种架构来训练 LCM,特别是多种扩散变体。最后,我们设想在概念之上可能存在的另一个抽象层次,这可能对应于对一段或小节的简短描述。

训练策略

在某种程度上,LCM 架构类似于 Jepa 方法(LeCun,2022),该方法也旨在预测嵌入空间中下一个观测的表示。然而,不同于 Jepa 更侧重于以自监督方式学习表示空间,LCM 专注于在现有嵌入空间中的准确预测。我们探索了多种方法,包括均方误差(MSE)回归、扩散生成模型的变种以及在量化 SONAR 空间中操作的模型。

这些探索使用了 16 亿参数的模型和大约 1.3 万亿标记的训练数据。随后,我们将一种架构扩展到具有 70 亿参数的模型,并使用大约 2.7 万亿标记的训练数据。我们在几个生成任务上进行了实验评估,主要包括摘要生成和一种新的任务——摘要扩展。

主要特点与优势

我们的通用大型概念模型方法的主要特点如下:

1. 超越标记的抽象语言和模态无关层次上的推理

我们建模的是潜在的推理过程,而不是它在特定语言中的实例化。LCM 可以在所有语言和模态上同时进行训练,即获取知识,承诺在无偏的方式下具有可扩展性。

2. 显式层次结构

  • 提高长篇输出的可读性:通过高层概念规划,确保逻辑连贯。
  • 便于用户进行本地交互编辑:用户可以在概念层面进行修改,而不必重写整个文本。

3. 处理长上下文和长篇输出

基本的 Transformer 模型的复杂度随着序列长度的增加呈二次增长,这使得处理大上下文窗口具有挑战性,因此开发了多种技术来缓解这一问题,如稀疏注意力(Child 等,2019)或 LSH 注意力(Kitaev 等,2020)。我们的 LCM 处理的序列至少比传统方法短一个数量级,因为它是基于句子而非 Token 的。

4. 无与伦比的零-shot 泛化能力

无论 LCM 是在何种语言或模态上预训练和微调,它都可以应用于 SONAR 编码器支持的任何语言和模态,而无需额外的数据或微调。我们报告了多种语言文本模态下的结果。

5. 模块化和可扩展性

与可能会受到模态竞争影响的多模态 LLM 不同(Aghajanyan 等,2023;Chameleon 团队,2024),概念编码器和解码器可以独立开发和优化,避免任何竞争或干扰。新的语言或模态可以轻松添加到现有系统中。

结论与展望

本文的目标是提供这一高层愿景的概念验证,作为当前语言建模最佳实践的替代架构。在接下来的部分中,我们将介绍我们模型的主要设计原则,并讨论构建和训练大型概念模型的几种变体。我们将讨论实现扩散方法的几种设计,并仔细研究噪声调度。本节最后,我们将与基于标记的 LLM 进行计算复杂度的比较。

第 3 节专门讨论一个更大规模的 70 亿参数模型。我们讨论了在多个生成任务上对该模型进行指令微调时遇到的挑战,并提供了与同规模现有 LLM 的比较。文章最后讨论了相关工作、我们方法的当前局限性和展望。

为了促进该领域的研究,我们将公开 LCM 训练代码以及 SONAR 编码器和解码器,支持最多 200 种语言和多种模态。未来的工作将集中在探索更高抽象层次的概念表示,以及如何进一步优化概念空间的压缩率和生成质量。

目录

  1. Meta 大型概念模型重塑语言推理技术解析
  2. 引言
  3. 背景与挑战
  4. 当前 LLM 的局限性
  5. 人类思维与 LLM 的差异
  6. 方法论与架构
  7. 核心思路
  8. 训练策略
  9. 主要特点与优势
  10. 1. 超越标记的抽象语言和模态无关层次上的推理
  11. 2. 显式层次结构
  12. 3. 处理长上下文和长篇输出
  13. 4. 无与伦比的零-shot 泛化能力
  14. 5. 模块化和可扩展性
  15. 结论与展望
  • 💰 8折买阿里云服务器限时8折了解详情
  • GPT-5.5 超高智商模型1元抵1刀ChatGPT中转购买
  • 代充Chatgpt Plus/pro 帐号了解详情
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 大模型学习路径(一):人工智能与大模型基础概述
  • SpringAI Agent 开发实战:利用 Skills 构建代码评审工具
  • AI 产品经理核心能力与实施框架指南
  • 基于 PyTorch 实现扩散模型:从原理到花卉图像生成
  • Go 语言实现 Doomsday 末日算法
  • 基于 Higress 将 REST API 转换为 MCP Server 工具
  • OpenClaw Web Search 工具配置与渠道详解
  • C++ 基于正倒排索引的 Boost 搜索引擎实现与详解
  • 8 个适合 Python 开发的接单平台及兼职建议
  • AI 大模型在医疗、金融、法律及教育等行业的应用概览
  • TimeGPT 首个时间序列基础模型介绍与实践
  • 2026 年 AI 编程工具全景评测与选型指南
  • 鸿蒙金融理财全栈项目:生态合作与用户运营优化
  • 2024 年人工智能中文大模型使用指南
  • 百瑞互联 BR8654A02 蓝牙 6.0 SOC 芯片规格介绍
  • C/C++ 算法入门:多状态动态规划与打家劫舍股票问题
  • 链表与 LinkedList
  • AWVS 漏洞扫描器部署与配置指南
  • PHP 低代码平台插件开发与架构设计
  • Mac 上配置 VSCode 的 C/C++ 开发环境 GCC G++ 教程

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online