从词向量到多模态嵌入:大型语言模型技术、应用及未来方向
摘要
词嵌入和语言模型通过将语言元素表示在连续向量空间中,彻底改变了自然语言处理(NLP)。本综述回顾了分布假设和上下文相似性等基础概念,追溯了从稀疏表示(如 One-Hot 编码)到密集嵌入(包括 Word2Vec、GloVe 和 fastText)的演变。我们考察了静态嵌入和上下文嵌入的进展,重点介绍了 ELMo、BERT 和 GPT 等模型及其在跨语言和个性化应用中的适配。讨论还扩展到句子和文档嵌入,涵盖聚合方法和生成式主题模型,并探讨嵌入在多模态领域(如视觉、机器人和认知科学)的应用。高级主题如模型压缩、可解释性、数值编码和偏差消减也进行了分析,涉及技术挑战和伦理影响。此外,我们还确定了未来的研究方向,强调了对可扩展训练技术、增强解释性以及在非文本模态中稳健的语义基础的需求。
I. 引言
大型语言模型(LLMs)通过提供先进的工具来理解和生成人类语言,彻底改变了自然语言处理(NLP)领域。这些模型的核心是词嵌入——密集的、连续的向量表示,用于捕捉单词之间的语义和句法关系。通过将单词映射到高维空间中,使语义相关的单词相互接近,词嵌入支持了细致的语言理解,已成为机器翻译、情感分析和信息检索等 NLP 应用的关键。词嵌入从早期的 One-Hot 编码逐渐发展到更复杂的 Word2Vec、GloVe 和 fastText,大大提升了语言模型的准确性和可扩展性,使其能够高精度地处理大量文本数据。
诸如 ELMo、BERT 和 GPT 之类的架构采用深度神经网络生成上下文相关的词嵌入,解决了多义词等复杂问题,并捕捉到语言中的长距离依赖关系。这些上下文表示不仅增强了 NLP 系统的准确性和稳健性,还支持了语言与其他模态(如视觉和机器人技术)的集成,使得更复杂的交互式应用成为可能。然而,尽管取得了这些进展,嵌入模型在效率、可解释性和伦理问题方面仍存在挑战。高计算成本、嵌入空间的不透明性以及训练数据中的偏差传播风险,都是亟待研究的领域。
本文回顾了词嵌入的发展历程,探讨了基础原理、多种方法、跨模态应用以及关键挑战。
II. 词嵌入与语言模型
A. 基础概念
分布假设:分布假设是许多词嵌入技术的基石,认为在相似上下文中出现的词往往具有相似的含义。该假设允许将词表示为连续空间中的向量,其中语义相似性通过向量接近性反映出来。从符号表示到分布式表示的这一转变彻底改变了 NLP,使信息检索、机器翻译和情感分析等任务得到了显著提升。然而,分布假设存在局限性,难以在不同上下文中捕捉词义的细微差别,特别是对于多义词的处理,这导致了对上下文依赖表示的需求。此外,基于分布假设的传统词嵌入在捕捉广泛的语义和句法关系方面虽有效,但计算代价高且容易出现维度灾难、词汇外(OOV)词问题和特定领域的过拟合。主要关注词属性而非词形也会导致在不同评估指标上的不一致表现,因此激励了对包含子词信息的替代词嵌入模型的研究,特别是对于形态丰富的语言。
上下文相似性:上下文在消除词义歧义和提升语言模型性能中起着关键作用。不同的上下文定义为捕捉语义关系提供了独特的方式。局部上下文通常定义为相邻词的滑动窗口,被 Word2Vec 等模型用于通过预测邻近词来学习词嵌入。尽管高效,此方法在捕捉长距离依赖方面存在局限。句子级上下文考虑整个句子,允许 LSTM-RNN 等模型整合更全面的信息,产生更细致的句子嵌入。文档级上下文进一步扩展了范围,涵盖整个文档,这对于文档分类和表示顺序数据流中的文档间时间关系任务尤为有利。
由 ELMo 和 BERT 等模型生成的上下文化词嵌入直接将上下文信息整合到词表示中,使得同一个词可以根据其上下文具有不同的嵌入。这种上下文化在解决多义词和提升词义消歧(WSD)任务性能中至关重要。例如,利用字符序列表示单词并结合周围文本的上下文字符串嵌入在 WSD 中尤其有效,尤其是在命名实体识别任务中。此外,上下文的类型和范围可以显著影响语言模型的表现。例如,尽管为字符级模型添加社会情境信息可以略微提升性能,但可能会对基于词嵌入的模型产生不利影响,表明需要仔细评估上下文与嵌入类型的相互作用。这推动了对精细化上下文选择策略和数据增强技术的研究,以进一步增强语言模型的能力。
B. 从稀疏表示到密集表示
One-Hot 编码:One-Hot 编码将词表示为稀疏的高维向量。词汇表中的每个词都分配一个唯一向量,其中仅有一个元素为 1,其余为 0。尽管简单,但此表示方式存在几个关键局限性。该向量的维数随着词汇表大小线性增长,对于大型词汇表来说维数极高。这导致极高的稀疏性,大部分元素为零,使得计算效率低且资源密集。此外,One-Hot 编码无法捕捉词之间的语义关系。每个词独立表示,无法反映词间的相似性或关系。这是一个重大限制,因为捕捉语义和句法关系对于许多 NLP 任务至关重要。例如,在 n-gram 语言模型中,预测序列中下一个词依赖于词共现。如果某些词从未共现,模型将无法推断它们之间的关系。因此,One-Hot 编码未能捕捉有效语言建模和其他 NLP 任务(如语义搜索、知识库问答和机器翻译)所需的上下文相似性。
词嵌入:词嵌入通过密集、低维的向量表示来解决 One-Hot 编码的局限性,这些向量通过大型语料库学习得到。这些向量捕捉语义和句法关系,将单词映射到连续的向量空间中,使相似词彼此接近。这种布置符合分布假设,即在相似上下文中出现的词具有相似的含义。上下文信息对于各种 NLP 任务(如词相似度测量、类比求解、文档检索和机器翻译)非常有价值。
连续向量空间表示还允许在词嵌入上进行代数运算。此特性在类比求解任务中尤为有用,其中词之间的关系可以通过向量运算表示。通过将单词嵌入潜在空间,这些模型捕捉到语言的内在语义和句法结构。这种潜在表示特别有利于下游任务(如问答、命名实体识别和神经机器翻译),因为它使模型能够超越特定单词出现的限制并识别更广泛的语义关系。与 One-Hot 编码不同,词嵌入缓解了高维度、稀疏性和缺乏语义表示的问题。密集向量允许更高效的计算,使模型能够基于大规模文本语料库的分布特性学习复杂关系。词嵌入还超越了单词的范围,能够表示短语甚至整个文档。
C. 上下文化词嵌入
ELMo:ELMo 通过训练在语言建模目标上的双向 LSTM 来生成上下文化的词表示。与静态词嵌入(如 Word2Vec 和 GloVe)为每个词分配单一向量(不考虑上下文)不同,ELMo 生成基于词周围文本的动态嵌入。此上下文敏感性使 ELMo 能够捕捉微妙的词义,并消除多义词的歧义。该架构由两个堆叠的 LSTM 层组成,每层在正向和反向上处理输入序列。在每个时间步,LSTM 的内部状态通过加权平均组合以形成上下文化的词表示。双向 LSTM 的不同层捕捉不同的语言信息。较低层往往编码句法信息,而较高层聚焦于语义信息。不同的层合并方式可以在下游任务训练过程中学习,以优化每层对特定任务的贡献。
BERT 及其变体:BERT 和其他基于 Transformer 的双向编码器使用 Transformer 编码器架构,并在两个目标上进行预训练:掩码语言建模(MLM)和下一个句子预测(NSP)。MLM 在输入序列中随机掩码标记,并训练模型根据周围上下文预测被掩盖的词。NSP 训练模型判断两句给定句子是否在原始文本中连续。这些目标使 BERT 能够有效地捕捉双向上下文,解决了之前模型依赖单向或浅双向表示的局限性。BERT 用于特定下游任务的微调涉及在预训练编码器之上添加任务特定层,并在目标任务的标注数据上训练整个模型。
RoBERTa 通过移除 NSP 目标、使用更大的批量和更多数据训练,并在训练过程中动态更改掩码模式来修改 BERT 的预训练过程。ALBERT 引入了参数缩减技术,如因式分解的嵌入参数化和跨层参数共享,以减少模型大小并提高训练效率,同时保持性能。这些变体解决了与 BERT 相关的一些计算挑战,并在各种下游任务中表现出更好的性能。BERT 及其变体通过基于上下文生成不同的词嵌入来处理多义词。MLM 目标通过利用周围的上下文来帮助捕捉稀有词的含义。然而,由于 Transformer 架构中自注意力机制的二次复杂性,长序列仍然会带来挑战。将词向量与词分类器作为语言建模的损失框架绑定也被探索过,以提高语言模型的性能。
其他上下文化嵌入:GPT 使用 Transformer 解码器架构并通过语言建模目标进行训练,预测序列中的下一个词。这种自回归方法捕捉了单向依赖,限制了其捕捉完整双向上下文的能力。XLNet 通过使用置换语言建模目标解决了这一限制,该目标在训练过程中考虑输入序列的所有可能排列,从而允许它在保持自回归形式的同时捕捉双向上下文。XLM 将 BERT 扩展以支持跨语言训练,利用翻译语言建模目标来学习跨语言捕捉单词关系的表示。这些模型的输入嵌入通常表示词级信息,而输出嵌入编码上下文化表示。绑定输入和输出嵌入可用于减少参数数量,并可能提高性能。
D. 子词级词嵌入与泛化
处理稀有词和未见词的子词信息:标准词嵌入技术通常难以处理稀有词和未见词,从而导致词汇外(OOV)问题,阻碍了对新词汇的泛化。子词级信息(如字符 n-gram 和词素)通过将词表示为子词单元的组合,为解决此限制提供了一种方法。采用这种方法,子词嵌入模型即使对于训练中未见过的词也可以生成有意义的表示。文献考察了词嵌入如何通过语义相关词扩展查询,提升了查询语言模型在处理词汇不匹配方面的准确性和鲁棒性。在此基础上,提出了一种通用语言模型,利用词嵌入解决信息检索中的词汇不匹配问题。该模型将查询词的观测视为一个两步过程:从文档或集合中生成一个中间词并将其转换为观测的查询词,从而有效地捕捉词间关系并缓解词汇不匹配问题。
类似地,引入了一种子词级向量模型,将词视为字符 n-gram 的集合,使其能够为稀有或未见词生成有效的嵌入。该模型在计算上高效,易于训练,并在跨多种语言的词相似性和形态句法任务上展示了最先进的性能。提出了一个简化方法,用于在稀有或未见词上训练词嵌入,利用对数双线性模型的噪声对比估计。这种方法比之前的模型更快、更高效,并在嵌入质量和泛化方面表现出更佳的效果。此外,提供了对词嵌入模型的广泛回顾,包括子词级方法及其在各种 NLP 任务中的应用。
跨语言词嵌入和低资源语言:子词信息在推进跨语言词嵌入,特别是对训练数据有限的低资源语言方面发挥着重要作用。通过捕捉跨语言的形态相似性,子词级模型可以为形态相关的词学习共享表示,即使它们在表面形式上有所不同。探讨了词嵌入中的通用和语言特定属性,揭示了词形特征对屈折语言特别有益。类似地,研究了基于双语词典派生的跨语言词嵌入,以增强低资源语言的语言模型。该方法应用于永宁纳语,突显了低资源环境中的挑战和潜在解决方案。
此外,开发了一个支持 100 多种语言的语言无关 BERT 模型 LaBSE,在跨语言任务中设立了新的基准。LaBSE 利用多语种和单语数据,使用 MLM 和 TLM 等技术学习有效的跨语言句子嵌入。最后,基于一个大型未标注语料库和机器翻译词对齐引入了双语词嵌入,通过跨语言捕捉语义等价性,在机器翻译方面取得了显著改进。
E. 个性化词嵌入
建模个体语言差异:个性化词嵌入旨在捕捉个体在词语使用和语言偏好上的差异,超越了标准的通用表示。这些嵌入可以提升语言模型在定制到特定用户的任务中的表现。文献研究了个性化词嵌入在语言建模中的价值,发现将通用嵌入和个性化嵌入结合使用,能实现困惑度相对降低,从而提升了模型性能。他们还观察到,与特定心理语言学类别相关的词在用户间表现出较大差异,表明个性化模型在预测此类词方面特别具有优势。此外,考察了句子嵌入中编码的属性,为词频和位置距离等因素在模型对内容和词序编码中的影响提供了见解。他们关于句子层次上个体语言差异的发现,为开发更具用户特定性的词嵌入和 NLP 系统提供了宝贵的指导。
个性化嵌入的应用:个性化词嵌入已在多种 NLP 任务中展现出效用。展示了个性化嵌入在作者归属上的潜力,表明其可以有效捕捉独特的写作风格。引入了基于用户点击数据训练的 LSTM-RNN 模型,用于句子嵌入,强调个性化嵌入在用户特定文档检索系统中的应用,这些系统可以提供更相关的搜索结果和量身定制的推荐。个性化嵌入还可以利用用户历史数据:提出了一种用户嵌入模块(UEM),将用户历史压缩为嵌入,作为提示嵌入到语言模型中。这种方法在个性化语言任务上带来了改进,表明个性化嵌入能有效捕捉用户偏好和兴趣,用于定制推荐和用户画像。
III. 多模态嵌入与跨模态表示
随着大模型技术的发展,嵌入表示已不再局限于文本领域,而是扩展到了视觉、音频和机器人感知等多模态场景。
视觉 - 语言对齐:CLIP(Contrastive Language-Image Pre-training)是这一领域的代表性工作。它通过在大规模图像 - 文本对上进行对比学习,将图像和文本映射到同一向量空间。在这种空间中,相似的图像和文本描述在向量距离上更接近。这使得模型能够进行零样本分类,即在没有针对特定类别进行微调的情况下,识别图像内容。类似的模型如 ALIGN 和 ViLT 也采用了不同的架构来实现跨模态对齐。
多模态大模型:现代大型语言模型开始原生支持多模态输入。例如,部分模型可以直接接收图像作为输入,并生成文本描述或回答关于图像的问题。这种能力依赖于强大的视觉编码器(如 Vision Transformer, ViT)与语言解码器的结合。通过联合训练,模型学会了理解图像中的物体、场景以及它们与文本描述的对应关系。
机器人应用:在机器人学中,嵌入被用于将传感器数据(如激光雷达点云、摄像头图像)转化为可被决策模型理解的向量。这使得机器人能够理解'拿起红色的杯子'这样的指令,并将其映射到具体的动作序列。这种端到端的表示学习减少了传统流水线中特征工程的需求,提高了系统的泛化能力。
IV. 挑战与伦理考量
尽管嵌入技术取得了巨大成功,但在实际部署中仍面临诸多挑战。
计算效率与模型压缩:随着模型参数量达到数十亿甚至万亿级别,推理成本变得高昂。知识蒸馏、量化和剪枝等技术被广泛用于压缩模型。然而,如何在压缩后保持嵌入空间的语义质量是一个持续的挑战。特别是在低资源设备上运行大模型时,内存带宽和延迟往往是瓶颈。
可解释性与黑盒问题:深度学习模型通常被视为黑盒。虽然我们可以可视化注意力权重或进行探针实验,但很难完全解释模型为何做出特定的预测。在医疗、法律等高风险领域,缺乏可解释性会阻碍模型的采纳。研究正在探索如何构建更透明的嵌入空间,以便人类能够理解向量之间的几何关系所代表的语义含义。
偏差与公平性:嵌入模型从互联网数据中学习,不可避免地继承了数据中的社会偏见。例如,某些职业可能与特定性别相关联。如果不加干预,这些偏见会在下游任务中被放大,导致不公平的结果。去偏技术包括在训练阶段调整损失函数、在嵌入空间中进行投影修正或在推理阶段进行后处理。然而,定义什么是'公平'本身就是一个复杂的社会和技术问题。
隐私与安全:嵌入向量有时可能泄露训练数据的敏感信息。成员推断攻击试图确定某个特定样本是否被用于训练模型。此外,对抗性攻击可以通过微小的扰动误导模型产生错误的嵌入表示。保护用户隐私和确保模型鲁棒性是安全研究的重要方向。
V. 未来研究方向
展望未来,嵌入技术的发展将集中在以下几个关键领域:
- 可扩展训练技术:随着数据规模的指数级增长,现有的训练范式需要优化。分布式训练框架、混合精度训练以及更高效的优化算法将是提升训练效率的关键。
- 增强解释性:开发可视化工具和理论框架,帮助研究人员和开发者理解嵌入空间的内部结构。这将有助于调试模型错误并建立用户对 AI 系统的信任。
- 非文本模态的稳健语义基础:目前多模态模型在文本上表现优异,但在音频、视频和物理世界交互中的语义理解仍有待加强。构建统一的多模态基础模型,能够无缝处理异构数据,是重要的演进方向。
- 持续学习与适应:现实世界的数据分布是动态变化的。模型需要具备持续学习能力,在不遗忘旧知识的前提下适应新数据和新任务,避免灾难性遗忘。
- 绿色 AI:降低模型训练和推理的碳足迹。通过算法优化和硬件协同设计,实现更环保的 AI 系统。
VI. 结论
词嵌入和多模态表示技术构成了现代人工智能的基石。从简单的 One-Hot 编码到复杂的上下文感知 Transformer 模型,这一演进过程极大地推动了自然语言处理及相关领域的发展。本文系统梳理了嵌入技术的理论基础、核心算法及应用场景,并深入分析了当前面临的挑战与未来的发展方向。随着技术的不断成熟,我们有理由相信,更加智能、高效、公平且可解释的嵌入模型将在更多领域发挥关键作用,赋能人类社会数字化转型。