从词向量到多模态嵌入:大型语言模型技术、应用及未来方向
摘要
词嵌入和语言模型通过将语言元素表示在连续向量空间中,彻底改变了自然语言处理(NLP)。本综述回顾了分布假设和上下文相似性等基础概念,追溯了从稀疏表示(如 One-Hot 编码)到密集嵌入(包括 Word2Vec、GloVe 和 fastText)的演变。我们考察了静态嵌入和上下文嵌入的进展,重点介绍了 ELMo、BERT 和 GPT 等模型及其在跨语言和个性化应用中的适配。讨论还扩展到句子和文档嵌入,涵盖聚合方法和生成式主题模型,并探讨嵌入在多模态领域(如视觉、机器人和认知科学)的应用。高级主题如模型压缩、可解释性、数值编码和偏差消减也进行了分析,涉及技术挑战和伦理影响。此外,我们还确定了未来的研究方向,强调了对可扩展训练技术、增强解释性以及在非文本模态中稳健的语义基础的需求。
I. 引言
大型语言模型(LLMs)通过提供先进的工具来理解和生成人类语言,彻底改变了自然语言处理(NLP)领域。这些模型的核心是词嵌入——密集的、连续的向量表示,用于捕捉单词之间的语义和句法关系。通过将单词映射到高维空间中,使语义相关的单词相互接近,词嵌入支持了细致的语言理解,已成为机器翻译、情感分析和信息检索等 NLP 应用的关键。词嵌入从早期的 One-Hot 编码逐渐发展到更复杂的 Word2Vec、GloVe 和 fastText,大大提升了语言模型的准确性和可扩展性,使其能够高精度地处理大量文本数据。
诸如 ELMo、BERT 和 GPT 之类的架构采用深度神经网络生成上下文相关的词嵌入,解决了多义词等复杂问题,并捕捉到语言中的长距离依赖关系。这些上下文表示不仅增强了 NLP 系统的准确性和稳健性,还支持了语言与其他模态(如视觉和机器人技术)的集成,使得更复杂的交互式应用成为可能。然而,尽管取得了这些进展,嵌入模型在效率、可解释性和伦理问题方面仍存在挑战。高计算成本、嵌入空间的不透明性以及训练数据中的偏差传播风险,都是亟待研究的领域。
本文回顾了词嵌入的发展历程,探讨了基础原理、多种方法、跨模态应用以及关键挑战。
II. 词嵌入与语言模型
A. 基础概念
分布假设:分布假设是许多词嵌入技术的基石,认为在相似上下文中出现的词往往具有相似的含义。该假设允许将词表示为连续空间中的向量,其中语义相似性通过向量接近性反映出来。从符号表示到分布式表示的这一转变彻底改变了 NLP,使信息检索、机器翻译和情感分析等任务得到了显著提升。然而,分布假设存在局限性,难以在不同上下文中捕捉词义的细微差别,特别是对于多义词的处理,这导致了对上下文依赖表示的需求。此外,基于分布假设的传统词嵌入在捕捉广泛的语义和句法关系方面虽有效,但计算代价高且容易出现维度灾难、词汇外(OOV)词问题和特定领域的过拟合。主要关注词属性而非词形也会导致在不同评估指标上的不一致表现,因此激励了对包含子词信息的替代词嵌入模型的研究,特别是对于形态丰富的语言。
上下文相似性:上下文在消除词义歧义和提升语言模型性能中起着关键作用。不同的上下文定义为捕捉语义关系提供了独特的方式。局部上下文通常定义为相邻词的滑动窗口,被 Word2Vec 等模型用于通过预测邻近词来学习词嵌入。尽管高效,此方法在捕捉长距离依赖方面存在局限。句子级上下文考虑整个句子,允许 LSTM-RNN 等模型整合更全面的信息,产生更细致的句子嵌入。文档级上下文进一步扩展了范围,涵盖整个文档,这对于文档分类和表示顺序数据流中的文档间时间关系任务尤为有利。
由 ELMo 和 BERT 等模型生成的上下文化词嵌入直接将上下文信息整合到词表示中,使得同一个词可以根据其上下文具有不同的嵌入。这种上下文化在解决多义词和提升词义消歧(WSD)任务性能中至关重要。例如,利用字符序列表示单词并结合周围文本的上下文字符串嵌入在 WSD 中尤其有效,尤其是在命名实体识别任务中。此外,上下文的类型和范围可以显著影响语言模型的表现。例如,尽管为字符级模型添加社会情境信息可以略微提升性能,但可能会对基于词嵌入的模型产生不利影响,表明需要仔细评估上下文与嵌入类型的相互作用。这推动了对精细化上下文选择策略和数据增强技术的研究,以进一步增强语言模型的能力。
B. 从稀疏表示到密集表示
One-Hot 编码:One-Hot 编码将词表示为稀疏的高维向量。词汇表中的每个词都分配一个唯一向量,其中仅有一个元素为 1,其余为 0。尽管简单,但此表示方式存在几个关键局限性。该向量的维数随着词汇表大小线性增长,对于大型词汇表来说维数极高。这导致极高的稀疏性,大部分元素为零,使得计算效率低且资源密集。此外,One-Hot 编码无法捕捉词之间的语义关系。每个词独立表示,无法反映词间的相似性或关系。这是一个重大限制,因为捕捉语义和句法关系对于许多 NLP 任务至关重要。例如,在 n-gram 语言模型中,预测序列中下一个词依赖于词共现。如果某些词从未共现,模型将无法推断它们之间的关系。因此,One-Hot 编码未能捕捉有效语言建模和其他 NLP 任务(如语义搜索、知识库问答和机器翻译)所需的上下文相似性。
词嵌入:词嵌入通过密集、低维的向量表示来解决 One-Hot 编码的局限性,这些向量通过大型语料库学习得到。这些向量捕捉语义和句法关系,将单词映射到连续的向量空间中,使相似词彼此接近。这种布置符合分布假设,即在相似上下文中出现的词具有相似的含义。上下文信息对于各种 NLP 任务(如词相似度测量、类比求解、文档检索和机器翻译)非常有价值。
连续向量空间表示还允许在词嵌入上进行代数运算。此特性在类比求解任务中尤为有用,其中词之间的关系可以通过向量运算表示。通过将单词嵌入潜在空间,这些模型捕捉到语言的内在语义和句法结构。这种潜在表示特别有利于下游任务(如问答、命名实体识别和神经机器翻译),因为它使模型能够超越特定单词出现的限制并识别更广泛的语义关系。与 One-Hot 编码不同,词嵌入缓解了高维度、稀疏性和缺乏语义表示的问题。密集向量允许更高效的计算,使模型能够基于大规模文本语料库的分布特性学习复杂关系。词嵌入还超越了单词的范围,能够表示短语甚至整个文档。


