[论文解读]层次化注意力:用于高效长文档分类的分层注意力变换器的探索

[论文解读]层次化注意力:用于高效长文档分类的分层注意力变换器的探索

用于高效长文档分类的分层注意力变换器
的探索

Ilias Chalkidis†  Xiang Dai‡  Manos Fergadiotis⋄
Prodromos Malakasiotis⋄  Desmond Elliott†∡
† Department of Computer Science, University of Copenhagen, Denmark
† CSIRO Data61, Sydney, Australia
⋄ Department of Informatics, Athens University of Economics and Business, Greece
∡ Pioneer Centre for AI, Copenhagen, Denmark
Corresponding author: ilias.chalkidis[at]di.ku.dk

摘要

非分层稀疏注意力基于 Transformer 的模型,例如 Longformer 和 Big Bird,是处理长文档的流行方法。 与原始 Transformer 相比,这些方法在效率方面具有明显的优势,但分层注意力 Transformer (HAT) 模型是一种尚未得到充分研究的替代方案。 我们开发并发布了完全预训练的 HAT 模型,该模型使用分段编码器和跨分段编码器,并将它们与 Longformer 模型和部分预训练的 HAT 进行比较。 在几个长文档下游分类任务中,我们最好的 HAT 模型优于同等大小的 Longformer 模型,同时使用的 GPU 内存减少了 10-20%,文档处理速度提高了 40-45%。 在一系列消融研究中,我们发现 HAT 在整个模型中通过跨细分情境化表现得最好,而不是实现早期或晚期跨细分情境化的替代配置。 我们的代码位于 GitHub 上:。

1简介

长文档分类是对单个长文档的分类,通常长度为数千字,例如法律Chalkidis等人(2022)和生物医学文档Johnson 等人 (2016),或长短文本块的协同处理,例如顺序句子分类 Cohan 等人 (2019)、文档级多项选择 QA Pang 等人 (2021),以及文档级 NLI Koreeda 和 Manning (2021)。

处理长文档的一种方法是简单地扩展基于 Transformer 的标准语言模型(Devlin 等人 (2019) 的 BERT、Liu 等人 (2019) 的 RoBERTa、等),但是考虑到 𝑂​(𝑁2) 自注意力操作,这对于长序列来说是有问题的。 为了解决这个计算问题,研究人员引入了基于 Transformer 的高效架构。 一些稀疏注意力网络,例如 Beltagy 等人 (2020) 的 Longformer 或 Zaheer 等人 (2020) 的 BigBird,已经被提出,依赖于不同注意力的组合模式(例如,依赖本地(邻居)、全局和/或随机选择的标记)。 另一种方法依赖于分层注意力变换器(HAT),它使用多级注意力模式:分段注意力,然后是跨分段注意力。 HAT 的临时(部分预训练)和非标准化变体已在文献 Chalkidis 等人 (2019) 中提出;吴等人 (2021); Chalkidis 等人 (2022);刘等人 (2022); Dai 等人 (2022),但此类模型的潜力仍未得到充分研究。

www.zeeklog.com  - [论文解读]层次化注意力:用于高效长文档分类的分层注意力变换器的探索

图1:性能 - HAT 和 Longformer 在下游任务上的效率权衡。

在这项工作中,我们研究了完全(端到端)预训练 HAT 的潜力,旨在回答三个主要问题:(a)HAT 中分段和跨分段注意层的哪种配置表现最好? (b) 与临时(部分预训练)(即在微调期间插入随机初始化的跨段 Transformer 块)相比,端到端预训练 HAT 的效果如何? (c) 与广泛使用的稀疏注意力网络(例如 Longformer 和 BigBird)相比,使用 HAT 是否具有计算或下游性能优势?

2相关工作

2.1稀疏注意力 Transformer

Beltagy 等人 (2020) 的 Longformer 由局部(基于窗口)注意力和全局注意力组成,降低了模型的计算复杂度,因此可以部署来处理到 4096 标记。 局部注意力是在相邻(连续)标记的窗口之间计算的。 全局注意力依赖于全局 Token 的概念,全局 Token 能够参与序列中的任何其他词符并被序列中的任何其他词符参与。 窗口(局部)注意力在任何意义上都不会利用分层信息,并且可以被认为是贪婪的。

Zaheer 等人 (2020) 的 BigBird 是另一种基于稀疏注意力的 Transformer,它结合了局部、全局和随机注意力,即所有 token 也都包含在一个数字中随机 Token 位于同一邻域中的 Token 之上。 这两个模型都是从公共 RoBERTa 检查点热启动的,并在掩码语言模型上进行了进一步的预训练。 据报道,它们在一系列需要对长序列进行建模的任务上表现优于 RoBERTa。

www.zeeklog.com  - [论文解读]层次化注意力:用于高效长文档分类的分层注意力变换器的探索

图2:所检查架构的注意力模式:分层(分段注意力,然后是跨段注意力)和稀疏(窗口注意力和全局注意力的组合)注意力 Transformer 。

在这两种情况(模型)中,局部(邻居)、全局和随机选择的标记的注意力分数被组合(添加),即注意力仅混合单词级表示(图)。 BigBird 的计算成本甚至更高,在某些基准测试中具有边缘改进的结果,例如 Tay 等人 (2021) 的 LRA,但在其他基准测试中则不然,例如 Chalkidis 等人 (2022) 的 LexGLUE 。

www.zeeklog.com  - [论文解读]层次化注意力:用于高效长文档分类的分层注意力变换器的探索

图3:顶部:分层注意力变换器 (HAT) 的两个主要模块(构建块):分段式 (SWE) 和跨分段 t2> (CSE) 编码器。 底部:四个已检查的 HAT 变体。

2.2分层注意力 Transformer

分层注意力变换器(HAT)直接受到Yang等人(2016)的分层注意力网络(HAN)的启发。 主要思想是以分层方式处理(编码)文档,例如,将每个句子的单词表示置于上下文中,然后跨句子进行句子级表示。 Chalkidis 等人 (2019) 可能是第一个使用 HAT 作为基于预训练的 Transformer 语言模型处理长文档的可行选项的人。 与 BERT(使用截断的文档)或 HAN 相比,他们使用 BERT 的分层变体展示了改进的结果。 Chalkidis 等人 (2022) 的工作中使用了类似的模型,他们比较了几种预训练语言模型(BERT、RoBERTa 等)的分层变体,展示了与 Longformer 和 BigBird 类似的结果长文档分类任务。 最近,Dai 等人 (2022) 将基于 RoBERTa 的临时 HAT 与 Longformer 进行了比较,并报告了在四个文档分类任务中的类似性能。

Wu 等人 (2021) 提出了一种 HAT 架构,名为 Hi-Transformers,它是我们在  节中详细介绍的交错变体的浅层版本。 他们表明,与 Longformer 和 BigBird 相比,他们的模型在三个分类任务中表现更好。 尽管他们的分析依赖于非预训练模型,即所有考虑的模型都是随机初始化并直接对下游任务进行微调,因此预训练此类模型的影响是未知的。

Liu 等人 (2022) 提出了一种类似的架构,名为分层稀疏变换器(HST)。 Liu 等人表明,与 Longformer 和 BigBird 相比,HST 在远程竞技场 (LRA) 基准、文本分类和 QA 方面的结果有所提高。 他们的分析考虑单一布局(拓扑),并且主要限于文档并不长(<1000 个标记)的数据集。 在我们的工作中,我们考虑了几种 HAT 布局(配置),并在多个段级、文档级和具有较大文档的多段任务中评估我们的模型(表 )。

2.3其他方法

文献 Katharopoulos 等人 (2020) 中提出了其他几种基于 Transformer 的高效模型; Kitaev 等人 (2020); Choromanski 等人 (2021)。 我们建议读者参考Xiong 等人 (2021); Tay 等人 (2022) 对有效注意力变体的调查。 最近其他非基于 Transformer 的方法 Gu 等人 (2022); Gupta 等人 (2022) 被提出依赖于结构化状态空间Gu 等人 (2021) 进行高效的长序列处理。 在这项工作中,我们不会与此类架构(是否基于 Transformer)进行比较,因为目前没有标准化的实现或公开可用的预训练模型可供依赖。 还有其他几种基于 Transformer 的编码器-解码器模型 Guo 等人 (2022); Pang 等人 (2022) 针对生成任务,例如长文档摘要 Shen 等人 (2022),这超出了本研究的范围。

3分层注意力 Transformer

3.1架构

分层注意力变换器 (HAT) 将一系列标记 (𝑆) 视为输入,这些标记序列组织为 𝑁 大小相等的段(块)(𝑆=[𝐶1,𝐶2,𝐶3,…,𝐶𝑁])。 每个子序列(段)都是𝐾标记(𝐶𝑖=[𝑊𝑖​[CLS],𝑊𝑖​1,𝑊𝑖​2,𝑊𝑖​3,…,𝑊𝑖​𝐾−1])的序列,即每个段都有自己的段级代表[CLS]词符。 HAT 使用两种类型的神经模块(块)构建: (a) 分段编码器 (SWE):共享 Transformer Vaswani 等人 (2017) 块独立处理每个段 (𝐶𝑖),以及 (b) 跨段编码器 (CSE):Transformer 块处理(和上下文化)段级代表标记 (𝑊𝑖​[CLS])。 这两个组件可用于多种不同的布局(拓扑)。 我们在  节中介绍了 HAT 变体(架构)。

HAT 使用两种类型的绝对位置嵌入来对标记的位置进行建模:分段位置嵌入 (𝑃𝑖𝑠​𝑤∈R𝐻,𝑖∈[1,𝐾]) 用于对每个分段的词符定位进行建模,以及 跨分段分段位置嵌入(𝑃𝑖𝑐​𝑠∈R𝐻,𝑖∈[1,𝑁])来对文档中分段的位置进行建模。 𝑃𝑠​𝑤 嵌入是对单词嵌入的附加,就像大多数其他基于 Transformer 的模型(例如 BERT)一样。 同样,𝑃𝑐​𝑠 嵌入在传递到 CSE 之前被添加到分段表示 (𝑊𝑖​[CLS]′) 中,并且它们在模型的所有 CSE 之间共享。 附录  的图  中提供了 HAT 的更详细描述,包括位置嵌入。

3.2检查布局

我们首先研究 HAT 层的几种替代布局,即 SWE 和 CSE 的放置:

Ad-Hoc (AH):临时(部分预训练)HAT Chalkidis 等人 (2022) 包含共享 𝐿SWE 的初始堆栈> 来自预先训练的基于 Transformer 的模型的分段编码器,然后是 𝐿CSE 特别分段编码器。 在这种情况下,模型首先对每个片段的词符表示进行编码和上下文化,然后构建高阶片段级表示(图(a))。

交错式 (I):交错式 HAT 包含一堆 𝐿P 成对的分段和跨分段编码器。 在这种情况下,与 HAT 的临时版本相反,跨段注意力(情境化)是在模型的多个级别(层)上执行的(图(b))。

早期上下文化 (EC):早期上下文化 HAT 包含初始堆栈 𝐿P 成对的分段和跨分段编码器,后面是堆栈 𝐿SWE 分段编码器。 在这种情况下,跨段注意力(上下文化)仅在模型的初始层执行(图(c))。

后期上下文化 (LC):后期上下文化 HAT 包含初始堆栈 𝐿SWE 分段编码器,后跟堆栈 𝐿P 配对分段和分段编码器。 在这种情况下,跨段注意力(上下文化)仅在模型的后面层中执行(图(d))。

我们在附录  中提出了特定于任务的 HAT 架构(例如,词符/片段/文档分类和多项选择 QA 任务)。

3.3标记化/细分

由于 HAT 考虑一系列分段,因此我们需要定义分段策略,即如何将标记(子词)分组为分段。 标准方法将句子或段落视为片段。 我们选择动态分段策略,平衡保留文本结构(避免句子截断)和最小化填充之间的权衡,从而最大限度地减少文档截断。 我们通过将句子分组到总标记数为 𝐾 的方式将每个文档分割为 𝑁 段。1 遵循 Dai 等人 (2022),我们的模型考虑每个 𝐾=128 Token 的片段;这样的窗口被证明可以平衡计算复杂性和任务性能。

4实验设置

4.1评估任务

我们考虑三组评估任务:(a)上游(预训练)任务,旨在以通用的自监督方式预训练(热启动)编码器; (b) 中游(质量评估)任务,旨在估计预训练模型的质量; (c) 下游任务,旨在估计模型在现实(实际)应用中的性能。

上游(预训练)任务:我们考虑掩码语言建模(MLM),这是由Devlin等人提出的传统语言建模的成熟双向扩展( 2019) 用于基于 Transformer 的文本编码器。 继 Devlin 等人 (2019) 之后,我们屏蔽了 15% 的 Token 。

中游任务:我们考虑了四种替代的中游任务。 这些任务旨在评估预训练模型(即在 MLM 任务上预训练的模型)的单词、片段和文档表示的质量。2

Dataset NameTask TypeNo of ClassesNo of SamplesAvg. Doc. Length
MIMIC-IIIJohnson et al. (2016)Document Classification1930,000/10,000/10,0003,522
ECtHR-LJPChalkidis et al. (2021c)Document Classification109,000/1,000/1,0002,104
ContractNLIKoreeda and Manning (2021)Document NLI37,191/2,091/1,0372,220
QuALITYPang et al. (2021)Multiple-Choice QA42,523/1,058/1,0286,821
ECtHR-ARGHabernal et al. (2022)Paragraph Classification8900/100/1001,285

表格1:所检查的长文档下游任务(数据集)的规范。 我们报告训练、开发和测试子集的任务类型、类别数量和样本数量。 我们还报告了 RoBERTa 分词器生成的 BPE 中的平均文档长度度量。

段屏蔽语言模型 (MLM),MLM 的扩展,其中段子集中的一定百分比 (20%) 的标记被屏蔽。 我们考虑两种替代方案:40% (SMLM-40) 和 100% (SMLM-100) 掩蔽。 对于此任务,我们预测屏蔽标记的身份。 我们使用交叉熵损失作为评价指标。 直观地,我们评估跨细分情境化,因为我们主要基于其他细分来预测细分的屏蔽词。

分段顺序预测 (SOP),其中模型的输入是文档中打乱顺序的分段序列。 该任务的目标是预测片段的正确位置(顺序),就像在原始文档中一样。 对于此任务,我们将预测每个片段的位置作为回归任务;因此我们的评估指标是平均绝对误差(mae)。 直观地,我们评估跨细分情境化和细分级表示的质量,因为细分顺序必须解决给定的细分关系。

多项选择屏蔽片段预测 (MC-MSP),其中模型的输入是文档中的一系列片段,一次屏蔽一个片段,以及五个替代片段的列表 (选择),包括蒙面的选择。 该模型的此任务的目标是识别正确的分段;从原始文档中屏蔽掉的内容。 在这项任务中,我们预测所有配对中正确配对(<屏蔽文档,选择>)的 ID,因此我们的评估指标是准确率。 与 SOP 类似,我们评估跨段上下文化和段级表示的质量,因为预测正确的段必须基于文档级语义和被屏蔽段的相邻段的语义来解决。

文档主题分类 (DTC),其中模型的输入是完整文档。 该模型的此任务的目标是从 𝑁 替代标签(主题)中识别正确的标签。 直观地,我们评估文档级表示,因为相关主题是通过文档级(合并)表示推断的。 这是一个单标签多类分类任务,评估指标是微平均F1(F1)。

下游任务:我们考虑四个下游长分类任务,涵盖三个不同应用领域的四种任务类型。3

MIMIC-III Johnson 等人 (2016) 包含约。 来自美国医院的 50,000 份出院摘要。 每份摘要都用 ICD-9 分类法中的一个或多个代码(标签)进行注释。 模型的输入是出院小结,输出是相关的一级ICD-9(共19个)代码集。

ECtHR-LJP Chalkidis 等人 (2021c) 包含约。 来自欧洲人权法院 (ECtHR) 公共数据库的 11,000 起案件。 对于每个案例,数据集提供案例描述中的事实段落(事实)列表。 每个案例都映射到据称违反的 ECHR 条款(由法院考虑)。 模型的输入是案件事实列表,输出是涉嫌违规文章的集合。

ContractNLI Koreeda and Manning (2021) 是基于契约的自然语言推理 (NLI) 的数据集。 该数据集包含 607 份合同,特别是保密协议 (NDA)。 每个文档都与 17 个模板化假设配对,并标记为三个类别中的一个(蕴涵矛盾中性 t3>)。 这是一个单标签多类分类任务。 模型的输入是完整的文档和假设,输出是三个可能类别中的正确结果。

质量 Pang 等人 (2021) 包含约。 基于参考文档(书籍或文章)的 5k 个问题。 每个问题都配有 4 个备选答案,其中一个是正确答案。 模型的输入是文档(上下文)、问题和四个备选答案,输出是正确答案的 id。

ECtHR-ARG Haberal 等人 (2022) 包含约。 来自欧洲人权法院 (ECtHR) 的 300 起案件。 对于每个案例,数据集提供案例分析中的论证性段落列表。 每个段落中的 Span 都标有 13 种参数类型中的一种或多种。 我们重新制定此任务,将其作为顺序段落分类任务,其中每个段落都标有一个或多个标签。 模型的输入是案例的段落列表,输出是每个段落的相关参数类型的集合。4

Model TypeSWEParamsLayout (Encoder Type per Layer)SpeedUpMemSave
Baselines
Longformer614.4MW+GW+GW+GW+GW+GW+G--
MiniHATAH1617.7MSWSWSWSWSWSWCSCSCSCSCSCS20%2%
MiniHATAH28>>SWSWSWSWSWSWSWSWCSCSCSCS20%-4%
Interleaved
MiniHATI16>>SWCSSWCSSWCSSWCSSWCSSWCS20%2%
MiniHATI26>>SWSWCSCSSWSWCSCSSWSWCSCS20%2%
MiniHATI38>>SWSWCSSWSWCSSWSWCSSWSWCS20%-4%
MiniHATI49>>SWSWSWCSSWSWSWCSSWSWSWCS20%-6%
Early-Fusion
MiniHATEC19>>SWCSSWCSSWCSSWSWSWSWSWSW20%-6%
MiniHATEC28>>SWSWCSCSSWSWCSCSSWSWSWSW20%-4%
Late-Fusion
MiniHATLC19>>SWSWSWSWSWSWSWCSSWCSSWCS20%-6%
MiniHATLC28>>SWSWSWSWSWSWCSCSSWSWCSCS20%-4%

表2:检查微型模型的布局。 SWE:分段编码器的数量。 布局:分段(SW)和跨分段(CS)编码器的组织。 对于 Longformer,存在具有配对的基于窗口和全局 (W+G) 注意力的编码器。 SpeedUp 是时间改进(批量/秒),MemSave 是使用 1× 进行掩码语言建模时相对于 Longformer (LF) 的内存减少A100 40GB。

5实验

5.1微型语言模型 (MiniHAT)

我们首先进行一项对照研究,在标准 MLM 设置中预训练不同的基于微型分层 Transformer 的模型。 简而言之,我们称它们为MiniHAT。 MiniHAT 总共有 12 个 Transformer 块(层),每个块有 256 个隐藏单元,带有 4 个注意力头。 我们研究了 8 种替代模型布局(4 个交错、2 个早期上下文化和 2 个后期上下文化;有关更多详细信息,请参阅第  节),其确切布局如表  所示>。

热启动:继Beltagy等人(2020)和Zaheer等人(2020)之后,我们从预训练的MiniHAT中热启动检查站。 在初步知识实验中,我们发现模型的最佳预热策略是热启动所有嵌入层(单词、位置、类型)和所有 Transformer 块,即复制每个原始 Transformer 块的权重到 SWE 编码器,以及以下 CSE 编码器(如果有)。5 对于热启动 MiniHAT,我们使用 Turc 等人 (2019) 的微型 BERT 模型。 我们考虑基于 SWE 编码器数量的模型,即具有 6 个 SWE 编码器的 MiniHAT I1 变体是从 Turc 等人的 6 层 BERT 模型热启动的。我们训练模型的序列最多为 1024 个标记(128 个标记的 8× 段)。 与Turc等人类似,我们使用英文维基百科(2021转储)构建MLM、MSLM-40/100、SOP和MC-MSP中流任务的数据集(第)。

基线:我们还预训练了 6 层 Longformer 模型,该模型比我们的 12 层 MiniHAT 计算量更大(在内存方面几乎相等,但慢 20%)(表  对于 Longformer,我们使用类似的标记化策略,使用特殊分隔符词符 ([SEP]) 连接片段。 我们使用等于段大小(𝐾=128 标记)的窗口大小。 [CLS] 和所有 [SEP] Token 被视为所有任务中的全局 Token ,以改善全局信息流。

我们还与两个 ad-hoc (AH) HAT 模型进行比较(没有用于 (S)MLM 的 CS 编码器;因为 CS 编码器不更新字级表示)。 由于所有模型都是热启动的,我们继续以 128 个样本为批次进行 50k 步骤的预训练,类似于 Beltagy 等人 (2020)。

Model NameSWETrain MLMDev MLM
Longformern/a2.442.21
MiniHAT - AH162.412.18
MiniHAT - AH282.312.09
MiniHAT - I162.402.17
MiniHAT - I262.672.30
MiniHAT - I382.302.08
MiniHAT - I492.342.09
MiniHAT - EC192.342.09
MiniHAT - EC282.332.09
MiniHAT - LC192.352.10
MiniHAT - LC282.352.12

表3:所有检查的基于 Transformer 的微型模型的 MLM 结果。 我们报告训练和发展传销损失(交叉熵)。 SWE 是每个模型的分段编码器的数量。

Model NameSWEMLMSMLM-40SMLM-100SOPMC-MSPDTC
loss (↓)loss (↓)loss (↓)mae (↓)acc. (↑)F1 (↑)
Longformern/a2.214.056.870.9887.976.3
MiniHAT (AH2)82.094.087.080.8949.171.8
MiniHAT (I1)62.174.096.380.8987.177.1
MiniHAT (I3)82.084.036.450.8489.677.1
MiniHAT (EC2)82.094.056.540.8879.276.6
MiniHAT (LC1)92.104.076.680.9084.277.6

表 4:所有检查的微型 HAT 模型在中游任务上的开发结果。

结果:我们展示了上游和中游任务的实验结果:

上游任务(传销): 在表  中,我们展示了 MLM 任务的结果。 我们观察到,总体趋势表明,更多的分段(SW)编码器有利于跨分段(CS)编码器。 考虑到临时 MiniHAT(AH1 和 AH2)的结果,这一点得到了进一步强调,这些结果清楚地表明,掩码语言建模(在标准设置中)的分段上下文化的好处是最小的(MLM 损失改善了 0.01)比较 AH1 与 I1 以及 AH2 与 I3)。 我们还观察到,具有 2/1 或 3/1 SW/CS 编码器比率(参见 I3 和 I4)的交错 (I) 注意力模式(布局)具有最佳结果。

中游任务: 基于最初的 MLM 实验,我们考虑并评估所有(五个)中流任务的以下模型:从我们的基线来看,迷你 Longformer、MiniHAT-AH2(包括四个随机初始化的 CSE 编码器)和 I1, MiniHAT 的 I3、EC2、LC1 变体;涵盖每个布局的最佳模型(AH、I、EC、LC),包括计算效率最高的模型(I1)。

表显示了所有任务的开发结果。 我们观察到,在两个 SMLM 任务中,随着屏蔽 Token 的百分比从 40% 增加到 100%,AH2 的性能比替代 MiniHAT 差得多。 这些结果可以解释为I1、I3和LC1具有跨段编码器;因此,他们可以利用跨分段信息来补偿未屏蔽的分段上下文(邻居 Token )的减少。

转向其余的中流任务,我们观察到 I3 变体具有最佳的总体结果,其次是 I1 和 LC1。 在多项选择屏蔽句子预测 (MC-MSP) 和文档主题分类 (DC) 中,AH2 模型的表现明显优于其余模型。 这一结果表明,与以临时方式插入随机初始化的跨段 (CS) 编码器相比,MiniHAT 的完全(端到端)预训练是有益的;与 Chalkidis 等人 (2022) 和 Dai 等人 (2022) 在他们的工作中所做的类似。 我们还观察到,EC2 变体的性能远远优于使用贯穿(交错)或后期语境化的其他变体(I1、I3、LC1),这听起来很合理,因为类似多项选择 QA 的任务严重依赖于跨段语境化,不良(早期)细分表征的早期语境化可能并不理想。 最后,与 I 模型相比,LC1 在 DTC 方面的表现似乎更好,而 EC2 的表现最差,这可以解释为早期上下文化可能不足以完成文档分类任务。

主要观察结果: 根据微型模型的结果,我们做出以下观察: (a) 与临时解决方案相比,端到端预训练 HAT 是有益的; (b) 具有更多分段编码器的布局比更多跨分段编码器表现更好; (c) 考虑到总体结果,分段和跨分段块交错是最有前途的布局; (d) 与同样内存密集但速度较慢的 Longformer 相比,Interleaved HAT 的性能更好。

5.2更大的语言模型

为了进一步巩固我们的发现,我们将工作扩展到更大的模型。 考虑到  节中的总体结果,我们考虑 HAT (I3) 的最佳变体。 具体来说,我们训练 16 层模型,由 12 个分段编码器和 4 个跨分段编码器组成,采用 4×(3SWE-1CSE) 拓扑),从 12 层 RoBERTa 模型热启动刘等人 (2019)。 我们还考虑 12 层 Longformer 和 16 层 ad-hoc HAT 作为基线。

在此阶段,我们关注更大的序列(最多 4096 个标记;32× 段,每个段 128 个标记)。 我们使用 C4 Raffel 等人 (2020) 为上游和中游任务构建数据集,以覆盖更多样化(且更具挑战性)的语料库,类似于 Liu 等人 使用的语料库。正如我们在  节中的实验一样,我们使用至少 1024 个标记的序列预训练模型 50k 步骤。

作为参考,我们还报告了 Beltagy 等人 (2020) 的原始 Longformer 和 Zaheer 等人 (2020) 的 BigBird 的下游任务结果,默认的较大注意力窗口尺寸(512)。

Model NameWSDownstream Tasks
MIMICContractNLIECtHR-LJPECtHR-ARGQuALITY
F1 (↑)acc. (↑)F1 (↑)acc. (↑)F1 (↑)
Longformer (ours)12878.9 / 78.773.6 / 70.180.1 / 78.666.6 / 66.736.0 / 38.8
Ad-hoc HAT (ours)12879.0 / 78.872.0 / 71.380.2 / 80.484.4 / 81.727.8 / 25.1
HAT (ours)12879.0 / 78.972.2 / 72.180.8 / 79.884.6 / 82.635.8 / 39.2
Longformer (2020)51278.9 / 78.971.9 / 71.480.2 / 78.980.3 / 80.4tba∗
BigBird (2020)51273.8 / 73.672.1 / 69.880.1 / 78.884.6 / 81.4tba∗

表 5:所有检查的基于 RoBERTa 的模型的下游任务结果。 WS是指局部注意力窗口大小。 我们报告开发和测试分数(开发/测试)。 ∗ 结果待公布。

Model NameUpstream/Midstream Tasks
MLMSOPMC-MSP
loss (↓)mae (↓)acc. (↑)
Longformer1.474.8899.9
Ad-hoc HAT1.964.4099.9
HAT1.544.3599.9

表 6:所有检查的基于 RoBERTa 的模型的中游任务的开发结果。

结果:我们展示了上游、精选的中游(SOP、MC-MSP)和下游任务的实验结果:

上游任务(传销): 在表中,我们展示了 MLM 预训练任务的结果。 我们观察到 12 层 Longformer 比 HAT 稍好(大约)。 0.07 损失减少)。 这一微小的改进可以通过回想一下,Longformer 通过基于窗口的局部注意力实现直接跨细分情境化,同时与具有 4 个跨细分的 HAT 相比,它还利用了所有 12 层的全局注意力编码器。 两种模型的表现都比临时 HAT 基线好得多,后者不考虑跨细分情境化(大约)。 损失减少 0.45)。

中游任务: 我们再次考虑 SOP 和 MC-MSP 任务,与 Token 级任务 (SMLM) 相比,它们严重依赖于段级表示。 我们省略了 DTC 的实验,因为我们有几个下游文档分类任务(MIMIC、ContractNLI、ECtHR-LJP)。 我们观察到,与 Longformer 相比,HAT 模型(无论是否是临时模型)在 SOP 中表现更好;与我们在第  节中的发现类似。 这凸显了为分段级任务提供“清晰”(独立)分段表示的好处。 在第二个任务(MC-MSP)中,这个更大的设置中的所有模型都做出了几乎完美的预测,因此没有观察的空间。

下游任务: 在表中,我们展示了所有下游任务的结果(第节)。 我们观察到,没有一个模型能够完全优于其他模型。 尽管如此,HAT 似乎在跨任务(文档和段落分类、NLI 和多项选择 QA)方面总体表现更好。 HAT 的性能还优于 Beltagy 等人 (2020) 的原始 Longformer 和 Zaheer 等人 (2020) 的 BigBird,它们使用更大的局部注意力窗口(512 个 Token ),因此计算密集程度要高得多。

两种 HAT 模型(无论是否是临时模型)在 ECtHR-ARG(大约 15%)。 我们认为这是由于 HAT 对输入进行了更加标准化的处理,即将段落编码为单独的片段。 相反,差异要小得多(大约)。 1-2%)与 Beltagy 等人 (2020) 的原始 Longformer 和 Zaheer 等人 (2020) 的 BigBird 相比,因为这些模型使用更大的窗口,因此该任务类似于窗口句子分类。

这两个观察结果强调了跨段语境化在顺序句子/段落分类任务中的重要性。 有趣的是,我们的 Longformer 在除一项任务之外的所有任务中都具有与内存密集型 Longformer 和 BigBird 相当的结果,这凸显了我们如何以与 HAT 类似的方式使用额外的全局标记来平衡较短的局部注意力窗口的权衡。

Model NameWSParamsComputational Considerations
MLMDoc CLSPar CLSMCQA
MemSpeedMemSpeedMemSpeedMemSpeed
Longformer (ours)128148M--------
Ad-hoc HAT (ours)128152M+10%+39%+17%+43%+18%+43%+20%+46%
HAT (ours)128>>>>>>>>>>>>>>>>>>
Longformer (2020)512148M-66%-305%-70%-87%tba∗
BigBird (2020)512128M-76%-276%-75%-73%tba∗

表 7:基于 RoBERTa 的模型的计算注意事项(参数数量、内存和速度相对于 Longformer 的改进)。 WS是指局部注意力窗口大小。 ∗ 结果待公布。

多项选择 QA 是我们观察到完全预训练模型(Longformer,HAT)和部分预训练模型(ad-hoc HAT)之间存在显着差异的唯一任务类型。 我们假设有两个主要原因:(a)模型遵循堆叠布局,其中跨文档片段的上下文化(跨片段注意力)、查询和答案选择在模型的后期执行; (b) 跨段编码器没有经过预训练;因此,模型“学习”如何在微调期间执行跨细分情境化,这在严重依赖跨细分情境化的任务中可能特别重要(例如,在多项选择 QA 中,模型必须考虑相对文档、查询和替代选项的重要性)。

计算注意事项: HAT 在下游任务中提供与 Longformer 相当或更好的性能。 现在,我们根据表 (顶部)中提供的统计数据来考虑 HAT 是否具有计算优势:

上游任务(传销): 在效率方面,HAT 使用大约。 内存减少 10%(例如,每 10GB VRAM 减少 1GB),大约为 10%。 在使用较大模型的这些实验中,与 Longformer 相比快了 40%。 换句话说,我们有一个在预训练任务中具有可比性能的模型,该模型效率更高,尤其是速度方面。 考虑到这些计算方面的考虑,在类似的计算预算(GPU 小时)下,训练 HAT 的步骤可能是 Longformer 的两倍,并且可能获得更好的结果。

下游任务: 对于跨下游任务的微调,HAT 使用大约。 内存减少 20%(例如,每 10GB VRAM 减少 2GB),大约为 与我们的 Longformer 相比,速度提高了 45%,也就是说,在计算量较少的情况下,训练 HAT 模型的速度几乎是两倍。

转向模型部署(推理),我们发现 HAT 使用的内存减少了 10-20%,速度提高了 20-30%。6 换句话说,即使在训练阶段之后,在 Longformer 上部署 HAT 也能带来巨大的计算收益。

与 Beltagy 等人 (2020) 的原始 Longformer 和 Zaheer 等人 (2020) 的 BigBird 相比,我们观察到更大的增益。 即使与我们的 Longformer 相比,这些模型的计算成本也高得多,因为它们使用更大的窗口(512 个标记,比我们的大 4×)。 总体而言,就计算考虑而言,HAT 优于 Longformer 及其变体(例如 BigBird)。 这对现实生活产生经济、环境和其他影响(例如,获得技术等)的影响。

资源释放: 我们对 HAT 的实现依赖于 HuggingFace Transformers Wolf 等人 (2020) 库;我们发布代码以实现可重复性。7 所有经过检查的语言模型均可在 HuggingFace Hub 上找到。8

6结论

在这项工作中,我们从功效(性能)和效率(计算考虑)方面检查了分层注意力 Transformer (HAT),并与广泛使用的稀疏注意力 Transformer Longformer 进行比较。 我们现在总结回答与此类模型的发展和潜力相关的三个主要问题:

(a) HAT 中分段和跨分段注意层的哪种配置表现最好? 我们发现,与其他变体相比,整个模型中具有跨细分情境化的 HAT 模型表现最佳(第  节)。

(b) 与临时(部分预训练)HAT 相比,端到端预训练 HAT 的效果如何? 我们发现预训练的 HAT 模型在我们的小规模研究中表现得更好( 节)。 除了 QuALITY 上的文档多项选择 QA 之外,较大模型的结果在大多数下游任务中更具可比性。

(c) 与 Longformer 相比,使用 HAT 是否有计算或下游优势? 我们发现,我们最好的预训练 HAT 模型在多个下游长文档分类任务中的表现与同等大小的 Longformer 相当或更好,同时速度大幅加快(时间减少 40-45%),内存占用更少(减少 10-20%) GPU 内存)。

局限性

在这项工作中,我们将 MLM 视为所有检查模型的预训练目标; MLM 只能产生高质量的 token 级表示,但不能产生高质量的段级或文档级表示。 我们考虑了一些可行的替代方案,可以解决依赖 Siamese Networks 的段级或文档级表示的这一限制,例如 SimCLR Chen 等人 (2020) 和 VICReg Bardes 等人 (2022) ),但我们没有资源来执行此类计算密集型实验。

同样,我们不检查文档到文档检索任务的模型 Yang 等人 (2020); Chalkidis 等人 (2021b),因为特定任务的架构依赖于暹罗网络,即一次编码两个或三个文档,也依赖于生成任务,即使用基于 Transformer 的编码器-解码器架构,例如长文档摘要Shen 等人 (2022)。

另一方面,神经语言模型的缩放定律表明,与较小的模型相比,规模更大且训练更集中的模型(即,在更长时间内对更多数据进行训练)的性能更好 Kaplan 等人 (2020); Hoffmann 等人 (2022)。 在我们的研究中,我们考虑了多达 1.5 亿个参数的模型,对于今天发布的具有数十亿个参数的模型的标准来说,这些模型可能被认为很小;因为我们受到计算限制,只能访问有限的计算资源。

最后,我们遵循自下而上的方法,首先考虑几种替代的微型 HAT 模型(第  节),并继续我们的实验,根据初步结果考虑最有前途的 HAT,以构建和评估更大的模型。模型(第  节)。 考虑到计算方面的考虑,这种方法是不可避免的。 理想情况下,我们希望构建并评估所有 HAT 变体的较大版本,以全面了解不同变体在较大配置中的性能。

致谢

这项工作也得到了丹麦创新基金 (IFD) 的部分资助9 0175-00011A。 该项目还得到了 TensorFlow Research Cloud (TFRC)10 计划,免费提供 Google Cloud TPU v3-8 实例,用于预训练所有 HAT 语言模型。

参考

  • Bardes et al. (2022)Adrien Bardes, Jean Ponce, and Yann LeCun. 2022..In The International Conference on Learning Representations (ICLR).
  • Beltagy et al. (2020)Iz Beltagy, Matthew E. Peters, and Arman Cohan. 2020..arXiv:2004.05150 [cs].ArXiv: 2004.05150.
  • Chalkidis et al. (2019)Ilias Chalkidis, Ion Androutsopoulos, and Nikolaos Aletras. 2019..In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4317–4323, Florence, Italy. Association for Computational Linguistics.
  • Chalkidis et al. (2021a)Ilias Chalkidis, Manos Fergadiotis, and Ion Androutsopoulos. 2021a..In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 6974–6996, Online and Punta Cana, Dominican Republic. Association for Computational Linguistics.
  • Chalkidis et al. (2021b)Ilias Chalkidis, Manos Fergadiotis, Nikolaos Manginas, Eva Katakalou, and Prodromos Malakasiotis. 2021b..In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, pages 3498–3511, Online. Association for Computational Linguistics.
  • Chalkidis et al. (2021c)Ilias Chalkidis, Manos Fergadiotis, Dimitrios Tsarapatsanis, Nikolaos Aletras, Ion Androutsopoulos, and Prodromos Malakasiotis. 2021c..In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 226–241, Online. Association for Computational Linguistics.
  • Chalkidis et al. (2022)Ilias Chalkidis, Abhik Jana, Dirk Hartung, Michael Bommarito, Ion Androutsopoulos, Daniel Katz, and Nikolaos Aletras. 2022..In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 4310–4330, Dublin, Ireland. Association for Computational Linguistics.
  • Chen et al. (2020)Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. 2020..arXiv preprint arXiv:2002.05709.
  • Choromanski et al. (2021)Krzysztof Marcin Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Quincy Davis, Afroz Mohiuddin, Lukasz Kaiser, David Benjamin Belanger, Lucy J Colwell, and Adrian Weller. 2021..In International Conference on Learning Representations.
  • Cohan et al. (2019)Arman Cohan, Iz Beltagy, Daniel King, Bhavana Dalvi, and Dan Weld. 2019..In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 3693–3699, Hong Kong, China. Association for Computational Linguistics.
  • Dai et al. (2022)Xiang Dai, Ilias Chalkidis, Sune Darkner, and Desmond Elliott. 2022..In Findings of the Association for Computational Linguistics: EMNLP 2022, Abu Dhabi, UAE. Association for Computational Linguistics.
  • Devlin et al. (2019)Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019..arXiv:1810.04805 [cs].ArXiv: 1810.04805.
  • Gu et al. (2022)Albert Gu, Karan Goel, and Christopher Ré. 2022..In The International Conference on Learning Representations (ICLR).
  • Gu et al. (2021)Albert Gu, Isys Johnson, Karan Goel, Khaled Kamal Saab, Tri Dao, Atri Rudra, and Christopher Re. 2021..In Advances in Neural Information Processing Systems.
  • Guo et al. (2022)Mandy Guo, Joshua Ainslie, David Uthus, Santiago Ontanon, Jianmo Ni, Yun-Hsuan Sung, and Yinfei Yang. 2022..In Findings of the Association for Computational Linguistics: NAACL 2022, pages 724–736, Seattle, United States. Association for Computational Linguistics.
  • Gupta et al. (2022)Ankit Gupta, Albert Gu, and Jonathan Berant. 2022..
  • Habernal et al. (2022)Ivan Habernal, Daniel Faber, Nicola Recchia, Sebastian Bretthauer, Iryna Gurevych, Indra Spiecker genannt Döhmann, and Christoph Burchard. 2022..
  • Hoffmann et al. (2022)Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, and Laurent Sifre. 2022..
  • Johnson et al. (2016)Alistair E W Johnson, Tom J Pollard, Lu Shen, H Lehman Li-Wei, Mengling Feng, Mohammad Ghassemi, Benjamin Moody, Peter Szolovits, Leo Anthony Celi, and Roger G Mark. 2016..Sci. Data, 3.
  • Kaplan et al. (2020)Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. 2020..CoRR, abs/2001.08361.
  • Katharopoulos et al. (2020)A. Katharopoulos, A. Vyas, N. Pappas, and F. Fleuret. 2020..In Proceedings of the International Conference on Machine Learning (ICML).
  • Kitaev et al. (2020)Nikita Kitaev, Lukasz Kaiser, and Anselm Levskaya. 2020..In International Conference on Learning Representations.
  • Koreeda and Manning (2021)Yuta Koreeda and Christopher Manning. 2021..In Findings of the Association for Computational Linguistics: EMNLP 2021, pages 1907–1919, Punta Cana, Dominican Republic. Association for Computational Linguistics.
  • Liu et al. (2022)Yang Liu, Jiaxiang Liu, Li Chen, Yuxiang Lu, Shikun Feng, Zhida Feng, Yu Sun, Hao Tian, Hua Wu, and Haifeng Wang. 2022..
  • Liu et al. (2019)Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019..arXiv:1907.11692 [cs].ArXiv: 1907.11692.
  • Pang et al. (2022)Bo Pang, Erik Nijkamp, Wojciech Kryściński, Silvio Savarese, Yingbo Zhou, and Caiming Xiong. 2022..
  • Pang et al. (2021)Richard Yuanzhe Pang, Alicia Parrish, Nitish Joshi, Nikita Nangia, Jason Phang, Angelica Chen, Vishakh Padmakumar, Johnny Ma, Jana Thompson, He He, and Samuel R. Bowman. 2021.CoRR, abs/2112.08608.
  • Raffel et al. (2020)Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. 2020..Journal of Machine Learning Research, 21(140):1–67.
  • Shen et al. (2022)Zejiang Shen, Kyle Lo, Lauren Yu, Nathan Dahlberg, Margo Schlanger, and Doug Downey. 2022..In Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track.
  • Tay et al. (2021)Yi Tay, Mostafa Dehghani, Samira Abnar, Yikang Shen, Dara Bahri, Philip Pham, Jinfeng Rao, Liu Yang, Sebastian Ruder, and Donald Metzler. 2021..In International Conference on Learning Representations.
  • Tay et al. (2022)Yi Tay, Mostafa Dehghani, Dara Bahri, and Donald Metzler. 2022..ACM Comput. Surv.
  • Turc et al. (2019)Iulia Turc, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019..CoRR, abs/1908.08962.
  • Vaswani et al. (2017)Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. 2017..In Advances in Neural Information Processing Systems, volume 30. Curran Associates, Inc.
  • Wolf et al. (2020)Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander Rush. 2020..In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 38–45, Online. Association for Computational Linguistics.
  • Wu et al. (2021)Chuhan Wu, Fangzhao Wu, Tao Qi, and Yongfeng Huang. 2021..In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 2: Short Papers), pages 848–853, Online. Association for Computational Linguistics.
  • Xiong et al. (2021)Wenhan Xiong, Barlas Oğuz, Anchit Gupta, Xilun Chen, Diana Liskovich, Omer Levy, Wen-tau Yih, and Yashar Mehdad. 2021..arXiv, 2112.07210.
  • Yang et al. (2020)Liu Yang, Mingyang Zhang, Cheng Li, Michael Bendersky, and Marc Najork. 2020..In Proceedings of the 29th ACM International Conference on Information and Knowledge Management, CIKM ’20, page 1725–1734, New York, NY, USA. Association for Computing Machinery.
  • Yang et al. (2016)Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy. 2016..In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1480–1489, San Diego, California. Association for Computational Linguistics.
  • Zaheer et al. (2020)Manzil Zaheer, Guru Guruganesh, Kumar Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, et al. 2020..Advances in Neural Information Processing Systems, 33.

附录A实验细节

A.1特定于任务的架构

我们为每个任务考虑以下架构:

词符分类/回归:对于 token 级别的任务,例如  节中描述的掩码语言建模任务,我们将每个文档提供给 HAT 以生成上下文化的 token 级别表示(𝐻​𝐴​𝑇𝑖𝑤),然后将它们提供给共享的全连接投影层(PR)以生成最终的词符表示(𝑂𝑖𝑤):

𝑂𝑖𝑤=PR(𝐻𝐴𝑇𝑖𝑤))(1)

PR 由前馈层组成(𝐑𝐻→𝐑H),其中 𝐻 是模型的隐藏维度,后跟 𝐓𝐚𝐧𝐡 激活,类似于 BERT Devlin 等人 (2019) 中使用的激活。

细分分类/回归:对于细分级别任务,例如第  节中描述的细分顺序预测任务,我们将每个文档提供给 HAT,然后提供共享 PR(应用每个段输出,HAT𝑖𝑠)以生成最终的段表示(𝑂𝑖𝑠):

𝑂𝑖𝑠=PR(HAT𝑖𝑠))(2)

文档分类/回归:对于文档级任务,例如第  节中描述的文档主题分类任务,我们在投影段之上使用最大池运算符表示(𝑂𝑖𝑠,方程 )来跨段收集信息,然后是 PR:

𝐷=PR​(MaxPool​([𝐶1,𝐶​2,…,𝐶𝑁]))(3)

根据文献 Wu 等人 (2021) 中的发现,我们选择 𝐌𝐚𝐱𝐏𝐨𝐨𝐥 运算符而不是其他替代方案(𝐌𝐞𝐚𝐧𝐏𝐨𝐨𝐥、𝐀𝐭𝐭𝐞𝐧𝐭𝐢𝐯𝐞𝐏𝐨𝐨𝐥);刘等人(2022)。

Document NLI:对于文档 NLI,例如  中描述的 ContractNLI,我们向模型提供文档片段的序列和假设,即每个样本的格式为[𝐶1,𝐶​2,…,𝐶𝑁,𝐶ℎ],其中𝐶ℎ是假设段。 我们将最后一段(输出)表示视为一对(<文档,假设>)表示,因为最后一段是表示正在检查的假设(𝐶ℎ)的。

跨所有四种任务类型的分类层(𝐑𝐻→𝐑L),其中 𝐿 是标签数量,被放置在最终输出(词符、段、文档)表示形式的顶部以生成逻辑。

多项选择 QA:对于多项选择 QA 任务,例如  节中描述的多项选择屏蔽片段预测 (MC-MSP) 任务,我们为模型提供数据包含文档片段的序列、查询(问题)(如果有)以及一次 𝐾 个替代选择之一,即每个样本的格式为 [𝐶1,𝐶​2,…,𝐶𝑛,𝐶𝑄​[𝑘],𝐶𝐴​𝐶​[𝑘]],其中 𝐶𝑄​[𝑘] 是查询(问题)段(如果有),𝐶𝐴​𝐶​[𝑘] 是作为最终段附加的 𝐾𝑡​ℎ 替代选项。 我们将最后一个分段(输出)表示视为一对(<文档、查询、𝐾𝑡​ℎ选择>)表示,并将其馈送至全连接投影层 (𝐑𝐻→𝐑1)。 最终的模型输出是所有对分数(logits)的序列,即𝑂=[𝑂1,𝑂2,…,𝑂𝐾]。 与 NLI 类似,我们选择最后一个片段表示,它代表所检查的选择。

A.2数据集

中游任务: 对于句子顺序预测 (SOP) 和多项选择屏蔽段预测 (MC-MSP),我们分别使用来自维基百科或 C4 的文档。 对于文档主题分类(DTC)任务,我们使用 MultiEURLEX Chalkidis 等人 (2021a) 的英文部分和 20 个标签集,其中包括通用概念(例如金融、农业、贸易、教育等)。

下游任务: 在表  中,我们提供了用于下游任务的数据集的详细信息,如第  节中所述。 我们对 MIMIC-III 使用自定义分割,因为我们考虑对 MeSH 分类法的第一级概念的出院摘要进行分类的任务,我们通过将所有最后一级(叶节点)原始标签回溯到相应的第一级概念来实现这一点。 这是原始任务的宽松版本,包含数千个类。 对于 QuALITY,我们使用 Pang 等人 (2021) 的标准训练集,并将原始开发子集 50/50 分成两部分(自定义开发和测试子集),因为原始测试集被隐藏,即需要在线提交才能检索分数。

Dataset NameAd-Hoc HATHATLongformer
MIMIC-III1e-51e-51e-5
ECtHR-LJP1e-52e-51e-5
ContractNLI1e-51e-51e-5
QuALITY1e-52e-51e-5
ECtHR-ARG1e-53e-51e-5

表8:根据开发子集的性能,每个模型和任务使用的最佳学习率。

www.zeeklog.com  - [论文解读]层次化注意力:用于高效长文档分类的分层注意力变换器的探索

图4:具有 𝑁× 交错块的分层注意力网络示例。

A.3超参数

对于MLM,我们使用1e-4的学习率,5%的预热比和线性调度,即学习率在训练的前5%线性上升到其最大值(1e-4)步,然后其余部分线性减少。 对于其余任务(中游和下游),我们根据每个任务的开发子集的性能手动调整 {1e-5, 2e-5} 中的学习率,同时我们还使用 5% 的预热比率。 考虑到开发子集的性能,我们还使用提前停止。 在表中,我们报告了每个模型和任务使用的学习率。

WU StrategyTrain MLMDev MLM
S03.102.92
S12.462.25
S2.12.352.18
S2.22.342.17
S2.32.462.25

表 9:替代预热策略的 MLM 结果(测量交叉熵损失)( 节)。

A.4热启动

在预备知识实验中,我们考虑了替代的预热策略,即从已经预训练的 BERT(或 RoBERTa)模型初始化 HAT 模型权重。

(S0) 无: 第一个选择是不预热模型,并随机初始化所有权重。

(S1) 仅嵌入: 第二种选择是仅预热(单词和位置)嵌入层,并让所有 Transformer 块随机初始化。

(S2.1) 嵌入 + SW 编码器: 第三个选项是预热嵌入层和所有分段编码器,因为它们执行与预训练模型完全相同的操作。

(S2.2) 嵌入 + 所有编码器(配对): 第四个选项是预热嵌入层,以及所有分段编码器和跨分段编码器成对,即,每当分段编码器后面跟着跨分段编码器时,它们使用完全相同的权重进行初始化。

(S2.3) 嵌入 + 所有编码器(未配对): 最后一个选项是预热嵌入层,以及所有分段和跨分段编码器独立,即将原始预训练模型的每个 Transformer 块的权重分配给分段或跨分段编码器。

在表  中,我们展示了应用于 HAT (I1) 的所有替代预热策略的结果。 我们发现任何形式的热身都比没有热身好。 考虑到其余选项,配对热身会带来更好的传销结果。

www.zeeklog.com  - [论文解读]层次化注意力:用于高效长文档分类的分层注意力变换器的探索

图5:文本分割策略(贪婪逐句动态)。 在所呈现的示例中,我们有一个包含 4 个句子的文本,每个句子都有不同数量的标记。 贪婪分割会导致跨段分割句子,例如,𝑆2 和 𝑆4 的最后一个词符与其余标记相比已放置在不同的段中。 按句子分割会导致过多的填充和文档截断,例如,最后一个句子 (𝑆4) 不适合模型,因为模型最多可以编码 3 个片段。 动态分段避免了分割句子并平衡填充和截断。

附录 BHAT 实施细节

B.1位置嵌入的使用

在图中,我们详细描述了 HAT 输入以及一对分段和跨分段编码器。 该模型将标记序列作为输入,按大小相等的段 ([𝐶1,𝐶2,𝐶3]) 组织。 每个段前面都添加了特殊的 CLS 标记。 标记由其单词嵌入 (𝑊𝑖​𝑗) 和分段位置嵌入 ((𝑃𝑗𝑠​𝑤)) 表示。 每个片段都通过共享的分段编码器 (SWE) 独立编码,该编码器生成本地上下文化的词符表示 (𝑊𝑖​𝑗′)。 用跨段位置嵌入 ((𝑃𝑗𝑐​𝑠)) 增强的段表示 (𝑊𝑖​CLS′) 被馈送到连续的跨段编码器 (CSE)(如果有)。 每个块的输出是由 CS 编码器生成的上下文化段表示 (𝑊𝑖​CLS′′)) 和由 SW 编码器生成的上下文化词符表示 ((𝑊𝑖​𝑗′))。 HAT 通常由一堆此类配对(或不配对)的块组成,具体取决于使用的特定布局(如  节中所示)。

B.2文档分割策略

如节所述,我们选择了动态细分策略。 在图中,我们展示了我们考虑的三种可能的替代方案的示例,以表达其余方案与工作中使用的方案(动态)相比的局限性。

贪婪:在此分割策略中,文本被贪婪地分割成片段,即,不以任何方式保留文本结构。 具体策略采用Liu等人(2022)。 虽然这种策略优化了最小化截断的需要,但它有两个重要的局限性:(a)忽略文本结构(层次结构),因此句子被随机分割以填充片段,这可以证明在特定场景(极端情况)中是灾难性的),其中情境化尤为重要,并且(b)不能用于段级任务。

Sentence-wise:在此分割策略中,文本被分割成句子,即每个片段相当于一个句子。 在这种情况下,文本结构(层次结构)受到尊重,但有一个关键的限制。 如果存在大量小句子,超过最大段数,文本将被严重截断。 换句话说,许多片段将被过度填充,而句子将被截断(模型不考虑)。

动态:在此分割策略中,文本被分割成句子,然后将其分组为更大的片段,直至最大片段长度(𝑁)。 在这种情况下,我们在保留文本结构(避免句子截断)和最小化填充之间进行权衡,从而最大限度地减少文档截断。 唯一的限制是句子分组是临时的并且在不同文档之间有所不同,因为无法推断出每个案例(文档)的句子分组的更明智的决策。

附录 C计算注意事项

为了评估速度(时间)和内存方面的计算复杂性,我们进行了一项对照研究,其中我们对 HAT、我们的 Longformer、Beltagy 等人 (2020) 的 Longformer 和 BigBird 进行了基准测试Zaheer 等人 (2020) 跨越不同的任务。 为了考虑任何计算不稳定性(硬件延迟),我们在单个 NVIDIA A100 中重复基准测试 3 次,并报告最佳(较低)分数。11 在这 3 次运行中,我们计算了 100 个步骤的平均批/秒速率以及最大 GPU 利用率(内存峰值)。

在表的顶部部分,我们展示了两种模型的批/秒速率(SpeedUp),而在同一表的底部部分,我们展示了最大GPU内存分配。 我们提出了训练(前向-后向传递)和推理(仅前向)时间的度量。

Model TypeMasked Language ModelingDocument ClassificationSegment ClassificationMultiple-Choice QA
SpeedUp (Batch/Sec)
traininfer.traininfer.traininfer.traininfer.
Longformer (ours)0.266diff.0.065diff.0.210diff.0.053diff.0.459diff.0.131diff.0.386diff.0.100diff.
HAT (ours)0.162(+39%)0.051(+22%)0.121(+43%)0.039(22%)0.343(+25%)0.115(+14%)0.207(+46%)0.072(+28%)
Longformer (2020)0.852(-305%)0.223(-321%)0.895(-87%)0.236(-105%)
BigBird (2020)0.795(-276%)0.207(-291%)0.795(-73%)0.207(-80%)
GPU Utilization
traininfer.traininfer.traininfer.traininfer.
Longformer (ours)17.3GBdiff.3.9GBdiff.10.7GBdiff.1.0GBdiff .10.8GBdiff.1.0GBdiff.19.3GBdiff.1.4GBdiff.
HAT15.5GB (ours)(+10%)3.9GB(0%)8.9GB(+17%)0.9GB(+10%)8.9GB(+18%)0.9GB(10%)15.4GB(+20%)1.2GB(+14%)
Longformer (2020)17.8GB(-66%)1.7GB(-70%)18.4GB(-70%)1.7GB(-70%)
BigBird (2020)18.8GB(-76%)1.8GB(-80%)18.9GB(-75%)1.8GB(-80%)

表 10:NVIDIA A100 上每个基于 RoBERTa 的模型(HAT、Longformer、Longformer ® 和 BigBird ®)的加速(批量/秒)和 GPU 内存分配。

Read more

深入理解 Proxy 和 Object.defineProperty

在JavaScript中,对象是一种核心的数据结构,而对对象的操作也是开发中经常遇到的任务。在这个过程中,我们经常会使用到两个重要的特性:Proxy和Object.defineProperty。这两者都允许我们在对象上进行拦截和自定义操作,但它们在实现方式、应用场景和灵活性等方面存在一些显著的区别。本文将深入比较Proxy和Object.defineProperty,包括它们的基本概念、使用示例以及适用场景,以帮助读者更好地理解和运用这两个特性。 1. Object.defineProperty 1.1 基本概念 Object.defineProperty 是 ECMAScript 5 引入的一个方法,用于直接在对象上定义新属性或修改已有属性。它的基本语法如下: javascript 代码解读复制代码Object.defineProperty(obj, prop, descriptor); 其中,obj是目标对象,prop是要定义或修改的属性名,descriptor是一个描述符对象,用于定义属性的特性。 1.2 使用示例 javascript 代码解读复制代码//

By Ne0inhk

Proxy 和 Object.defineProperty 的区别

Proxy 和 Object.defineProperty 是 JavaScript 中两个不同的特性,它们的作用也不完全相同。 Object.defineProperty 允许你在一个对象上定义一个新属性或者修改一个已有属性。通过这个方法你可以精确地定义属性的特征,比如它是否可写、可枚举、可配置等。该方法的使用场景通常是需要在一个对象上创建一个属性,然后控制这个属性的行为。 Proxy 也可以用来代理一个对象,但是相比于 Object.defineProperty,它提供了更加强大的功能。使用 Proxy 可以截获并重定义对象的基本操作,比如访问属性、赋值、函数调用等等。在这些操作被执行之前,可以通过拦截器函数对这些操作进行拦截和修改。因此,通过 Proxy,你可以完全重写一个对象的默认行为。该方法的使用场景通常是需要对一个对象的行为进行定制化,或者需要在对象上添加额外的功能。 对比 以下是 Proxy 和 Object.defineProperty 的一些区别对比: 方面ProxyObject.defineProperty语法使用 new Proxy(target,

By Ne0inhk