YaRN:大型语言模型的有效上下文窗口扩展
核心摘要
旋转位置嵌入(RoPE)已被证明可以在基于 Transformer 的语言模型中有效地编码位置信息。然而,这些模型无法推广到它们所训练的序列长度。我们提出了 YaRN(Yet another RoPE extension),这是一种扩展此类模型上下文窗口的计算效率高的方法,与以前的方法相比,需要减少 10 倍的 token 和 2.5 倍的训练步骤。
使用 YaRN,我们表明 LLaMA 模型可以有效地利用和外推到比其原始预训练所允许的更长的上下文长度,同时也超过了以前最先进的上下文窗口扩展。此外,我们证明了 YaRN 表现出超越微调数据集的有限上下文进行推断的能力。
研究背景
在长文本处理任务中,如何突破预训练长度的限制一直是关键挑战。传统的 RoPE 方案虽然表现优异,但在面对超出训练分布的序列时往往失效。YaRN 旨在解决这一痛点,通过优化位置编码策略,以较低的计算成本实现上下文窗口的显著扩展。
方法概述
YaRN 的核心在于对 RoPE 的改进扩展。具体实现涉及对温度参数和缩放因子的调整,使得模型在推理阶段能够适应更长的序列输入,而无需完全重新训练整个网络结构。这种方法在保证精度的同时,大幅降低了资源消耗。
实验验证
我们在多个基准测试中评估了 YaRN 的效果。实验数据表明,结合 LLaMA 7B/13B 等模型,YaRN 能够在保持性能的同时支持更长的上下文窗口。相较于其他扩展技术,该方法在训练效率和最终效果上均展现出优势。
结论
总之,我们已经证明,YaRN 改进了所有相关指标,为长上下文大语言模型提供了切实可行的解决方案。未来的工作将集中在进一步优化推理速度以及探索更多应用场景。

