xLSTM:扩展长短期记忆
摘要
在 20 世纪 90 年代,恒定误差转盘和门控被引入作为长短期记忆(LSTM)的核心思想。从那时起,LSTM 经受住了时间的考验,并为众多深度学习成功案例做出了贡献,特别是它们构成了第一个大型语言模型(LLMs)。然而,以并行化自我关注为核心的 Transformer 技术的出现标志着一个新时代的到来,在规模上超过了 LSTM。我们不禁要问:若结合现代 LLM 的最新技术,将 LSTM 扩展至数十亿参数并克服其固有局限,语言建模能力能提升多少?
首先,我们引入了具备归一化与稳定机制的指数门控。其次,重构了 LSTM 存储结构,衍生出两种变体:一是包含标量存储、标量更新及新存储混合的 sLSTM;二是采用矩阵存储与协方差更新规则、支持完全并行的 mLSTM。将这些 LSTM 扩展集成到残差块主干中会产生 xLSTM 块,然后将其残差堆叠到 xLSTM 架构中。与最先进的 Transformer 和状态空间模型相比,指数门控和修改后的存储结构提高了 xLSTM 的性能,在性能和扩展方面都表现良好。

