xLSTM：扩展长短期记忆模型解析

xLSTM：扩展长短期记忆

摘要

在 20 世纪 90 年代，恒定误差转盘和门控被引入作为长短期记忆（LSTM）的核心思想。从那时起，LSTM 经受住了时间的考验，并为众多深度学习成功案例做出了贡献，特别是它们构成了第一个大型语言模型（LLMs）。然而，以并行化自我关注为核心的 Transformer 技术的出现标志着一个新时代的到来，在规模上超过了 LSTM。我们不禁要问：若结合现代 LLM 的最新技术，将 LSTM 扩展至数十亿参数并克服其固有局限，语言建模能力能提升多少？

首先，我们引入了具备归一化与稳定机制的指数门控。其次，重构了 LSTM 存储结构，衍生出两种变体：一是包含标量存储、标量更新及新存储混合的 sLSTM；二是采用矩阵存储与协方差更新规则、支持完全并行的 mLSTM。将这些 LSTM 扩展集成到残差块主干中会产生 xLSTM 块，然后将其残差堆叠到 xLSTM 架构中。与最先进的 Transformer 和状态空间模型相比，指数门控和修改后的存储结构提高了 xLSTM 的性能，在性能和扩展方面都表现良好。

xLSTM：扩展长短期记忆模型解析

xLSTM：扩展长短期记忆

摘要

1 引言

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

xLSTM：扩展长短期记忆模型解析

xLSTM：扩展长短期记忆

摘要

1 引言

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具