Anchor-based Large Language Models
本文是LLM系列文章,针对《Anchor-based Large Language Models》的翻译。
基于锚点的大型语言模型
摘要
大型语言模型(LLM)主要采用仅解码器的transformer架构,需要保留历史token的密钥/值信息,以提供上下文信息并避免冗余计算。然而,这些LLM的巨大尺寸和参数体积需要大量的GPU内存。这种内存需求随着输入文本的长度而增加,导致迫切需要更有效的信息存储和处理方法。本研究介绍了基于锚的LLM(AnLLM),它利用了一种创新的基于锚的自注意网络(AnSAN)和一种基于锚的推理策略。这种方法使LLM能够将序列信息压缩到锚token中,从而减少密钥/值缓存并提高推理效率。对问答基准的实验表明,AnLLM保持了类似的准确性水平,同时实现了高达99%的键/值缓存减少和高达3.5倍的推理速度。尽管在准确性方面有微小的妥协,但采用AnSAN技术的AnLLM在资源利用率和计算效率方面的显著增强突出了其在实际LLM应用中的潜力。