2024 年 10 篇大模型前沿论文:微调、Transformer 与混合模型研究综述
随着大型语言模型(LLM)技术的飞速发展,学术界与工业界在模型架构、训练效率及应用场景上不断探索新的边界。本文精选了 2024 年初公布的 10 篇具有代表性的学术论文,涵盖大模型微调策略、Transformer 架构优化、混合模型协同、分布式注意力机制以及幻觉缓解等热门研究方向。这些研究为构建更高效、更可靠的大模型系统提供了重要的理论依据与实践指导。
一、LLM 后预训练方法:解决灾难性遗忘
论文链接: https://arxiv.org/pdf/2401.02415v1.pdf
人类学习新技能时通常能够保留旧有的知识,但大型语言模型(LLM)往往面临'灾难性遗忘'问题,即在学习新领域数据时丢失原有能力。例如从 LLaMA 迁移到 CodeLLaMA 的过程中,通用能力的下降是常见痛点。
该研究提出了一种新的 LLM 后预训练方法,通过拓展 Transformer 模块来实现这一目标。其核心创新在于仅使用新语料库来调整扩展块,而非重新训练整个模型。这种方法不仅高效且有效地提高了模型的知识储备,更重要的是避免了灾难性遗忘的发生。
实验部分针对代码和数学语料库进行了验证,产生了 LLaMA Pro-8.3B 模型。该模型从 LLaMA2-7B 初始化,在一般任务、编程和数学方面表现出色。LLaMA Pro 及其指令跟踪对应产品(LLaMA Pro-Instruct)在各种基准测试中实现了先进的性能,展示了相对于 LLaMA 系列中现有开放模型的优越性,以及作为智能代理进行推理和解决各种任务的巨大潜力。这证明了在不牺牲原有能力的前提下扩展模型知识是可行的。
二、大模型微调评测:BitFit 与适配器的效能分析
论文链接: https://arxiv.org/pdf/2401.04051v1.pdf
针对垂直应用场景,微调大模型是自然语言处理中的关键挑战。全参数微调虽然效果好,但计算成本高昂;参数高效微调(PEFT)则需要在效率与性能之间寻找平衡。
本文提出了实证分析,将两种有效的微调方法(BitFit 和适配器模块)与标准全模型微调进行比较。在 GLUE 基准数据集(MRPC、COLA、STS-B)上进行的实验揭示了几个关键见解:
- BitFit 方法:仅训练偏差项和任务头。该方法可在不同数量的训练数据和时间限制下匹配完整的微调性能。即使只有 30% 的数据,它也表现出卓越的稳定性,优于中间数据级别的完全微调。研究结果表明 BitFit 能够很好地平衡模型性能和参数效率。
- 适配器模块:表现出高度的可变性,与默认模型相比增益不一致。在某些场景下效果显著,但在其他场景下可能不如预期。
本文工作为模型微调提供了宝贵的视角,为有效适应大型预训练模型提供了可行的指导方针,特别是在资源受限的垂直领域应用中。
三、混合小模型 VS 大模型:集成学习的潜力
论文链接: https://arxiv.org/pdf/2401.02994.pdf
在对话式人工智能研究中,开发具有大量参数的模型(如 ChatGPT)是主流趋势。然而,这些模型需要大量的计算资源和内存,限制了其在边缘设备或低成本场景下的部署。
本文探讨了一个核心问题:相对于单个大型模型,较小模型的组合能否协同实现堪比大模型的性能?为此,引入了一种称为'混合'的方法,这是一种集成多个聊天人工智能的简单而有效的方法。
经验证据表明,当特定的较小模型协同混合时,它们有可能超越或匹配更大模型的能力。例如,仅集成三个中等大小的模型(6B/13B 参数)就可以与 ChatGPT(175B+ 参数)等更大的模型相媲美甚至超越其性能指标。该假设使用 A/B 测试方法在 Chai 研究平台上经过了 30 天的严格测试。研究结果表明了'混合'策略作为一种可行方法的潜力,可以在不相应增加计算需求的情况下增强聊天人工智能的效率。这对于降低推理成本和提升系统鲁棒性具有重要意义。
四、分布式注意力:长上下文支持的新方案
论文链接: https://arxiv.org/pdf/2401.02669.pdf
大模型服务的动态自回归性质,以及需要支持超长上下文长度,需要灵活分配和释放大量资源。KV Cache 的管理成为基于云的 LLM 服务系统设计的重大挑战,低效的管理可能导致性能下降或资源浪费。
为了应对这些挑战,本文引入了 DistAttention,一种新颖的分布式注意力算法。它将 KV Cache 分割成更小的、可管理的单元,从而实现注意力模块的分布式处理和存储。基于此,提出了 DistKV-LLM,这是一种分布式 LLM 服务系统,可以动态管理 KV 缓存并有效地编排跨数据中心的所有可访问的 GPU 和 CPU 内存。
在具有 32 个 NVIDIA A100 GPU(配置为 2 到 32 个实例)的云环境中进行验证,系统表现出 1.03-2.4 倍的端到端吞吐量改进,支持的上下文长度比当前最先进的 LLM 长 2-19 倍。服务系统通过对 18 个上下文长度高达 1,900K 的数据集进行的广泛测试证明了这一点。这为云端大规模部署支持超长上下文的 LLM 服务提供了技术基础。
五、MoE-Mamba:状态空间模型与专家混合的结合
论文链接: https://arxiv.org/pdf/2401.04081.pdf
状态空间模型(SSM)已成为序列建模领域的有力竞争者,挑战了 Transformers 的主导地位。与此同时,Mixture of Experts (MoE) 显着改进了基于 Transformer 的 LLM,包括最近最先进的开源模型。
本文提出为了释放 SSM 的扩展潜力,应该与 MoE 结合起来。并在 Mamba 上展示了这一点,这是一个最近基于 SSM 的模型,它实现了类似 Transformer 的卓越性能。本文模型 MoE-Mamba 的性能优于 Mamba 和 Transformer-MoE。
特别是,MoE-Mamba 以减少 2.2 倍的训练步骤达到与 Mamba 相同的性能,同时保留了 Mamba 相对于 Transformer 的推理性能增益。这种结合证明了在保持线性复杂度的同时,利用稀疏激活机制进一步提升模型容量和训练效率是可行的路径。
六、大模型微调方法:鲁棒适应(RoSA)
论文链接: https://arxiv.org/pdf/2401.04679v1.pdf
本文研究了参数高效的微调(PEFT)方法,该方法可以在大型语言模型(LLM)的背景下在有限的计算和内存预算下提供良好的准确性。
为此,本文提出了一种称为鲁棒适应(RoSA)的新 PEFT 方法,其灵感来自于鲁棒主成分分析(PCA)。该方法在一组固定的预训练权重之上联合训练文本和高度稀疏组件,以有效地近似全精细的性能调谐(FFT)解决方案。RoSA 的核心思想是通过稀疏化约束来捕捉关键参数更新方向,从而减少参数量。
在一系列具有挑战性的生成任务中,例如小学数学和 SQL 查询生成,这些任务需要微调才能获得良好的性能,在相同的参数预算下,RoSA 的性能优于 LoRA 和纯稀疏微调。这表明在特定任务场景下,针对稀疏结构的优化设计能带来更好的泛化能力。
七、线性注意力:Lightning Attention-2
论文链接: https://arxiv.org/pdf/2401.04658v1.pdf
线性注意力是一种有效的注意力机制,最近已经成为传统 softmax 注意力的一个有前途的替代方案。凭借其在线性计算复杂度中处理令牌的能力,线性注意力在理论上可以处理无限长度的序列而不牺牲速度,即对于具有固定存储器消耗的各种序列长度保持恒定的训练速度。
然而,由于累积求和(cumsum)的问题,目前的线性注意力算法无法在因果设置中证明其理论优势。在本文中,提出了 Lightning Attention-2,这是第一个线性注意力实现,使线性注意力能够实现其理论计算优势。
为了实现这一点,利用平铺的思想,在线性注意力计算中分别处理块内和块间分量。具体来说,利用传统的注意力计算机制的帧内块和应用线性注意力内核技巧的块间。通过向前和向后的程序采用平铺技术,以充分利用 GPU 硬件,无论输入序列长度如何,都比其他注意力机制快得多。这解决了线性注意力在实际因果生成任务中的应用瓶颈。
八、LoRA 链:迭代优化框架
论文链接: https://arxiv.org/pdf/2401.04151v1.pdf
微调是为特定任务定制预训练的大模型的主要方法。随着模型规模和任务多样性的扩大,参数高效的微调方法至关重要。最广泛使用的方法之一是低秩自适应(LoRA)及其变体。LoRA 将权重更新编码为两个低秩矩阵的乘积。
尽管 LoRA 具有优势,但在某些任务的泛化误差方面,它缺乏全参数微调的效果。本文引入了 LoRA 链(COLA),这是一种受 Frank-Wolfe 算法启发的迭代优化框架,可以弥合 LoRA 和全参数微调之间的差距,而不会产生额外的计算成本或内存开销。
COLA 采用剩余学习过程,将学习到的 LoRA 模块合并到预训练的语言模型参数中,并重新初始化新生成的 LoRA 模块。在各种模型(OPT 和 llama-2)和七个基准测试任务中,证明了 COLA 可以在不增加计算或内存成本的情况下始终优于 LoRA。这为 LoRA 类方法的性能上限提升提供了新的思路。
九、实体关系提取:基于跨度的新方法
论文链接: https://arxiv.org/pdf/2401.01326v1.pdf
信息抽取是 NLP 的基础任务之一。在本文中,作者提出了一种从非结构化文本中提取联合实体和关系的新方法。
与从左到右的标记级生成器的传统生成信息提取模型相比,该方法是基于跨度的。具体来说,它生成一个线性化图,其中节点表示文本跨度,边表示关系三元组。本文方法采用 Transformer 编码器 - 解码器架构,具有跨度和关系类型的动态词汇表的指向机制。
本文模型可以通过跨度表示捕获实体和关系的结构特征和边界,同时借助指向机制将生成的输出基于原始文本。在基准数据集的评估了本文方法的有效性。这种方法减少了错误传播,提高了联合抽取的准确率,特别适用于复杂的文档理解场景。
十、大模型幻觉综述:安全部署的关键
论文链接: https://arxiv.org/pdf/2401.01313v1.pdf
随着大型语言模型(LLM)在编写类似人类文本的能力方面不断进步,一个关键的挑战仍然是它们倾向于产生看似事实但毫无根据的内容。这种幻觉问题可以说是将这些强大 LLM 安全部署到影响人们生活的现实生产系统中的最大障碍。
在实际环境中广泛采用 LLM 的旅程在很大程度上依赖于解决和减轻幻觉。与专注于有限任务的传统人工智能系统不同,LLM 在训练期间接触了大量在线文本数据。虽然这使他们能够表现出令人印象深刻的语言流畅性,但也意味着他们能够从训练数据的偏差中推断出信息,误解不明确的提示,或者修改信息以表面上与输入保持一致。当我们依赖语言生成功能来实现敏感应用程序(例如总结医疗记录、财务分析报告等)时,这就变得非常令人担忧。
本文对超过 32 种为减轻 LLM 的幻觉而开发的技术进行了全面调查研究。其中值得注意的是检索增强生成(RAG)、知识检索、CoNLI 和 CoVe 等。此外,本文引入了一个详细的分类法,根据各种参数对这些方法进行分类,例如数据集利用率、常见任务、反馈机制和检索器类型。这种分类有助于区分专门为解决 LLM 的幻觉问题而设计的不同方法,为后续研究提供了清晰的路线图。
总结与展望
综上所述,这 10 篇论文反映了 2024 年大模型研究的几个核心趋势:
- 效率优先:无论是 RoSA、BitFit 还是 LoRA Chain,都致力于在有限的计算资源下逼近全参数微调的效果。
- 架构创新:MoE-Mamba 和 Linear Attention 展示了超越传统 Transformer 架构的可能性,追求更低的复杂度和更高的扩展性。
- 系统集成:DistAttention 和混合模型策略强调了系统工程层面的优化,通过分布式计算和模型集成来解决单一模型的局限性。
- 可靠性提升:针对幻觉问题的综述和实体关系提取的改进,表明业界正更加重视模型输出的准确性和安全性。
这些研究成果共同推动了大模型技术向更高效、更可靠、更易用的方向发展,为未来的 AI 应用奠定了坚实基础。