2024 年 10 篇大模型前沿论文:微调、Transformer 与混合模型研究综述
随着大型语言模型(LLM)技术的飞速发展,学术界与工业界在模型架构、训练效率及应用场景上不断探索新的边界。本文精选了 2024 年初公布的 10 篇具有代表性的学术论文,涵盖大模型微调策略、Transformer 架构优化、混合模型协同、分布式注意力机制以及幻觉缓解等热门研究方向。这些研究为构建更高效、更可靠的大模型系统提供了重要的理论依据与实践指导。
一、LLM 后预训练方法:解决灾难性遗忘
论文链接: https://arxiv.org/pdf/2401.02415v1.pdf
人类学习新技能时通常能够保留旧有的知识,但大型语言模型(LLM)往往面临'灾难性遗忘'问题,即在学习新领域数据时丢失原有能力。例如从 LLaMA 迁移到 CodeLLaMA 的过程中,通用能力的下降是常见痛点。
该研究提出了一种新的 LLM 后预训练方法,通过拓展 Transformer 模块来实现这一目标。其核心创新在于仅使用新语料库来调整扩展块,而非重新训练整个模型。这种方法不仅高效且有效地提高了模型的知识储备,更重要的是避免了灾难性遗忘的发生。
实验部分针对代码和数学语料库进行了验证,产生了 LLaMA Pro-8.3B 模型。该模型从 LLaMA2-7B 初始化,在一般任务、编程和数学方面表现出色。LLaMA Pro 及其指令跟踪对应产品(LLaMA Pro-Instruct)在各种基准测试中实现了先进的性能,展示了相对于 LLaMA 系列中现有开放模型的优越性,以及作为智能代理进行推理和解决各种任务的巨大潜力。这证明了在不牺牲原有能力的前提下扩展模型知识是可行的。
二、大模型微调评测:BitFit 与适配器的效能分析
论文链接: https://arxiv.org/pdf/2401.04051v1.pdf
针对垂直应用场景,微调大模型是自然语言处理中的关键挑战。全参数微调虽然效果好,但计算成本高昂;参数高效微调(PEFT)则需要在效率与性能之间寻找平衡。
本文提出了实证分析,将两种有效的微调方法(BitFit 和适配器模块)与标准全模型微调进行比较。在 GLUE 基准数据集(MRPC、COLA、STS-B)上进行的实验揭示了几个关键见解:
- BitFit 方法:仅训练偏差项和任务头。该方法可在不同数量的训练数据和时间限制下匹配完整的微调性能。即使只有 30% 的数据,它也表现出卓越的稳定性,优于中间数据级别的完全微调。研究结果表明 BitFit 能够很好地平衡模型性能和参数效率。
- 适配器模块:表现出高度的可变性,与默认模型相比增益不一致。在某些场景下效果显著,但在其他场景下可能不如预期。
本文工作为模型微调提供了宝贵的视角,为有效适应大型预训练模型提供了可行的指导方针,特别是在资源受限的垂直领域应用中。
三、混合小模型 VS 大模型:集成学习的潜力
论文链接: https://arxiv.org/pdf/2401.02994.pdf
在对话式人工智能研究中,开发具有大量参数的模型(如 ChatGPT)是主流趋势。然而,这些模型需要大量的计算资源和内存,限制了其在边缘设备或低成本场景下的部署。
本文探讨了一个核心问题:相对于单个大型模型,较小模型的组合能否协同实现堪比大模型的性能?为此,引入了一种称为'混合'的方法,这是一种集成多个聊天人工智能的简单而有效的方法。
经验证据表明,当特定的较小模型协同混合时,它们有可能超越或匹配更大模型的能力。例如,仅集成三个中等大小的模型(6B/13B 参数)就可以与 ChatGPT(175B+ 参数)等更大的模型相媲美甚至超越其性能指标。该假设使用 A/B 测试方法在 Chai 研究平台上经过了 30 天的严格测试。研究结果表明了'混合'策略作为一种可行方法的潜力,可以在不相应增加计算需求的情况下增强聊天人工智能的效率。这对于降低推理成本和提升系统鲁棒性具有重要意义。
四、分布式注意力:长上下文支持的新方案
论文链接: https://arxiv.org/pdf/2401.02669.pdf
大模型服务的动态自回归性质,以及需要支持超长上下文长度,需要灵活分配和释放大量资源。KV Cache 的管理成为基于云的 LLM 服务系统设计的重大挑战,低效的管理可能导致性能下降或资源浪费。


