2024 年 10 篇大模型前沿论文：微调、Transformer 与混合模型研究综述

随着大型语言模型（LLM）技术的飞速发展，学术界与工业界在模型架构、训练效率及应用场景上不断探索新的边界。本文精选了 2024 年初公布的 10 篇具有代表性的学术论文，涵盖大模型微调策略、Transformer 架构优化、混合模型协同、分布式注意力机制以及幻觉缓解等热门研究方向。这些研究为构建更高效、更可靠的大模型系统提供了重要的理论依据与实践指导。

一、LLM 后预训练方法：解决灾难性遗忘

论文链接： https://arxiv.org/pdf/2401.02415v1.pdf

人类学习新技能时通常能够保留旧有的知识，但大型语言模型（LLM）往往面临'灾难性遗忘'问题，即在学习新领域数据时丢失原有能力。例如从 LLaMA 迁移到 CodeLLaMA 的过程中，通用能力的下降是常见痛点。

该研究提出了一种新的 LLM 后预训练方法，通过拓展 Transformer 模块来实现这一目标。其核心创新在于仅使用新语料库来调整扩展块，而非重新训练整个模型。这种方法不仅高效且有效地提高了模型的知识储备，更重要的是避免了灾难性遗忘的发生。

实验部分针对代码和数学语料库进行了验证，产生了 LLaMA Pro-8.3B 模型。该模型从 LLaMA2-7B 初始化，在一般任务、编程和数学方面表现出色。LLaMA Pro 及其指令跟踪对应产品（LLaMA Pro-Instruct）在各种基准测试中实现了先进的性能，展示了相对于 LLaMA 系列中现有开放模型的优越性，以及作为智能代理进行推理和解决各种任务的巨大潜力。这证明了在不牺牲原有能力的前提下扩展模型知识是可行的。

二、大模型微调评测：BitFit 与适配器的效能分析

论文链接： https://arxiv.org/pdf/2401.04051v1.pdf

针对垂直应用场景，微调大模型是自然语言处理中的关键挑战。全参数微调虽然效果好，但计算成本高昂；参数高效微调（PEFT）则需要在效率与性能之间寻找平衡。

本文提出了实证分析，将两种有效的微调方法（BitFit 和适配器模块）与标准全模型微调进行比较。在 GLUE 基准数据集（MRPC、COLA、STS-B）上进行的实验揭示了几个关键见解：

BitFit 方法：仅训练偏差项和任务头。该方法可在不同数量的训练数据和时间限制下匹配完整的微调性能。即使只有 30% 的数据，它也表现出卓越的稳定性，优于中间数据级别的完全微调。研究结果表明 BitFit 能够很好地平衡模型性能和参数效率。
适配器模块：表现出高度的可变性，与默认模型相比增益不一致。在某些场景下效果显著，但在其他场景下可能不如预期。

本文工作为模型微调提供了宝贵的视角，为有效适应大型预训练模型提供了可行的指导方针，特别是在资源受限的垂直领域应用中。

三、混合小模型 VS 大模型：集成学习的潜力

论文链接： https://arxiv.org/pdf/2401.02994.pdf

在对话式人工智能研究中，开发具有大量参数的模型（如 ChatGPT）是主流趋势。然而，这些模型需要大量的计算资源和内存，限制了其在边缘设备或低成本场景下的部署。

本文探讨了一个核心问题：相对于单个大型模型，较小模型的组合能否协同实现堪比大模型的性能？为此，引入了一种称为'混合'的方法，这是一种集成多个聊天人工智能的简单而有效的方法。

经验证据表明，当特定的较小模型协同混合时，它们有可能超越或匹配更大模型的能力。例如，仅集成三个中等大小的模型（6B/13B 参数）就可以与 ChatGPT（175B+ 参数）等更大的模型相媲美甚至超越其性能指标。该假设使用 A/B 测试方法在 Chai 研究平台上经过了 30 天的严格测试。研究结果表明了'混合'策略作为一种可行方法的潜力，可以在不相应增加计算需求的情况下增强聊天人工智能的效率。这对于降低推理成本和提升系统鲁棒性具有重要意义。

四、分布式注意力：长上下文支持的新方案

论文链接： https://arxiv.org/pdf/2401.02669.pdf

大模型服务的动态自回归性质，以及需要支持超长上下文长度，需要灵活分配和释放大量资源。KV Cache 的管理成为基于云的 LLM 服务系统设计的重大挑战，低效的管理可能导致性能下降或资源浪费。

2024 年 10 篇大模型前沿论文：微调、Transformer 与混合模型研究综述