引言
在人工智能领域,大模型(LLMs)的研究正迅速发展,当前涵盖了很多个研究方向,每个方向都带有其独特的研究重点和挑战。本文主要盘点几个比较热门的研究方向,主要包括检索增强生成(RAG)、大模型 Agent、Mamba、混合专家模型(MoE)、低秩适应(LoRA)等。这些研究方向旨在解决大模型在实际应用中的关键问题,如幻觉抑制、长上下文处理、推理成本优化及多任务适应性,从而提高性能和实用性。
检索增强生成 RAG
检索增强生成(RAG)通过结合信息检索和文本生成来提高 AI 系统的性能。RAG 的核心优势在于它能够利用外部知识库来辅助生成过程,从而显著提高生成内容的准确性和鲁棒性。结合大模型强大的生成能力,使得 RAG 在问答系统、文档生成、自动摘要、智能助手、信息检索和知识图谱填充等多种自然语言处理任务中都能发挥关键作用。
核心挑战与改进
研究重点主要集中在「检索器与生成器的集成」、「跨模态应用和知识更新」。面临的挑战包括如何提高检索效率、增强生成质量以及实现跨领域应用。如果仅仅依赖大模型本身的参数知识来进行文本生成,模型会产生不可避免的幻觉。为此,人们将 RAG 作为大模型文本生成的辅助方法,但 RAG 方法的准确性依赖于检索文本的准确性,当检索出现问题时,生成文本的准确性将难以保证。
代表性研究进展
- HippoRAG:OSU 与斯坦福作者提出了一种新思路,让大模型拥有一个像人脑海马体一样的'记忆操作系统'。借鉴海马体在人脑记忆中的关键作用,设计了名为 HippoRAG 的新型检索增强模型。实验表明,装备了这一'类脑'记忆系统的大模型在多种需要知识整合的任务中展现出了惊人的性能提升。
- Adaptive-RAG:AI2 提出了一种自适应 QA 问答框架。该框架涵盖各种策略(简单复杂的都有),可根据请求的复杂性动态地选择合适的策略,旨在提升检索增强大模型处理不同复杂请求的响应准确性,提高了 QA 问答的效率。
- CRAG:中科大提出了纠正检索增强生成(Corrective RAG)。旨在提高文本生成的鲁棒性,当检索出现问题时,系统能够进行自我修正或重新检索,减少错误信息的传播。
- RAG-Fusion:Infineon 提出的一种技术,结合了 RAG 和 Reciprocal Rank Fusion(RRF)。首先通过指令遵循模型生成多个查询请求,然后对每个生成的请求进行矢量搜索,以从预定义的集合中检索相关文档,接着应用倒数排名融合算法根据多个请求之间的相关性对文档重新排名,最后生成重新排序的文档组列表。
- SYNTHESIZRR:Amazon 提出了一种新方法,用于改进大模型在分类任务中的微缩化过程。传统方法通过 few-shot 提示生成数据集,但存在重复和偏见问题。SYNTHESIZRR 通过检索增强引入多样性,使 LLM 根据不同内容生成更多样化的示例,在提升词汇和语义多样性、模仿人类文本以及提高模型微缩化性能方面,均优于传统方法。
大模型 Agent
随着大模型应用场景越来越复杂化,单纯依赖大模型的能力将面临巨大的挑战。构建大模型 Agent 将是大势所趋。微软研究人员深入探讨了 Agent AI 的基础,强调了智能 Agent 在物理、虚拟现实、混合现实、感官交互等方面的能力,并指出 Agent AI 或是下一代人工智能的关键。其研究重点在于「多任务学习」、「常识推理和持续学习」,旨在提高 Agent 在广泛任务上的表现和适应性。
典型应用场景与框架
- AutoWebGLM:智谱提出新型自动化网页导航 Agent。它通过简化网页内容和使用 AI 技术来解决现有 Web Agent 处理真实网页时的挑战。AUTOWEBGLM 通过特别设计的算法来表示网页,保留重要信息,并利用混合人工智能方法进行训练。此外,该 Agent 通过强化学习和拒绝采样技术来提高对网页的理解能力和执行任务的效率。
- AutoDev:微软提出自动软件开发框架。这是一个完全自动化的 AI 驱动软件开发框架,旨在自主规划和执行复杂的软件开发任务。AutoDev 可以让用户定义复杂的软件工程目标,并将这些目标分配给 AutoDev 的自主 Agent 来实现。这些 Agent 可以在代码库上执行多种操作,包括文件编辑、检索、构建过程、执行、测试和 Git 操作。
- SceneCraft:Google 提出了 SceneCraft,它是一个创新的大语言模型 Agent,能够将文本描述转换成可在 Blender 中执行的 Python 脚本,用于创建复杂的 3D 场景。它通过高级抽象、战略规划和库学习来解决空间规划和布局的复杂性。
- REPOAGENT:清华开发了 REPOAGENT,这是一个基于大型语言模型的开源框架,专门用于自动生成、维护和更新代码文档。通过一系列的评估,包括定性和定量分析,证明了 REPOAGENT 在创建高质量的代码仓库文档方面的能力。
- GITAGENT:清华开发的 GITAGENT 可以让模型自己从 GitHub 上找到合适的代码库,然后加到自己的工具箱里。工作时会分四个步骤,如果遇到问题,它还会去 GitHub 上看看别人是怎么解决的,学习经验。
- LLM-Modulo:针对大语言模型的规划和推理能力,亚利桑那州立大学研究人员提出了一个新的 LLM-Modulo 框架。这个框架把大型语言模型和一些外部的验证工具结合起来,使 LLMs 在规划任务中发挥了重要作用,弥补了 LLM 自身无法进行严格规划推理的缺陷。
Mamba
Mamba 是一种选择性结构状态空间模型(Selective Structured State Space Model),其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。该技术最早由 CMU 提出,Mamba 通过全局感受野和动态加权,缓解了卷积神经网络的建模约束,并提供了类似于 Transformers 的高级建模能力,同时避免了与 Transformer 相关的二次计算复杂性。其研究方向集中在提高「长序列数据处理能力」、「多模态数据处理」和「计算效率」等。
架构演进与变体
- MoE-Mamba:波兰研究团队给出的研究成果是将 Mamba 和混合专家层组合起来的模型。MoE-Mamba 能同时提升 SSM 和 MoE 的效率。而且该团队还发现,当专家的数量发生变化时,MoE-Mamba 的行为是可预测的。
- Vim:中科大等研究人员将 Mamba 与视觉研究结合起来,提出了 Vim 架构。在 ImageNet 分类任务、COCO 对象检测任务和 ADE20k 语义分割任务上,与 DeiT 等成熟的视觉 Transformers 相比,Vim 实现了更高的性能,同时还显著提高了计算和内存效率。例如,在对分辨率为 1248×1248 的图像进行批量推理提取特征时,Vim 比 DeiT 快 2.8 倍,并节省 86.8% 的 GPU 内存。
- DenseMamba:华为诺亚方舟实验室的研究者提出了 DenseMamba,用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中,DenseSSM 保留了对最终输出至关重要的精细信息。该方法可广泛应用于各种 SSM 类型,如 Mamba 和 RetNet。
- Cobra:浙大将 Mamba 与多模态大模型结合,提出了 Cobra,一个具有线性计算复杂度的 MLLM。它将 Mamba 语言模型整合到了视觉模态中。实验结果显示,Cobra 在性能上与最先进的方法相当,速度更快,尤其在处理视觉错觉和空间关系判断方面表现突出。Cobra 的参数量只有 LLaVA 的 43%,但性能相当。
- Jamba:AI21 Labs 推出并开源了一种名为 Jamba 的新方法,在多个基准上超越了 Transformer。Jamba 将基于结构化状态空间模型 (SSM) 的 Mamba 模型与 Transformer 架构相结合,旨在将 SSM 和 Transformer 的最佳属性结合在一起。结果表明,Jamba 在长上下文上的吞吐量达到了 Mixtral 8x7B 的 3 倍,比同等大小的基于 Transformer 的模型更高效。
大模型高效微调 LoRA
大模型在微调过程中,可以采取不同的策略,主要分为全量微调和参数高效微调两大类。全量微调涉及对预训练模型的所有参数进行调整,需要大量的计算资源,并有可能导致灾难性遗忘,即在提升特定任务性能的同时损失在其他领域的表现。
为了解决这些问题,参数高效微调(PEFT)技术通过仅更新模型中的一部分参数来减少训练时间和计算成本。PEFT 包括多种方法,如 Prefix Tuning、Prompt Tuning、P-Tuning、Adapter Tuning,以及 LoRA。LoRA 通过在矩阵相乘模块中引入低秩矩阵来模拟 full fine-tuning。这些技术旨在提高训练效率,同时保持或提升模型性能。
在广泛使用的参数高效微调 (PEFT) 方法中,LoRA 及其变体由于避免了额外的推理成本而获得了相当大的普及。LoRA 显著降低了微调的成本,同时获得与全模型微调相近的效果。所以 LoRA 的一些改进方法也层出不穷,该方向也成了研究热点。该方向的研究重点主要在于「参数效率」、「保微调策略」、「上下文扩展」、「模型压缩」等。
主流优化方案
- DORA:英伟达提出了权重分解低阶适应 (DORA),增强了 LoRA 的学习能力和训练稳定性,同时避免了任何额外的推理开销。实验表明 DORA 在各种下游任务上的模型微调都要优于 LoRA。
- QLoRA:华盛顿大学提出了 QLoRA,该算法在保持完整的 16 位微调任务性能的情况下,可以实现单卡 48G GPU 微调 650 亿参数的大模型。作者公布了他们训练的系列模型 Guanaco,与之前公开发布的所有模型相比,在 Vicuna 基准测试中表现更好,只需要在单个 GPU 上微调 24 小时就能达到 ChatGPT 性能水平的 99.3%。
- LongLoRA:MIT 为了扩展 Token 上下文长度,提出了 LongLoRA 微调算法。它能够在资源受限的情况下,极大的扩展预训练大模型 (LLMs) 的上下文长度,LongLoRA 可以让 LLaMA2-7B 的上下文从 4K 扩展至 100K。
- S-LORA:斯坦福提出了 S-LORA,它是专为众多 LoRA 适配程序的可扩展服务而设计的系统。它将所有适配程序存储在主内存中,并将当前运行查询所使用的适配程序取到 GPU 内存中。S-LORA 能够以较小的开销在单个 GPU 或多个 GPU 上为数千个 LoRA 适配器提供服务,并将增加的 LoRA 计算开销降至最低。
混合专家模型 MoE
MoE 全称为 Mixed Expert Models。该项技术最早是由剑桥的研究人员在 1991 年的一篇文章中提出。但是随着近年来大模型参数规模的不断拓展,以及大模型多任务的应用,该技术也成为了当前研究的热点。
随着模型参数规模的不断增大,模型性能也会不断的提升,并会出现涌现现象。然而,如何在有限的计算资源预算下,用更少的训练步数训练一个更大的模型呢?MoE 技术主要就是干这件事情的。MoE 具有训练资源需求低、训练速度快、推理成本低、扩展性好以及具备多任务学习能力。它的一个显著优势是它们能够在远少于 Dense 模型所需的计算资源下进行有效的预训练。这意味着在相同的计算预算条件下,您可以显著扩大模型或数据集的规模。
当前其研究重点主要集中在「专家网络的协同」、「动态路由」、「专家激活率低」和「模型的可扩展性」等方向。
关键技术突破
- Switch Transformers:2022 年,Google 提出的 Switch Transformers 一定程度缓解了模型复杂性高、下游任务微调不稳定等问题。Switch Transformers 简化了 MoE 路由算法,设计了直观的改进模型,降低了通信和计算成本。首次展示了用较低精度(bfloat16)格式训练大型稀疏模型的可能性。
- 动态 Expert 选择框架:北大针对 MoE 路由机制进行了改进,提出了一种新颖的动态 Expert 选择框架。对于较难的任务,本文方法会选择更多的 Expert 来处理,对于简单的任务就用少些,这样可以更有效地利用计算资源。实验结果表明,本文动态路由方法在各种基准测试中都要优于传统的 Top-2 路由方法平均提高了 0.7%,同时激活的参数不到 90%。
- MH-MOE:微软针对 MoE 专家激活率低等问题,提出了多头混合专家 (MH-MOE)。MH-MOE 采用了多头机制,可将每个输入 token 分成多个子 token。然后将这些子 token 分配给组多样化的专家并行处理,之后再无缝地将它们整合进原来的 token 形式,该方法专家激活率更高且扩展性更好,并且具有更细粒度的理解能力。
- CuMo:ByteDance 针对大模型多模态场景提出了 CuMo,将 MOE 应用于多模态 LLM。该方法在视觉编码器和多层感知器 (MLP) 连接器中整合了 Top-K 稀疏门控 MOE 块,有效提升了模型在多模态任务上的性能,同时保持了较低的推理成本。在不同模型尺寸的多模态任务基准测试中达到了 SOTA。
总结
综上所述,大模型技术的演进正朝着更高效、更智能、更通用的方向发展。RAG 解决了知识时效性与幻觉问题;Agent 赋予了模型自主行动与规划能力;Mamba 提供了超越 Transformer 的计算效率;LoRA 降低了个性化部署门槛;MoE 则在有限算力下实现了更大规模的模型训练。这些方向的交叉融合,将共同推动人工智能技术在垂直领域的深度落地与应用。


