引言
紧跟技术发展趋势,快速了解自然语言处理(NLP)领域的最新动态。本文精选了 10 篇最新的高质量论文,涵盖大模型应用、Prompt 调优、LLM 安全、数学推理增强、预训练模型增强、LoRA 改进、Mamba 架构优化等多个热门研究方向,旨在为开发者提供有价值的技术参考。
工作流集成 LLM
机器学习(ML)在许多组织中推动了数据驱动的应用发展,但其工作流程通常复杂、耗时且成本高昂。目前市场上存在多种工作流程引擎,但用户往往难以掌握它们各自复杂的 API。为此,蚂蚁集团的研究人员开发了 COULER 系统。该系统能够通过自然语言描述生成 ML 工作流程,并为不同的工作流程引擎提供统一的编程接口,从而显著简化了用户的操作。
COULER 还通过自动缓存和自动调优机制提高了效率和容错性,有效减少了不必要的计算成本。在蚂蚁集团的实际生产环境中,COULER 每天处理约 22,000 个工作流程,显著提高了资源利用率和工作流程的完成率,证明了其在工业级场景下的有效性。
LLM 指令调优
在一个会话 Session 中,大模型很难遵循一系列的指令,因为在此过程中它们很有可能忽略其中的一部分。这将会严重影响大模型在复杂问题上的表现,此类问题解决方法通常需要多个中间步骤,例如多语言任务(翻译然后回答)和多模态任务(识别然后回答)。
为此,本文作者在 LLaMA-2 70B、Mixtral-8×7B 等开源大语言模型上进行了实证验证。针对当前数据集中顺序指令稀缺的问题,作者提出了顺序指令调优(SIT)。这是一种简单而有效的策略,可以自动增加指令调优数据,并使 LLMs 具备执行多个顺序指令的能力。在探索现有数据集(如 Alpaca)中具有广泛中间任务的交错指令后,我们发现顺序指令调优模型在涉及推理、多语言和多模式能力的下游任务中始终优于传统指令调优基线。
大模型 Prompt 优化
恰当的提示设计(Prompt Engineering),例如思维链(Chain-of-Thoughts),可以解锁 LLM 在不同领域的强大能力。然而,在处理涉及重复子任务和/或含有欺骗性内容的任务(例如算术计算和段落级别长度的虚假新闻检测)时,现有的提示策略要么受限于表达能力不足,要么会受到幻觉引发的中间错误的影响。
为了使 LLM 更好地分辨并尽可能避免这种中间错误,来自南加州大学等研究人员提出了一种基于分治算法的提示策略。这种策略利用分治程序来引导 LLM,将复杂问题分解为可管理的子问题,从而提升大模型分辨是非的能力,减少推理过程中的错误累积。
图结构学习
图结构学习(Graph Structure Learning, GSL)旨在通过生成新的图结构来捕捉图结构数据中节点之间的内在依赖性和交互关系。图神经网络(Graph Neural Networks, GNNs)作为一种有前景的 GSL 解决方案,通过递归消息传递来编码节点间的相互依赖性。然而,许多现有的 GSL 方法过度依赖于作为监督信号的显式图结构信息,使它们容易受到数据噪声和稀疏性的挑战。
在这项工作中,研究人员提出了 GraphEdit 方法,该方法利用大型语言模型(Large Language Models, LLMs)来学习图形结构数据中复杂的节点关系。通过对大型语言模型进行图结构指令调优以增强其推理能力,旨在克服显式图结构信息相关的限制,并提高图结构学习的可靠性。该方法不仅有效地去除了噪声连接,还从全局视角识别了节点间的依赖关系,为图结构提供了全面的理解。我们在多个基准数据集上进行了广泛的实验,以证明 GraphEdit 在不同设置下的有效性和鲁棒性。
LLM 安全
Google 等机构发表的最新研究文章指出,ChatGPT、PaLM-2 等黑盒语言模型的信息是非常容易窃取的。具体来说,在给定典型的 API 访问的情况下,攻击者可以恢复 Transformer 模型的嵌入投影层(直到对称性),且攻击花费不到 20 美元,提取了 OpenAI 的 Ada 和 Babbage 语言模型的整个投影矩阵。由此,我们首次确认这些黑盒模型的隐藏维度分别为 1024 和 2048。除此之外还恢复了 gpt-3.5-turbo 模型的精确隐藏维度大小,并估计恢复整个投影矩阵的查询成本低于 2,000 次调用。未来模型攻击将会是一个比较值得注意的安全问题,需要加强防护机制。
PLMs 能力提升
在自然语言处理领域,预训练语言模型(PLMs)扮演着至关重要的角色,它可以根据任务需求,迁移至各种下游任务中。然而,PLMs 在适应新语言时面临挑战,尤其是在数据和计算资源受限的情况下,模型往往难以快速收敛。
本文提出了一种通过「主动遗忘机制」,可在预训练期间增强 PLMs 语言可塑性的方法。实验结果表明,采用该机制的预训练模型在低数据环境下表现出更快的收敛速度,并且相比标准 PLMs 准确率高出 21.2%。这一发现对于多语言场景下的模型部署具有重要意义。
LLM 上下文增长
大模型只能够记忆与理解有限的上下文已经成为大模型在真实应用中的能力瓶颈。例如对话式 AI 系统往往无法记忆你前一天对话的内容,利用大模型构建智能体会产生前后不一致的行为与记忆丢失。
为了让大模型能够记忆并处理更长的上下文,来自清华大学、麻省理工学院等联合提出无需额外训练的大模型长文本理解方法 InfLLM。该方法利用少量计算和显存开销实现了 LLM 的超长文本处理。实验结果表明,InfLLM 能够有效地扩展 Mistral、LLaMA 的上下文处理窗口,并在 1024K 上下文的海底捞针任务中实现 100% 召回,极大地拓展了长文本应用场景。
Mamba 增强
华为诺亚方舟实验室的研究者提出了 DenseSSM,用于增强 SSM(状态空间模型)中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中,DenseSSM 保留了对最终输出至关重要的精细信息,解决了深层网络中信息衰减的问题。
DenseSSM 在保持训练并行性和推理效率的同时,通过密集连接实现了性能提升。该方法可广泛应用于各种 SSM 类型,如 Mamba 和 RetNet,为下一代高效序列模型提供了新的架构思路。
LLM 数学推理增强
大型语言模型 (LLM) 在复杂的推理任务中显示出巨大的潜力,但其性能往往因缺乏高质量、以推理为重点的训练数据集而受到阻碍。数学推理是衡量模型逻辑能力的重要指标。
为了解决这一挑战,本文提出了关键点驱动数据合成(KPDDS),这是一种新颖的数据合成框架,它通过利用来自真实数据源的关键点和样本对来合成问答对。KPDDS 通过严格的质量控制和显著的可扩展性确保新颖问题的生成。因此,我们推出了 KPMath,这是迄今为止为数学推理量身定制的最广泛的综合数据集,包含超过一百万个问答对。利用 KPMath 并通过额外的推理密集型语料库对其进行扩充,创建了全面的 KPMath-Plus 数据集。在 KPMath-Plus 上微调 Mistral-7B 模型在 MATH 测试集上产生了 39.3% 的零样本 PASS@1 准确率,该性能不仅超过了其他微调的 7B 模型,而且还超过了某些 34B 模型,展示了数据质量对模型性能的关键影响。
LoRA 增强
大模型训练通常会遇到内存资源的限制。目前常用的内存减少方法低秩适应(LoRA),通过引入低秩(low-rank)适配器来更新模型的权重,而不是直接更新整个权重矩阵,从而降低显存占用。
然而,这种方法在预训练和微调阶段通常表现不佳,为此,本文作者提出了梯度低秩映射(Gradient Low-Rank Projection,GaLore)。这是一种允许「全参数」学习的训练策略,并且比 LoRA 等常见的低秩适应方法更节省内存,相比 BF16 内存减少了 63.3%。GaLore 为大模型的高效训练提供了新的可能性,使得在有限资源下进行全量微调成为可能。


