大模型 Prompt 调优、安全及推理增强等 10 篇前沿论文解读

综述由AI生成分享了 10 篇关于大模型的前沿论文，涵盖工作流集成、指令调优、Prompt 优化、图结构学习、LLM 安全、预训练模型增强、上下文扩展、Mamba 架构、数学推理及 LoRA 改进等方向。重点介绍了 COULER 系统简化 ML 工作流、SIT 策略增强顺序指令能力、分治算法优化 Prompt、GraphEdit 利用 LLM 学习图结构、黑盒模型提取风险、主动遗忘机制提升语言可塑性、InfLLM 实现超长上下文、DenseSSM 增强 SSM 信息流动、KPMath 数据集提升数学推理以及 GaLore 降低训练内存消耗等技术成果。这些研究为解决大模型在实际应用中的效率、安全及能力瓶颈提供了重要方案。

星星泡饭发布于 2025/2/6更新于 2026/6/424 浏览

引言

紧跟技术发展趋势，快速了解自然语言处理（NLP）领域的最新动态。本文精选了 10 篇最新的高质量论文，涵盖大模型应用、Prompt 调优、LLM 安全、数学推理增强、预训练模型增强、LoRA 改进、Mamba 架构优化等多个热门研究方向，旨在为开发者提供有价值的技术参考。

工作流集成 LLM

机器学习（ML）在许多组织中推动了数据驱动的应用发展，但其工作流程通常复杂、耗时且成本高昂。目前市场上存在多种工作流程引擎，但用户往往难以掌握它们各自复杂的 API。为此，蚂蚁集团的研究人员开发了 COULER 系统。该系统能够通过自然语言描述生成 ML 工作流程，并为不同的工作流程引擎提供统一的编程接口，从而显著简化了用户的操作。

COULER 还通过自动缓存和自动调优机制提高了效率和容错性，有效减少了不必要的计算成本。在蚂蚁集团的实际生产环境中，COULER 每天处理约 22,000 个工作流程，显著提高了资源利用率和工作流程的完成率，证明了其在工业级场景下的有效性。

LLM 指令调优

在一个会话 Session 中，大模型很难遵循一系列的指令，因为在此过程中它们很有可能忽略其中的一部分。这将会严重影响大模型在复杂问题上的表现，此类问题解决方法通常需要多个中间步骤，例如多语言任务（翻译然后回答）和多模态任务（识别然后回答）。

为此，本文作者在 LLaMA-2 70B、Mixtral-8×7B 等开源大语言模型上进行了实证验证。针对当前数据集中顺序指令稀缺的问题，作者提出了顺序指令调优（SIT）。这是一种简单而有效的策略，可以自动增加指令调优数据，并使 LLMs 具备执行多个顺序指令的能力。在探索现有数据集（如 Alpaca）中具有广泛中间任务的交错指令后，我们发现顺序指令调优模型在涉及推理、多语言和多模式能力的下游任务中始终优于传统指令调优基线。

大模型 Prompt 优化

恰当的提示设计（Prompt Engineering），例如思维链（Chain-of-Thoughts），可以解锁 LLM 在不同领域的强大能力。然而，在处理涉及重复子任务和/或含有欺骗性内容的任务（例如算术计算和段落级别长度的虚假新闻检测）时，现有的提示策略要么受限于表达能力不足，要么会受到幻觉引发的中间错误的影响。

为了使 LLM 更好地分辨并尽可能避免这种中间错误，来自南加州大学等研究人员提出了一种基于分治算法的提示策略。这种策略利用分治程序来引导 LLM，将复杂问题分解为可管理的子问题，从而提升大模型分辨是非的能力，减少推理过程中的错误累积。

图结构学习

图结构学习（Graph Structure Learning, GSL）旨在通过生成新的图结构来捕捉图结构数据中节点之间的内在依赖性和交互关系。图神经网络（Graph Neural Networks, GNNs）作为一种有前景的 GSL 解决方案，通过递归消息传递来编码节点间的相互依赖性。然而，许多现有的 GSL 方法过度依赖于作为监督信号的显式图结构信息，使它们容易受到数据噪声和稀疏性的挑战。

在这项工作中，研究人员提出了 GraphEdit 方法，该方法利用大型语言模型（Large Language Models, LLMs）来学习图形结构数据中复杂的节点关系。通过对大型语言模型进行图结构指令调优以增强其推理能力，旨在克服显式图结构信息相关的限制，并提高图结构学习的可靠性。该方法不仅有效地去除了噪声连接，还从全局视角识别了节点间的依赖关系，为图结构提供了全面的理解。我们在多个基准数据集上进行了广泛的实验，以证明 GraphEdit 在不同设置下的有效性和鲁棒性。

LLM 安全

Google 等机构发表的最新研究文章指出，ChatGPT、PaLM-2 等黑盒语言模型的信息是非常容易窃取的。具体来说，在给定典型的 API 访问的情况下，攻击者可以恢复 Transformer 模型的嵌入投影层（直到对称性），且攻击花费不到 20 美元，提取了 OpenAI 的 Ada 和 Babbage 语言模型的整个投影矩阵。由此，我们首次确认这些黑盒模型的隐藏维度分别为 1024 和 2048。除此之外还恢复了 gpt-3.5-turbo 模型的精确隐藏维度大小，并估计恢复整个投影矩阵的查询成本低于 2,000 次调用。未来模型攻击将会是一个比较值得注意的安全问题，需要加强防护机制。

PLMs 能力提升

在自然语言处理领域，预训练语言模型（PLMs）扮演着至关重要的角色，它可以根据任务需求，迁移至各种下游任务中。然而，PLMs 在适应新语言时面临挑战，尤其是在数据和计算资源受限的情况下，模型往往难以快速收敛。

本文提出了一种通过「主动遗忘机制」，可在预训练期间增强 PLMs 语言可塑性的方法。实验结果表明，采用该机制的预训练模型在低数据环境下表现出更快的收敛速度，并且相比标准 PLMs 准确率高出 21.2%。这一发现对于多语言场景下的模型部署具有重要意义。

LLM 上下文增长

大模型只能够记忆与理解有限的上下文已经成为大模型在真实应用中的能力瓶颈。例如对话式 AI 系统往往无法记忆你前一天对话的内容，利用大模型构建智能体会产生前后不一致的行为与记忆丢失。

为了让大模型能够记忆并处理更长的上下文，来自清华大学、麻省理工学院等联合提出无需额外训练的大模型长文本理解方法 InfLLM。该方法利用少量计算和显存开销实现了 LLM 的超长文本处理。实验结果表明，InfLLM 能够有效地扩展 Mistral、LLaMA 的上下文处理窗口，并在 1024K 上下文的海底捞针任务中实现 100% 召回，极大地拓展了长文本应用场景。

大模型 Prompt 调优、安全及推理增强等 10 篇前沿论文解读

引言

工作流集成 LLM

LLM 指令调优

大模型 Prompt 优化

图结构学习

LLM 安全

PLMs 能力提升

LLM 上下文增长

Mamba 增强

更多推荐文章

相关免费在线工具

LLM 数学推理增强

LoRA 增强

更多推荐文章

相关免费在线工具

大模型 Prompt 调优、安全及推理增强等 10 篇前沿论文解读

引言

工作流集成 LLM

LLM 指令调优

大模型 Prompt 优化

图结构学习

LLM 安全

PLMs 能力提升

LLM 上下文增长

Mamba 增强

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

LLM 数学推理增强

LoRA 增强

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具