大型推理模型发展方向:利用 LLM 加强推理的调查报告
大型推理模型通过结合训练时扩展与测试时计算提升推理能力。文章综述了数据构建从人工标注转向 LLM 自动化的趋势,分析了监督微调与强化学习在优化多步推理中的应用,特别是过程奖励模型的作用。探讨了测试时间缩放技术如 PRM 引导搜索及 OpenAI o1 系列进展。总结数学、逻辑、编码等评估基准,并讨论慢思考机制与未来开放问题。

大型推理模型通过结合训练时扩展与测试时计算提升推理能力。文章综述了数据构建从人工标注转向 LLM 自动化的趋势,分析了监督微调与强化学习在优化多步推理中的应用,特别是过程奖励模型的作用。探讨了测试时间缩放技术如 PRM 引导搜索及 OpenAI o1 系列进展。总结数学、逻辑、编码等评估基准,并讨论慢思考机制与未来开放问题。

'如果语言存在严重的赤字,思维也会存在严重的赤字' —诺姆·乔姆斯基
借助深度学习的进展和大规模数据集的可用性,Large Language 模型(LLMs)已成为通往人工通用智能(AGI)的变革范式。这些庞大的 AI 模型通常采用 Transformer 架构,并在大规模文本语料库上进行预训练,完成下一个标记的预测任务。神经网络的扩展定律表明,随着模型大小和训练数据的增加,它们的性能显着提高。更重要的是,LLMs 还解锁了在较小模型中不存在的卓越新能力,例如上下文学习、角色扮演和类比推理。这些新能力使 LLMs 能够超越自然语言处理问题,促进更广泛范围的任务,如代码生成、机器人控制和自主智能体。
**在这些能力中,类人推理引起了学术界和工业界的极大关注,因为它展示了大型语言模型通过抽象和逻辑推理来推广到复杂实际问题的巨大潜力。**这一领域的一个显著突破是'链式思维 CoT'提示技术 [160],它可以在测试时间引发步骤性的类人推理过程,而无需额外的训练。此类直观提示技术已被证明可以显著提高预训练语言模型的推理准确性,这也导致了更高级的提示技术的发展,如'思维树 ToT' [172]。这些方法引入了'思维'概念,将其作为代表类人推理过程中中间步骤的一系列标记。通过整合这样的中间步骤,大型语言模型的推理超越了简单的自回归标记生成,实现了更复杂的认知结构,如树搜索 [172] 和反思式推理 [180]。
最近,在学习推理方面出现了一个重要的研究趋势 [103],旨在训练 LLMs 掌握类似人类的推理过程。在这一研究方向上的一个关键挑战是缺乏训练数据。人类标注往往成本过高,特别是对于已被证明可以有效监督 LLM 推理的逐步推理轨迹而言 [75]。为了解决这个问题,最近的研究已经从人类标注转向了基于 LLM 的搜索算法。这些方法利用外部验证推理问题,通过试错搜索自动生成准确的推理轨迹 [85]。更重要的是,研究人员提出在这些推理轨迹上训练过程奖励模型(PRMs)[183]。PRMs 可以提供稠密的、逐步的奖励,有助于 LLM 推理的强化学习。这些方法结合起来减少了对人类标注数据的依赖,并创造了一个有效整合'搜索'和'学习'的'强化循环',这两种方法可以像 Richard Sutton 预测的那样无限扩展 [139]。因此,这种新颖的范式实现了 LLM 推理能力的扩展,随着训练时间的计算增加,为更先进的推理模型铺平了道路。
此外,最近的研究表明,扩大测试时间计算也可以提高 LLM 推理准确性。具体而言**,可以使用 PRMs 来指导 LLMs 评估和搜索中间的'想法'**,这鼓励 LLMs 在测试时计算期间生成深思熟虑的推理步骤,从而提高推理准确性。这种方法导致了测试时间扩展定律,预测在测试时为深思熟虑的推理花费更多令牌可以提高准确性。因此,基于 RL 的训练时间扩展和基于搜索的测试时间扩展结合起来展示了一种有前途的研究方向,可以充分释放 LLMs 的推理能力,即朝着大型推理模型的发展道路迈进。在这个研究方向上的一个重要里程碑是 OpenAI 的 o1 系列,它展示了这种方法的有效性,并回应了 OpenAI 将 LLMs 从对话人工智能(一级)转变为更强大的推理人工智能(二级)的五步路线图朝 AGI 发展的愿景。一些开源项目,如 OpenR、LLaMABerry 和 Journey Learning,致力于复制 OpenAI 的 o1 的强大推理能力,为开发大型推理模型提供了宝贵的见解。
在这项调查中,我们对最近在大型推理模型方面的研究工作进行了全面回顾。第二部分简要介绍了 LLM 推理背景。接下来的三节深入探讨了推动大型推理模型发展的关键技术组成部分。具体而言,第三节着重于训练数据构建,强调从人工标注转变为 LLM 驱动的自动搜索。第四节回顾了在增加训练时计算能力的情况下扩展 LLM 推理能力的强化学习方法,而第五节讨论了在测试时扩展的具体方法,重点放在 PRM 引导搜索上。在第六节中,我们分析了 OpenAI 的 o1 系列和其他开源项目的发展,探索大型推理模型的发展路径。第七节总结了额外的测试时增强技术,第八节回顾了推理基准。最后,我们通过讨论开放问题和未来研究方向来总结这项调查。
**作为训练 LLMs 的基础阶段,有效的预训练对于培养推理能力至关重要。**在讨论 LLMs 推理的预训练之前,我们首先概述一般 LLMs 预训练的基本流程。通过预训练,LLMs 不仅获得核心语言知识,还获得多样化的世界知识,为先进能力和有效价值观对齐的出现奠定了坚实基础。通常,LLMs 的预训练依赖于高质量的文本语料库,包括广泛的网络内容、书籍、代码和其他类型的数据。利用这些丰富的文本语料库,LLMs 建立在变压器架构上,通过下一个标记预测任务进行训练。预训练后,LLMs 通常展现出出色的上下文学习能力,使它们能够利用其庞大的知识库生成连贯的文本,并对各种问题提供准确的答案。值得注意的是,预训练阶段在培养 LLMs 的推理能力方面发挥着关键作用。例如,研究表明,数据集中丰富的代码和数学内容是发展强大推理技能的关键基础。根据这些观察,新开发的 LLMs 开始引入精心设计的合成数据,以增强 LLMs 的推理能力。在预训练过程中,一个关键的挑战是在代码和数学数据与一般文本语料库之间平衡比例,以保持强大的一般语言能力,同时释放 LLMs 的推理潜力。
通过预训练,语言模型可以通过上下文学习展现推理能力,而微调技术被广泛应用于实现语言模型的零次迁移和改进推理能力。这里,我们首先概述基本的微调过程,然后探讨其增强推理能力的潜力。正如 [104] 中所描述的,预训练阶段之后,语言模型进入了监督微调阶段(SFT),也被称为指导微调阶段。该阶段的主要目标是优化模型的输出风格,确保其响应与人类需求和实际应用相一致。通过在反映广泛的日常人类交互的各种指导数据集上训练,通常通过广泛和精心策划的手动注释和完善 [195] 来创建。随着 ChatGPT 的出现,出现了新的生成多样指导数据集的方法。这些方法包括直接从强大的语言模型中提取数据 [153, 167] 以及从现有语料库中自动构建大规模数据集的方法 [158, 32]。利用这些精心设计的指导微调数据集,微调过程不断使用下一个标记的预测目标,类似于预训练。然而,与预训练不同,微调主要计算答案的损失,通常忽略问题的损失。此外,已经显示出将包含思维链(CoT)[160] 推理和数学问题解决示例的数据集纳入微调中显著增强了语言模型的推理能力,使其成为一个活跃研究领域。遵循一般方面的做法,大多数当前方法利用从先进的大型推理模型中提取数据,然后通过微调来增强语言模型的推理能力,从而获得最终的大型推理模型。
**仅仅依赖于来自先进大型推理模型的直接数据提炼,会限制新型 LLMs 的潜力。**更有前途的方法是利用强化学习进行数据构建和模型训练,这与一般 LLM 训练中的最终对齐阶段完全对应。在 LLM 的一般训练中,**对齐阶段通常涉及诸如从人类反馈中进行强化学习(RLHF)[104] 的方法,以引导模型生成符合有益、无害和诚实标准的内容。**该阶段的目标是增强 LLMs 在现实中的安全性和可控性。与之前的 SFT 阶段相比,这个阶段通常包括大量经过精心筛选、手动标记的排名数据,以准确反映人类偏好 [35, 168]。这些数据不仅包括正确的示范,还包括应该避免的不良情况。标准的 RLHF 通常包括一个 SFT 模型、一个奖励模型和一个对齐模型,这些模型通过 PPO 等方法进行迭代优化 [121]。由于标准 RLHF 具有高数据需求和训练成本,因此已经提出了像直接偏好优化(DPO)[112] 这样的方法,以减少对明确奖励模型的依赖。在 DPO 中,偏好损失被定义为策略的函数,直接指导模型优化。考虑到推理问题的多步性质和复杂性,基于对齐的后训练已成为激发 LLMs 推理能力的最终和最关键的步骤。通过精心分解推理过程并逐渐向模型反馈信号,基于强化学习和偏好学习的各种自我训练方法 [45, 64, 183] 已经取得了显著成功。
**人类式的推理是具有足够大模型参数的 LLMs 中出现的最重要的能力之一 [157]。**尽管零-shot 推理对于某些任务可能仍不可靠,研究人员已经发现了各种提示技术来增强这些能力。这些技术可大致分为三种主要方法:逐步推理、多路径探索和基于分解的方法。
逐步推理方法,如'思维链'提示所示 [160],表明明确展示中间推理步骤显著提升问题解决能力。即使是简单的提示如'让我们逐步思考'也能有效地引导推理过程 [62]。这种方法通过'自洽性'[153] 进一步完善,后者生成多条推理路径以得出更可靠的结论,以及'Auto-CoT'[189],该方法自动化生成有效的推理链。
多路径探索方法不仅仅考虑线性推理,而是同时考虑多条潜在的解决路径。Tree of Thoughts [172] 将替代推理路径组织在树形结构中,实现不同解决策略的系统探索。Graph of Thoughts [11] 进一步将其推广为图形结构,允许更灵活的推理模式和回溯能力。ReAct [173] 通过将推理与行动步骤交织在一起,丰富了这一范式,使其能够与外部环境更动态地进行交互。
对于复杂问题,基于分解的方法已被证明特别有效。Least-to-Most Prompting [196] 和 Algorithm of Thoughts [122] 系统地将复杂问题分解为可管理的组成部分,而 Plan-and-Solve [147] 则为解决这些子问题提供了战略指导。当处理需要多个步骤或不同层次分析的任务时,这些方法尤为有价值。
这些广泛的推理能力,通过结构化的提示策略得到增强,已被证明在需要仔细分析和系统思考的任务中特别有效,使 LLMs 能够完成各种复杂的社会科学相关任务。这些方法的成功证明了,虽然 LLMs 具有固有的推理能力,但通过在提示过程中的谨慎引导和结构,可以释放它们的全部潜力。
除了 LLMs 的指令跟随和上下文学习能力之外,研究人员开始设计具有智能体性工作流程,用于编程 LLMs 的'思维模式' [137]。这种智能体性工作流程允许研究人员增强 LLMs 的推理能力而无需额外的训练,但通常需要更多的测试时间计算。上下文学习 [33, 25] 是通过提供一些上下文演示来提高 LLMs 的任务特定性能的能力,使 LLMs 能够在不进行计算昂贵的训练的情况下有效地推广到未见问题 [14]。尽管这些能力的起源仍然是一个广泛争论的话题,最近的研究表明,上下文学习通过使 LLMs 能够捕捉标签空间、输入文本的分布以及答案的期望格式来提高 LLMs 的性能 [97]。这种理想的特性使研究人员能够将通用的 LLMs 适应各种任务场景,例如通过上下文角色扮演模拟特定人口群体的视角 [22]。最近的研究表明,有效的智能体性工作流程可以大大改善 LLMs 模拟人类行为 [105, 127]、人-LLM 互动 [89] 和协作任务解决 [107] 的能力。通过智能体性工作流程对 LLMs 进行编程的能力奠定了通过复杂认知架构提高 LLMs 推理能力的基础。
图 1:说明了用于注释 LLM 推理数据的不同范式。
创建大规模、高质量的推理数据集对于增强 LLMs 的推理能力至关重要。然而,这项任务由于成本高昂而面临重大挑战。如图 1 所示,人工注释被普遍认为质量高,但成本过高且难以扩展。相反,利用 LLMs 自动化注释过程提供了一种更具成本效益的替代方案,但面临受限验证的挑战,特别是对于逐步推理过程。在本节中,我们将回顾该领域的最新研究成果(汇总在表 1 中),凸显了从人工注释转向 LLM 自动化的变化。
**人类标注在构建 LLMs 数据集中的作用是不可或缺的。**人类标注者以其细致、耐心和精确性为特点,还具有适应新情境和有效处理模糊数据的能力 [98]。Zhou 等人 [195] 证明,即使只有最少量的人工标注数据,模型也能取得出色的性能,突显了精心筛选标注对模型有效性的关键作用。人工标注数据在增强大型语言模型的推理能力方面起着关键作用。在人类反馈强化学习(RLHF)[104] 的背景下,人类标注者的偏好数据使最初在通用文本语料库上训练的 LLMs 能够与复杂的人类价值观和道德考虑相一致。标注的这种通用方法有助于为特定任务微调模型。Lightman 等人 [75] 在此基础上展示了利用人类标注者评估数学推理过程每一步的推理质量的功效,显著提高 LLM 推理的准确性。这突显了人类标注如何弥合通用训练数据与特定领域挑战之间的差距,比如复杂的推理任务。
**增强 LLM 中的推理能力需要过程监督,即人类标注者指导推理过程的每一步 [75]。**然而,这种监督需要大量的人工标注数据,使其资源密集且难以持续。鉴于 LLM 训练通常需要千兆字节的数据,其数量对模型性能至关重要,纯粹通过手动标注构建数据集变得越来越不切实际。这凸显了在不仅仅依赖人类标注的情况下改进推理能力的需求。一种有前途的方法是人类与 LLM 之间的合作标注,其中 LLM 被利用来加快过程,同时保持人类生成标注的高质量。具体而言,注释过程可以分为两个阶段:预注释表和精化阶段。在预注释阶段,LLMs 可以用来进行初始一轮标注,利用少量手动提供的示例快速高效地进行设置 [42, 61]。在精化阶段,人类注释员可以评估 LLM 生成的标注质量,并集中精力仅纠正质量低下的标注子集 [61, 152, 96, 42]。为了实现可扩展的标注过程,近期的研究越来越关注如何在确保数据质量的同时最大程度地实现自动化,从而减少人类参与而不损害标注的准确性。
**数据标注是一项具有挑战性和资源密集型的任务,特别是在需要进行诸如过滤、识别、组织和重建文本数据等复杂操作的场景中。**这些任务通常枯燥、耗时,并且需要大量的人力投入,使它们成为大规模数据构建工作中的一个昂贵瓶颈。为了应对这些挑战,利用 LLMs 进行数据标注提供了一种经济高效的替代方案。随着上下文窗口长度超过 100k 个标记,LLMs 可以轻松处理长篇文本和大量结构化数据,处理数据标注的复杂要求,并具有显著的效率。它们强大的指令遵循能力使它们能够灵活适应各种复杂的标注场景,同时达到与人类标注者相当的质量水平。通过自动化这些繁重的任务,LLMs 显著减少了对人力的依赖,简化了标注流程,并提高了整体生产力。
**LLMs 能够处理各种自动注释任务,范围从简单的问答提取 [106] 到包含额外目标信息 [161]。**在没有人类示范的情况下,LLMs 依靠其强大的推理和上下文学习能力来独立解决更复杂的注释需求。例如,Schick 等人 [120] 演示了 LLMs 如何用于构建工具使用的数据集。对于每个可能需要 API 调用的候选位置,LLM 能够理解周围上下文中的逻辑关系,生成相关问题,并确定适当的工具 API 来解决问题。当有人类示范时,LLMs 可以通过模仿这些示例中展示的模式和推理策略来进一步提高其性能。对于复杂任务,人类示范提供高质量的轨迹 - 一系列思考、观察或行动的序列,指导 LLMs 复制人类决策过程。现有研究表明,即使是无样本示范的 LLMs,也可以通过基于人类示范的任务不可知提示来有效执行注释任务 [65]。此外,对于涉及高度复杂和微妙轨迹的任务,LLMs 可以整合专门的智能体,如计划智能体、工具智能体和反思智能体,以处理注释过程的不同方面,从而进一步增强其与人类式推理和行为的一致性能力 [109]。这些多样化的能力自然延伸到推理结果注释任务,LLMs 不仅推断潜在的逻辑结构,还系统记录中间推理步骤及其相关结论。这使得创造的注释数据集不仅捕捉最终结果,还捕捉导致其出现的完整推理过程,为下游应用提供更丰富的洞察。
超越人类示范标注,LLMs 可以通过搜索和反馈独立增强其标注能力,这个过程涉及通过从动态环境中学习进行迭代细化。失败的数据点可以被视为一种经典形式的反馈,为模型提供宝贵的反馈,帮助其识别弱点并设计有针对性的调整。通过自我纠正错误样本并生成精炼的训练数据,LLMs 参与了一种自我改进的循环,加强了它们的理解和推理能力。此外,LLMs 可以系统分析其错误的原因,提取关键见解并将其编码为自学习知识,指导未来的推理任务。这种反馈驱动的方法还可以根据相似性将失败轨迹与成功的轨迹配对,从而启用对比学习策略来优化模型的参数。通过这种迭代搜索和细化机制,LLMs 不仅解决错误,还发展了更强大的推理能力,实现了对复杂任务的更深层次泛化和适应性。
**在复杂推理任务中,模型输出的每一步都可以明显影响最终结果,因此将中间决策标记为'正确'、'错误'或分配中间奖励,即过程注释,变得至关重要。**然而,手动标记这些步骤是昂贵且耗时的。例如,Lightman 等人 [75] 投入大量人工努力制作了一个大规模过程注释数据集,即 PRM800K,满足了训练有效过程奖励模型(PRM)的要求,并极大提升了 LLM 的推理能力。因此,自动化方法越来越需要实现高效的过程注释,确保可扩展性和成本效益。最初的自动化方法利用外部更强大的 LLM 来标记由较小 LLM 生成的中间过程。此外,基于蒙特卡洛的方法减少了对外部更强大 LLM 的依赖,并可以利用更弱的 LLM 完成数据注释,从而通过自我强化的方式训练更强大的 LLM。
**利用更强的 LLM 进行注释:**作为一种直接的自动标记方法,Luo 等人设计了一种利用更强大的外部模型来注释生成模型推理过程中的中间结果。该方法不依赖于手动标注,而是利用预训练的高性能模型,如 GPT 系列,来评估每个生成步骤。通过利用更强大的外部模型的能力,这种方法增强了标记过程的准确性和可扩展性,使其更适用于大规模任务。然而,这种方法的主要局限性在于其依赖于高性能的外部模型,这意味着标记过程的性能最终受到所使用外部模型的能力的限制。
**通过蒙特卡洛模拟的注释:**为了减少对强大的外部模型的依赖,王等人提出了一种改进方法,避免直接对中间步骤进行评分。相反,他们的方法使用外部模型从给定的中间输出继续推理多个步骤,并随机重复这个模拟过程多次。然后根据这些延伸推理的平均结果评估中间步骤的质量。这种蒙特卡洛方法在数学问题解决和代码生成等任务中表现出有望的结果。
通过树搜索模拟的注释:使用多步蒙特卡洛仿真与外部模型相结合的方法来评估中间步骤质量,基于平均结果已经成为自动化过程注释中最常用的方法之一。为了进一步提高该方法的效率,罗等人提出了一种改进方法,即用蒙特卡洛树搜索(MCTS)策略取代重复的蒙特卡洛仿真。在这种改进方法中,使用 MCTS 从中间步生成代表最终推理结果的多个叶节点。然后,基于这些叶节点的平均结果评估中间步骤的质量。与随机重复推理相比,MCTS 利用树搜索来提高推理质量,同时允许叶节点共享高质量的父节点,降低计算开销并提高效率。这种方法在数学问题解决中表现出卓越的性能,胜过人类注释。
从基于 MCTS 的模拟向前迈出一步,Zhang 等人 [183] 在流程注释中引入了一种自我完善的机制。他们利用获得的流程注释来训练一个流程奖励函数(PRM),从而提高大型语言模型(LLM)的性能。然后使用经过改进的 LLM 来重复基于 MCTS 的模拟,生成更高质量的注释。这种涉及重复改进周期的迭代过程导致逐渐增强的流程注释。这种方法在包括数学问题求解、问答和多领域知识推理在内的几个任务中表现出色,展示了其通过迭代增强不断完善和改进注释质量的有效性。
预训练模型在各种任务中表现出色,但常常在复杂推理和与人类期望一致的输出对齐方面遇到困难。微调对于解决这些限制至关重要,可以提升模型在特定任务上的性能并增强其推理能力。最初,使用有监督的微调(SFT),模型从带标签的数据集中学习任务特定模式。然而,随着推理挑战的增长,强化学习(RL)和直接偏好优化(DPO)等方法提供了更有效的方法,利用奖励模型更有效地使模型输出与人类推理更加一致,促进更连贯、负责任和具有情境意识的输出。
图 2:LLM 推理训练中的奖励模型。
监督微调是一种学习技术,利用标记数据来精炼预训练模型在特定任务或领域上的能力,同时保持模型对预训练知识的理解。预训练允许模型从海量的非结构化数据中学习广泛的、通用的特征,而微调通过将模型暴露在较小的、任务特定的数据集中,具有明确的输入 - 输出映射,从而使模型专门化。
SFT 是提高 LLMs 推理能力的关键步骤,将它们从通用系统调整为特定领域工具,并使它们能够应用于下游任务。例如,像 GPT [111]、BERT [30] 和 T5 [113] 这样的 LLMs 是通过自监督学习在大量文本数据上进行预训练,赋予它们广泛的语言理解和生成能力。然而,它们的输出并不总是符合任务特定要求。在没有微调的情况下,LLMs 往往在某些推理任务上表现不佳,比如目标计数 [182]、卫星理解 [91] 和工程问题回答 [154]。通过 SFT,我们可以部分地解决这些挑战,基于标记的任务特定数据集对模型的输出进行细化。
然而,直接应用 SFT 可能无法充分发掘模型在所需领域的推理能力,特别是在需要更复杂决策或多步问题解决的任务中。引入 CoT 技术 [160] 已经改变了 SFT 过程,通过明确训练模型在得出答案之前生成中间推理步骤。使用基于 CoT 的 SFT,LLMs 被鼓励明确生成中间推理步骤,从而增强他们解决需要更有结构和组织思维的任务的推理能力。例如,ReasonBert [29] 表明,通过使用推理链微调模型,显著提升了模型在数学问题和逻辑推理等任务中的表现,这些任务包括逐步推理过程。另一项关键研究 [80] 调查了如何通过微调模型通过推理改善模型的可解释性,减少复杂决策场景中的错误,生成更透明、逐步的思维过程。通过与 CoT 的微调,模型不仅改善了最终答案,还增强了'思考'问题的能力,提供更清晰的模型推理过程。
尽管 SFT 具有各种方法和出色的性能,但也存在一些限制。首先,SFT 严重依赖于高质量的标记数据集,这在为利基领域或需要专家注释的任务中可能昂贵且耗时。其次,SFT 可能导致灾难性遗忘,模型在微调过程中失去一些预训练的通用知识,降低了其在超出微调领域的任务推理中的效用。最后,即使使用参数高效的方法,微调大规模模型的计算成本仍可能令人望而却步,给资源有限的组织带来挑战。解决这些限制需要谨慎的数据集策划、正则化技术,以及探索替代方法,如提示调整或多任务微调,以平衡任务专业化和泛化。
由于对昂贵、高质量的标记数据集的高度依赖和 SFT 的高计算成本,强化学习已经成为一个强大的替代框架,用于训练模型掌握推理过程。与监督学习不同,RL 使模型能够通过试错奖励信号学习,发现实现特定目标的最佳策略。如图 2(a)所示,该模型根据其当前状态采取行动,并以奖励信号的形式接收反馈。这种反馈引导模型随着时间的推移更新其参数,优化累积奖励。
经典强化学习。强化学习已成为 LLMs 发展中的一个关键步骤。在强化学习框架中,LLMs 的参数是基于其行动的奖励进行更新的。具体而言,价值函数或 Q 函数是基于奖励模型的反馈进行更新的,将对一个行动结果的功劳完全归因于其直接效果。这种方法简化了框架,使其在概念上朴素而增强了模型的有效响应能力。目前,两种关键方法主导着 LLMs 的强化学习训练:人类反馈强化学习(RLHF)和人工智能反馈强化学习(RLAIF)。
欧阳等人 [104] 使用 RLHF 来将 LLMs 与人类意图对齐。此外,通过在人标记的演示和排名比较上微调 GPT-3,他们开发了一个奖励模型,预测人类注释者的偏好。尽管规模较小,但它有效地将训练过的 LLMs 与人类偏好对齐,表现优于 GPT-3 在推理和遵循指令方面。白等人 [8] 也利用 RLHF 来创建有用和无害的语言模型。遵循有益、诚实和无害的框架,他们微调一个基础模型,用拒绝抽样训练一个偏好模型,并通过人类反馈进行迭代优化。这个过程产生了在自然语言处理任务中表现卓越并展示强大伦理推理能力的 AI 助手。
为了减少对大规模人工标记数据集的依赖,白等人提出了 Constitutional AI,这是一个利用原则而不是昂贵的人类反馈来训练 AI 助手,使其有益且无害的框架。该过程包括两个阶段:监督学习和 RLAIF。在监督阶段,模型根据宪法原则对其输出进行批判和改进,创建微调数据集。在 RLAIF 阶段,模型生成自我评估以指导训练,无需依赖有害数据的人工标记。Ramamurthy 等人专注于使用 RL 来使 LLMs 与人类偏好保持一致。他们引入了 RL4LMs,一个基于 RL 的微调库,以及评估使用反映人类偏好的奖励函数的 GRUE 基准。为了解决训练挑战,他们提出了自然语言策略优化算法,通过限制标记采样来稳定训练。这项工作为将 RL 整合到 LLM 微调中以实现更好的对齐和性能提供了坚实的基础。
直接优先选择优化经典的强化学习方法依赖于训练一个奖励模型,根据人类偏好对输出进行评分。而 DPO 通过直接利用偏好数据而不需要显式奖励模型来简化这一过程。DPO 不是优化复杂的奖励函数,而是使用成对偏好比较,即指示人类偏好哪个输出的数据。这种直接方法简化了学习管道,同时保留了基于强化学习方法的对齐优势,通常更简单更有效。Rafailov 等人 [112] 提出了 DPO,一种通过简单的分类损失直接优化策略以与人类偏好对齐的语言模型的新框架。通过将奖励模型参数化为封闭形式中的优化策略,DPO 在微调期间消除了采样和广泛的超参数调整的需要。实验证明,在情感控制、摘要和对话生成等任务中,DPO 与 PPO 等 RLHF 方法相匹配或超越,同时更为稳定、计算效率更高,并且在产生推理输出方面更为有效。Amini 等人 [4] 提出了带偏移的直接偏好优化 (ODPO),这是 DPO 的扩展,用于通过考虑响应之间的偏好程度而不是平等对待所有偏好对来与人类偏好对齐的语言模型。ODPO 通过引入偏好和不偏好响应之间的质量差异成比例的概率差异的偏移来改进 DPO。这种方法不仅改善了对齐,还加强了模型的推理能力,特别是在情感控制、毒性减少和摘要等任务中。实验证明,当偏好数据有限时,ODPO 实现了更好的对齐和负责任的行为。
总之,RL 和 DPO 方法为提高 LLMs 的推理能力提供了一种简单有效的方法。通过关注每个行动后的即时奖励,这些方法也能使模型与人类偏好保持一致。强调短期反馈简化了学习过程,避免了在长序列中进行信用分配的复杂性。这种简化的方法特别适用于实时应用和需要清晰简洁推理的任务,最终增强了 LLMs 提供连贯和道德结果的能力。
**对于复杂的推理任务,比如数学问题解决,LLM 需要执行像思维链(Chain-of-Thought)一样的多步推理,最终达到准确解决方案。**在这些任务中,奖励反馈通常在所有推理步骤完成并获得最终解决方案后才可用。如图 2(b) 所示,这被称为结果奖励模型(ORM)。在这种情况下,提高 LLM 推理能力的关键在于基于结果奖励来区分中间推理步骤的正确性和重要性。
经典的强化学习。《ReFT》[143] 将 RLHF [104] 中的 PPO 方法应用于推理任务中。基于结果奖励模型,PPO 中的价值函数能够推断中间推理步骤的贡献。与监督微调相比,ReFT 能够学习更多种类的推理路径,在推理任务中展现更强的泛化能力。然而,《VinePPO》[60] 发现,在 PPO 中使用 ORM 训练的价值网络在识别中间推理步骤的价值时存在显著偏差,这是强化学习中一种被称为信用分配问题的众所周知的挑战。为解决这一问题,VinePPO 放弃了 PPO 中的价值网络,转而采用蒙特卡罗采样方法计算价值函数的无偏估计。实验结果表明,VinePPO 在数学推理任务中始终优于典型的 PPO。关键计划步骤学习(CPL)是一种旨在通过在高级抽象计划中搜索来增强 LLM 在推理任务中泛化能力的方法 [150]。CPL 使用蒙特卡洛树搜索(MCTS)来探索多步推理任务中的不同规划步骤,并利用 Step-APO 来学习关键计划步骤。这种方法使模型能够学习更多种类的推理路径,从而提高在各种任务中的泛化能力。随后,模型迭代训练策略和价值模型以进一步提高性能。在每次迭代中,策略模型生成计划步骤和最终解决方案,而价值模型评估中间步骤的质量。由 MCTS 生成的训练数据被用于更新策略和价值模型。
**直接偏好优化。**在数学推理任务中,直接使用 DPO [112] 方法进行偏好优化会产生次优结果,因为偏好数据中存在较长的推理步骤。Amini 等人 [4] 提出了 ODPO,通过考虑响应之间的偏好程度,而不是将所有偏好对视为相等来改进 DPO。在数学推理任务中,ODPO 相比 DPO 取得了显著的改善。
总的来说,基于结果奖励的训练主要挑战在于区分中间推理步骤的正确性和重要性。当前的方法主要基于蒙特卡洛采样或蒙特卡洛树搜索,在估计这些中间步骤的重要性方面具有优势,尽管在搜索过程中的计算成本仍然很高。现有的工作主要集中在数学或其他推理问题上,其中最终的解决方案可以很容易地验证。这些方法可以扩展到更广泛的推理任务,包括那些难以验证解决方案的任务。一个潜在的方法是基于人类注释数据学习一个奖励模型,并使用它来评判最终解决方案的质量。根据奖励模型提供的最终得分,然后可以采用蒙特卡洛采样或搜索技术来进一步提高性能。
**基于过程奖励模型(PRM:Process Reward Model)的强化学习代表了 LLM 推理的重大进步,强调评估中间步骤,而不仅仅集中于最终状态的结果。**如图 2(c)所示,PRM 的奖励分布在每个推理步骤上,而不是集中在最终结果上。通过在整个推理轨迹中提供细致的反馈,PRM 使模型能够优化行为,更符合人类偏好和复杂任务要求。这种方法对涉及顺序决策的任务至关重要,其中中间步骤或决策对于最终目标具有重要意义。我们探讨了 PRMs 的发展,并强调它们在通过在复杂任务中提供步骤级别奖励来改进推理中的作用。
经典强化学习。近期一系列作品应用 PRM 进行数学或逻辑推理,自 OpenAI 的一项开创性工作 [75] 证明了过程奖励的重要性以来。SELF-EXPLORE [55] 利用 PRM 通过识别和解决'第一个陷阱'来增强数学推理能力,这些'第一个陷阱'是问题解决中的最初错误步骤。通过奖励纠正此类错误的步骤,PRM 使得不需要大量的人工标注即可进行自监督微调。该模型通过利用步骤级别的细粒度反馈,在数学基准测试如 GSM8K 和 MATH 上显著提高了准确性。MATH-SHEPHERD [149] 引入了一个专为数学推理任务中的逐步验证和强化而设计的 PRM 框架。通过使用受 MCTS 启发的方法自动化过程监督,MATH-SHEPHERD 消除了对人工标注的需求,同时确保在多步问题解决中高准确性。PRM 用于强化逻辑的发展和正确性,从而在 GSM8K 和 MATH 等基准测试中提高性能。DeepSeekMath 通过 Group Relative Policy Optimization (GRPO) [128] 整合 PRM,这是一种优化步骤级别奖励的 RL 算法。PRM 用于增强跨领域数学推理和推理一致性。通过关注中间推理步骤,DeepSeekMath 在几个基准测试上实现了最先进的性能,展示了 PRM 在数学领域的强大作用。Scaling Automated Process Verifiers 引入了一个 PRM 变种 Process Advantage Verifiers(PAVs),用于评估问题解决中的步骤级进展 [123]。PAVs 利用步骤级监督来提高搜索算法和强化学习的效率和准确性。通过关注对正确解决方案有意义进展的步骤,PAVs 实现了在样本效率、计算效率和推理准确性方面相较于结果奖励模型的实质性增益。这表明细粒度过程奖励在扩展 LLM 推理能力中的重要性。
**交互式过程奖励模型。**PRMs 也适用于交互式任务,如对话和多轮问答。ArCHer 采用层次化强化学习方法,使用 PRMs 来训练多轮、长期任务的智能体者。它实现了一个双层系统:高层值函数评估话语级别的奖励,而低层的 PRM 在每个轮次内优化逐标记生成。这种层次结构确保了更有效的信用分配,并允许对语言模型进行细致的训练,以处理多轮交互和推理任务。PRMs 的使用使 ArCHer 能够高效扩展,实现对智能体任务的样本效率和性能的显著收益。多轮强化学习与人类偏好反馈结合,将 PRMs 整合到多轮强化学习中,通过人类反馈优化长期目标。多轮偏好优化(MTPO)算法比较整个多轮交互,生成偏好信号,其中 PRMs 用于分配逐步奖励。这使得 LLM 智能体者能够使行为与长期目标保持一致,在对话和战略决策等动态多轮任务中提高整体性能。
**直接偏好优化。**最近几项研究利用 MCTS 来通过直接偏好优化实现多步推理任务的优化 [165, 17, 183, 16]。例如,SVPO [17] 利用 MCTS 来自动注释多步推理任务的步骤级偏好。从排序学习的角度来看,它训练一个显式值模型以复制隐式奖励模型的行为。此外,SVPO 将显式值模型与 DPO 集成在一起,其中值模型不仅帮助策略模型导航更高效的推理路径,还指导偏好学习。然而,这些工作主要集中在首先收集偏好数据或训练奖励模型,然后根据静态数据和预训练的奖励模型进行策略优化。谢等人 [165] 通过将数据收集和策略偏好优化集成为一个迭代过程来推进这些方法。这种方法可以被视为直接偏好优化的在线版本,其中更新的策略通过 MCTS 进行迭代地用于收集偏好。
多步强化学习技术对 LLMs 的演变反映了从稀疏的结果为基础的反馈到详细的过程导向监督的转变。PRMs 现在作为 LLM 推理能力进步的中心,提供细致的、步骤级的奖励,推动推理任务中的显著改进。未来的研究可能会着重于优化这些模型并扩大它们在不同任务领域的适用性。
强化微调(RFT)[101] 是 OpenAI 最近提出的一种技术,用于定制专家 LLMs,以适应特定的垂直领域。目前,RFT 仍然是一个研究项目的一部分,技术细节尚未完全公开。可用信息表明,RFT 利用用户提供的少量偏好数据和一个评分模型来评估 LLM 的输出。这种技术使 LLM 的多步推理能力能够进行迭代优化。因此,RFT 技术可以增强 LLM 在优化领域中通过类似问题进行推理的策略。
RFT 引入了打分器模型的概念来评估 LLMs 的输出。考虑到强化学习训练通常需要一个奖励模型来提供反馈,打分器可能类似于一个奖励模型,将文本输入(例如问题和答案)转化为推理质量的标量值。这表明,打分器可以作为一个在用户提供的偏好数据上训练的奖励模型,可能作为一个结果奖励模型或一个过程奖励模型运作。
**数据效率。**在 OpenAI 的现场会议中提到,RFT 可以使学习在新领域中的用户偏好数据仅需几十条即可进行。这表明 RFT 促进了在基于有限偏好数据的任务中探索多样的推理路径。这种方法展示了非常高的样本效率,并减轻了过拟合的风险。
**训练稳定性。**强化学习训练的稳定性是一个众所周知的难题,对其更广泛应用提出了重大挑战。随机种子的变化或对某些超参数的调整可能会极大地影响 RL 的训练结果。在 RFT 项目的背景下,OpenAI 宣布计划通过 API 向公众提供这项技术,使用户能够使用自己的数据来对领域专家模型进行微调。这一说法可能表明,RFT 已经达到了足以可靠地使用 RL 技术进行语言模型微调的稳定性水平。
图 3:不同搜索算法的图示,用于测试时推理增强。
通过诸如强化学习等技术进行火车时间优化之外,研究人员发现,类似 Chain-of-Thought 和 Tree-of-Thoughts 这样的测试时提示技术可以进一步增强 LLMs 的能力。尽管简单地要求模型直接回答问题通常会产生次优结果,但在测试时通过明确的推理过程引导它们,显著提高了它们的性能。这些提示策略在各个领域都显示出了显著的有效性,从数学推理到复杂的决策任务。结构化提示方法的出现,如 ReAct 和 Least-to-Most Prompting,表明 LLMs 可以从明确指导其思维过程中受益,从而获得更可靠和可解释的输出。尽管这些方法通常会增加令牌消耗和计算开销,但它们通过增强 LLMs 的推理能力和解决方案准确性,无需修改模型参数,提供了一种引人注目的补充方法,而不仅仅依赖模型架构或训练修改。这表明通过复杂的测试时干预来改善 LLM 性能是一个有前途的方向,而不仅仅依靠模型架构或训练的修改。
正如前面提到的,PRM 标志着从稀疏的基于结果的反馈向详细的过程导向监督的显著转变。更重要的是,PRM 也可以在测试阶段利用,在那里它可以进一步增强模型的推理能力。OpenAI o1 系列模型是 PRM 高级应用的一个突出例子。新的测试时间扩展定律表明,通过增加测试时间的计算量可以有效地增强推理能力,为未来 LLM 的发展提供了明确的方向。我们在推理阶段引入了一些方法,如图 3 所示。红色空心圆表示在推理阶段的算法探索过程中被放弃的推理路径,绿色空心圆表示探索过程中采用的推理路径,绿色实心圆表示一旦正确答案被确认后推理路径的终点。
**多数投票:**多数投票是从密集的测试时间计算中生成最终答案的最直接的策略之一。在推理过程中,每个推理轨迹都为给定的输入产生一个预测。基本思想是选择与大多数推理轨迹相符的答案。然后对所有模型的预测进行聚合,出现最多次数的类别('多数投票')被选为最终输出:f∗= argmaxf P[y 是最终答案 (y)=f,其中 I 是指示函数,y 是每个评估轨迹。
**树搜索 [15]:**树搜索是一种经典算法,通过递归构建搜索树系统地探索不同选择。它通常用于复杂的决策问题,如棋盘游戏和规划任务。蒙特卡洛树搜索(MCTS)是最常用的树搜索方法之一。它包括四个主要步骤:选择、扩展、模拟和反向传播。通过逐步扩展搜索空间,MCTS 逐渐改进决策过程。树搜索已经应用于一些 LLM 推理任务中,取得了显著的成功。例如,'思维之树'框架 [172] 使 LLMs 能够考虑多条以树形结构的推理路径。它通过自我评估做出深思熟虑的决定,确定下一步的最佳行动方案。这种方法显著提高了模型推理的性能。
**束搜索 [133]:**束搜索是贪婪搜索的改进版本,在生成任务中常用于选择最佳输出序列。其主要思想是在每个时间步保留所有候选路径中得分最高的前 K 条路径(称为束)以便进一步扩展。与贪婪搜索不同,束搜索保留多个候选路径,从而扩展搜索空间并提高生成质量。束搜索被广泛应用于语言模型推理中。例如,BART [71] 将束搜索作为其主要推理策略,证明了其在文本生成任务中的出色有效性。
**前瞻搜索 [134]:**前瞻搜索是另一种有潜力显著增强 LLM 推理的方法。它修改了每一步 Beam Search 的评分机制。前瞻搜索不是仅基于当前步骤的分数选择最佳候选者,而是通过向前模拟滚动到最多 k 步的结果。如果在前向模拟过程中达到解决方案端点,该过程将提前停止。在前瞻搜索期间,一个经过预训练且冻结的预测奖励模型用于对每步模拟进行评分。从 PRM 派生的累积分数在 k 步模拟中用来确定是否保留或丢弃一个束分支。这种策略通过在每个评估步骤中加入更多上下文来改善决策。与束搜索相比,前瞻搜索增加了探索空间的深度,允许根据更遥远的模拟决策的结果判断当前决策。然而,这也增加了对计算资源的需求,当计算资源有限时也会导致性能下降。
2024 年 9 月,OpenAI 发布了 o1,这是一款开创性的语言模型,代表了人工智能推理能力的重大进步,特别擅长处理数学、编程和科学问题解决等复杂任务。2024 年 12 月 20 日,OpenAI 开放了 o3 的测试申请,这是 o1 的升级版本,被认为具有文字博士水平的智能。这些模型在各种具有挑战性的基准测试中取得了显著成绩,包括在国际数学奥林匹克竞赛中获得金牌水平,并在物理、化学和生物问题方面达到博士水平。通过对其基本推理能力的系统分析,广泛的评估显示 o1 系列具有明显的推理模式。我们将现有研究的关键发现列如下:
有效的知识整合。初步的综合评估 [194] 显示 o1 在基本问题解决任务中采取了结构化分析方法和知识整合,通过逐步的逻辑推断实现了 83.3% 的竞争性编程成功率,模型展示了明显的能力,能够利用他们的知识来分解复杂问题并遵循形式化的推导过程。该模型在放射学和芯片设计等专业领域中表现出的结构性理解和相互关联的知识应用进一步证明了其结构化理解和相互关联的知识应用,精确的诊断和复杂的电路分析需要整合多个领域概念。系统性评估 [68] 定量验证了这种模式,显示在结构化分析思维和计算推理任务中达到了人类水平的 150%。这种优势在需要跨领域知识整合的情景中尤为突出,例如将物理原理应用于生物系统或将统计方法与特定领域限制结合起来,表明在知识综合与应用中具有基本能力。
系统化问题分解。o1 在处理不同复杂程度的任务时保持一致的表现,展现出对增加困难的处理中的系统性问题分解。在数学推理方面,详细研究显示其系统性问题分解方法,在结构化解决步骤上在荷兰数学 B 考试中获得近乎完美的分数。
模型展示了识别关键数学原理、构建形式证明和逐步验证解决方案有效性的能力。这种一致性延伸到更复杂的场景,由研究 [26] 验证,105 个逐渐增加难度的科学和数学问题中,即使在概念深度和计算需求方面的问题复杂性增加时,该模型仍保持高准确性。在编程任务中,这种模式通过在 QuixBugs 基准上的系统调试 [52] 进一步展示,o1 通过结构化的三步方法:错误识别、根本原因分析和有针对性的纠正,在各种复杂性的缺陷中保持一致的性能。
可靠且连贯的推理在复杂任务中起着重要作用。该模型的推理在不同类型的问题中能够有效地适应,始终展示出各种任务中推理链的一致性。在规划任务中,PlanBench 评估 [144] 展示了它对确定性和概率场景的系统处理,显示出在约束满足和状态管理方面的显著改进。该模型在处理具有信息不完整和动态约束的问题时表现出特别强大的能力,在标准和罕见任务变体中保持一致的性能 [94]。这种适应性表明了在不同问题制定中具有鲁棒的泛化能力。关于复杂规划 [146] 的研究进一步显示了 o1 在长期任务中保持推理连贯性的能力,有效地管理着延伸的依赖链和上下文转换。这在多步规划问题中表现出来,其中必须正确排序中间目标并仔细管理依赖性,展示了在时间推理和因果理解方面的先进能力。
大型推理模型的新扩展定律。实证研究表明 o1 在训练和推理阶段均具有独特的扩展模式。在训练过程中,该模型的大规模强化学习算法教导它以高效的数据过程使用思维链进行有产出的思考 [103]。研究 [134] 表明,通过优化的测试计算策略,该模型在各种推理任务中实现了显著的性能改进。综合评估 [194, 68] 显示,通过在推理过程中进行先进计算分配,特别是在复杂问题解决场景中,o1 的推理能力可以得到有效增强。这种方法的扩展约束与 LLM 预训练的约束存在显著差异,随着思考时间的增加,性能持续改善 [103]。这在编程任务中得到证明,允许每个问题提交 10000 次,使模型能够取得显着更好的结果,即使在没有测试选择策略的情况下,也能得分高于金牌阈值。该模型在训练和推理过程中有效利用额外的计算资源的能力,表明了推理架构的根本进步,特别是在传统方法可能需要更大模型规模的场景中展现出独特的优势。
开源框架在开发 LLM 的高级推理能力方面也取得了实质性进展。这些框架对于那些希望复制或近似 OpenAI 公司的专有模型 o1 推理优势的研究人员和开发人员来说是宝贵的参考。本文中,我们介绍了四项重要的开源努力,每项都采用不同的策略来增强 LLM 的推理能力(在表 2 中总结)。通过探索它们独特的实现,我们旨在提供关于用于加强 LLM 推理能力的多样方法的见解。
表 2:大型推理模型的开源尝试:从贡献角度看。
OpenR 项目 [145]。该项目声称是第一个使用强化学习技术探索 OpenAI 的 o1 模型核心方法的开源框架。OpenR 复制的核心是构建逐步推理数据,从中获取更精确和细粒度的反馈,而不仅仅是最终答案。通过从构建的搜索树中选择推理轨迹的自动数据增强算法 OmegaPRM [85]。基于每个推理步骤的监督增强过程数据,进一步在一个基于预训练的 Qwen2.5-Math-7B-Instruct 模型 [168] 的监督学习方案中训练过程奖励模型。PRM 可以直接在测试时计算中部署,与大多数投票、最佳 N 或波束搜索方法集成。也可以在后训练阶段使用 RL 对 LLM 进行微调。实验表明 PRM 在测试时计算和后训练中的有效性。
**Rest-MCTS [183]。**他们没有像以往那样分别训练 PRM 和微调的策略模型,而是将这两个更新集成到一个相互自我训练的循环中。根据类似设计的 MCTS 算法提前收集奖励作为 PRM 训练的监督,以及用于策略模型训练的推理轨迹。然后基于初始策略π和初始 PRM 值 Vθ开始迭代训练过程。策略进一步迭代执行 MCTS 并生成解决方案,而值影响树搜索过程。它们的更新相互迭代地相辅相成。
**o1 复制之旅项目 [110]。**该项目旨在通过集中于全面的训练策略,复制 OpenAI 的 o1 模型的推理能力,而非彻底考虑两个阶段的改进实施。它强调结构化的训练图表,包括试错、反思和回溯,以建立深层次的因果推理。该项目的一个核心方面是数据生成,高质量的训练示例旨在建模复杂的推理路径。通过一种旅程学习方法,o1 复制之旅使模型暴露于各种逻辑序列和更正之中,鼓励在训练阶段内进行探索和适应。然而,在推理阶段,o1 复制之旅较为简单,缺乏先进的后训练技术,这限制了它在实时推理过程中的适应能力。这种侧重于训练而非推理的重点突显了与具有动态推理优化的模型相比的基础性方法。
LLaMA-Berry [185]。该项目专注于优化推理能力,在推理阶段利用 LLaMA-3.1-8B 架构进行更复杂的实时推理调整。它采用独特的配对优化方法,将蒙特卡洛树搜索与自我优化 (SR-MCTS) 结合起来,使模型能够在推理过程中动态探索和优化解决路径。这种配置赋予 LLaMA-Berry 高度的适应性,使其能够有效灵活地处理复杂的开放式推理任务。该框架的一个关键组成部分是配对偏好奖励模型(PPRM),它以成对方式评估解决路径,确保优先考虑高质量的推理路径。LLaMA-Berry 的增强型波达计数(EBC)然后整合这些偏好排名,以指导模型的决策,进一步增强其推理阶段的复杂性。这种强大的架构使 LLaMA-Berry 成为推理集中增强的一个领先示例,与 O1 复制之旅的训练中心方法相区分。
这四个开源框架不仅展示了强化推理的独特实现策略,而且在改进对 OpenAI 的 o1 模型的理解中发挥了重要作用。它们共同扩展了开源社区可用的技术范围,推动着发展复杂、透明和可适应的推理模型的共同目标,为公开可访问的系统带来了专有级别的能力。
除了 PRM 引导的搜索外,还设计了许多其他技术来增强 LLM 的推理能力,使其在更多的测试时间内进行计算。这些技术在不修改模型本身的情况下动态地优化推理结果。图 4 中展示的方法,如口头强化搜索、基于记忆的强化和智能体系统搜索,表明单凭现成的 LLMs 就可以取得显著的推理改进。在表 3 中总结了一些探索这些方法的代表性作品。虽然这些方法并未利用 PRM,但它们为未来研究探索混合模型以进一步提高推理能力奠定了基础。
图 4:典型的免训练测试增强方法:口头强化搜索,基于记忆的强化,以及智能体系统搜索。
Table 3:无需训练的测试时间强化学习代表作品列表。
Verbal Reinforcement Search(VRS)利用 LLM 的预训练推理和语义能力来探索和优化解决方案空间。与传统的强化学习或训练密集型方法不同,VRS 纯粹通过测试推断来运行,使用迭代反馈循环来优化解决方案,而无需额外的训练。通过利用 LLM 中编码的语义知识和它们遵循复杂指令的能力,VRS 为在各种问题空间中导航提供了一种多才多艺的方法。这种推断驱动的框架适用于个体智能体、多智能体系统和实体智能体,在包括程序优化、协作决策和在现实世界环境中的互动等各种任务中提供支持。这一部分通过这三个关键方面对 VRS 进行分析,深入探讨了每个分类中提出的方法和独特见解。
在个体智能体设置中,VRS 依靠迭代推理和反馈机制,以在结构化的问题空间中优化解决方案。这种方法非常适用于数学优化、符号推理和假设驱动的发现等任务,在这些任务中,系统化的优化显著提高了问题解决的结果。数学发现的研究表明,VRS 如何将问题解决过程重塑为动态迭代循环。例如,针对组合问题的研究,包括容量集和在线装箱问题,突出了通过反馈驱动评估而演变的程序化解决方案 [115]。类似地,符号回归研究将方程视为动态结构,迭代生成、评估和优化数学表达式 [130]。这些方法展示了 VRS 如何在受限空间中导航,以高效性和准确性超越传统优化技术。在科学发现中,VRS 在将推理与经验数据和模拟相结合方面显示出其实用性。研究人员通过综合多样的数据源开发出生物医学假设优化系统。例如,在肿瘤学中的应用利用迭代综合来解决多尺度数据的复杂性 [162]。在物理科学中,VRS 用于通过模拟反馈优化假设,推动分子设计和物理定律发现等领域的发展 [88]。这些发现强调了 VRS 在将抽象推理与现实世界验证相连接中的作用,支持数据密集且以假设为驱动的任务。启发式优化中的反思过程进一步展示了 VRS 的灵活性。例如,研究人员探索了解决组合问题策略的迭代生成和评估 [174]。该方法侧重于通过反馈循环不断优化解决方案,从而创建出适用于不同领域的自适应超启发式。总的来说,VRS 将迭代推理和反馈应用于将抽象问题解决与实际应用相连接,以精确性和适应性解决数学、科学和优化领域的挑战。
在多 Agent 系统中,VRS 通过自然语言交流促进了基于 LLM 的智能体之间的协作。这些系统利用共享推理和迭代改进来处理复杂的解决方案空间,使智能体能够交换见解并实现共同目标。异质信息网络(HINs)中的元结构发现是 VRS 在多 Agent 情境中应用的一个例子。最近的研究将 LLM 推理与进化优化相结合,以改进元结构,提高其解释性和预测准确性。同样,在社会经济预测中,多 Agent 系统集成知识图和元路径推理,以提取跨任务见解,例如人口估计和经济活动预测。这种方法促进了 LLM 智能体之间的协作,并提高了多任务环境中的性能。因果发现也受益于 VRS 实现的多 Agent 框架。例如,使用 LLMs 作为推理智能体的系统协作性地探讨和提出因果关系。通过结合统计方法和自然语言交互,这些框架生成准确的因果图,同时解决因果关系中的歧义。在金融决策中,VRS 增强了层次协作。FINCON 框架利用经理 - 分析系统使用概念性口头强化来完善金融策略。通过减少冗余沟通和改进策略完善,FINCON 展示了 VRS 在优化金融决策流程中的效用。通过迭代改进和共享推理,VRS 支持多 Agent 系统处理诸如元结构改进、社会经济预测和金融决策等复杂任务。
在具身体智能体环境中,虚拟现实系统(VRS)被用于通过将推理与物理交互相结合来解决现实世界的任务,支持实验室环境中的活动,如实验计划和执行。这些系统将 VRS 扩展到动态环境中,将语义推理与实际实验结合起来。例如,自主化学研究已经展示了 LLM 技术驱动的系统独立设计、执行和完善实验的能力。这些智能体整合了工具,如机器人液处理器、光谱仪设备和基于网络的研究模块,以执行诸如反应优化和化合物合成等任务。其中一种应用涉及优化钯催化的交叉偶联反应,系统利用自然语言提示来确定条件、计算化学计量比,并自主执行实验。当出现错误,如调用模块不正确时,系统将通过参考文档并在任务上迭代来修正方法。这个迭代过程展示了 VRS 如何支持实验工作流程中的适应性和精确度。通过将推理和实时反馈相结合,具身体智能体展示了 VRS 在动态环境中完善和优化复杂流程的能力。这些系统减少了人类干预,加速了科学发现,使其成为进行现实世界实验和创新的宝贵工具。
一般来说,先前的研究展示了虚拟现实技术在个体智能体、多智能体系统和实体智能体中的适应性和有效性。利用 LLMs 的语义推理和迭代反馈能力,虚拟现实技术处理各种任务而无需额外训练。虚拟现实技术从数学和科学背景下的结构化优化到多智能体框架下的协作探索,再到现实应用中的动态实验,为问题解决提供了统一的方法。虚拟现实技术作为一种多才多艺的框架,能够解决计算和物理领域中的复杂挑战,并推动各个领域的进步。
当应用于开放性任务,如创意写作、复杂逻辑推理和开放世界游戏时,解决空间往往会显著扩大,通常变得无限或定义不清。这些任务通常需要与环境的持续交互,以获取相关信息,使简单的解决空间搜索变得低效。为了解决这些挑战,一些研究将外部记忆模块纳入 LLM 智能体中。该模块存储诸如观察结果、过去试验中的成功和失败动作等信息。智能体通过记忆作为口头强化学习的基础,迭代地探索其环境。通过这个过程,它们总结经验,提取可解释的解决空间高层见解,并在随后的试验中改进其行动,从而提高推断性能。这些研究不仅侧重于探索外部解决空间,还强调 LLM 智能体从记忆中发展对解决空间的理解的内在能力。随着智能体通过环境探索积累记忆,它们的能力逐渐得到加强,并推广到未见任务。具体地,我们将这一领域的研究分类为以下三类。
**经验学习。**在这一类方法中,鼓励 LLM 智能体人简单地模仿存储在记忆中的有利经验,同时避免不利经验。REMEMBERER [184] 引入了一种半参数 RL-LLM 智能体,它记录过去的观察 - 行动对并使用传统的离策略 Q 学习算法来动态地维护和更新每个观察 - 行动对的 Q 值(预期未来奖励)。面对新任务时,智能体从记忆中检索具有最高和最低 Q 值的相关行动,并将其作为鼓励和不鼓励范例包含在提示中。内存共享 [39] 利用多智能体强化学习的概念来增强学习效率。多个智能体同时在共享环境中执行任务,并向集体记忆池贡献高质量的提示 - 答案对。每个智能体可以从该池中检索最相关的范例以促进少样本学习。同样,经验协同学习 [108] 采用多智能体框架,在这个框架中,指导和助理智能体在多步代码生成过程中交替提供指令和解决方案。这种动态交流有助于提取快捷方式以减少冗余并防止重复错误。在面临新任务时,这些智能体交替检索相关记忆以改进上下文学习。
**反思性学习。**虽然利用记忆作为少样本示例是直接有效的,但这种方法并未充分利用 LLM 的语义理解能力。一些研究表明,LLM 智能体应该直接反思存储在记忆中的成功和失败,以明确总结潜在原因,并采纳这些见解作为指导。反思 [129] 是在这一领域的开拓性努力,根据任务反馈信号语义地反思成功或失败背后的原因。它将反思文本和过去的轨迹整合到提示中,以增强后续试验中的决策制定。ExpeL [190] 通过从记忆中检索最相关的成功经验、总结成功轨迹的模式以及比较成功 - 失败对来识别见解,将模仿和反思相结合。RAHL [138] 受层次增强学习的启发,将记忆组织为目标模块和子任务模块,从而使反思和经验总结能够在不同层次上进行。对于新任务,它单独检索相关经验以制定高级目标和低级子任务。
**概念学习。**明确的反思显著增强 LLMs 的推理能力。在此基础上,一些研究旨在使 LLM 智能体能够发展超越特定任务的广义'概念',促进对环境和任务的更广泛理解。这种概括帮助智能体从记忆中内化认知能力,并随着记忆的增长不断进化。例如,Agent-Pro [188] 使智能体能够在基于卡牌的游戏中建立关于自己和环境的信念。它不是反思个体行动,而是评估这些信念的合理性和一致性,迭代地改进策略。类似地,Richelieu [44] 为智能体在军事战略游戏中理解环境,检索最相关的状态以制定计划并评估可行性。通过使用自我对弈,它自主收集经验,扮演所有玩家的角色以进一步提升知识。受人类记忆机制启发,Self-Evolving GPT [40] 为 LLMs 设计了一种基于记忆的自主学习框架。它对任务进行分类以确定相关的记忆检索,并识别存储的记忆和当前任务之间的差异,以提取共享的一般经验。此外,它生成未知任务进行练习,根据记忆检索结果巩固其知识。
智能体系统的设计在利用大型语言模型为许多下游任务发挥关键作用。测试时间增强技术的一个重要分支是利用大型语言模型来搜索智能体系统。在这一领域的研究可以分为三个搜索级别:提示级别、模块级别和智能体级别。请注意,这种方法并不旨在直接搜索解空间,而是利用经验数据来优化智能体系统本身,这与元学习问题类似。我们总结了这一领域的相关工作如下。
**提示级别。**通过'验证和纠正'的过程,通过迭代地融合有用的反馈经验来改进提示。验证信号可以来自外部反馈 [43],LLM 的自我评估 [90],以及其他来源。另一方面,提示本身也值得搜索和优化。自动提示工程,如进化式提示优化 [38] 和元提示迭代 [169],可以比手动提示实现更好的结果,但也引入了更多的令牌消耗。
**模块级别。**Agentsquare [125] 建议使用 LLM 来搜索 Agent 系统的模块化设计,其中模块基本上是具有规划、推理、工具使用和记忆等特定功能的提示块。这些 Agent 模块的基本单元具有标准的 IO 接口,可以很好地协作。模块级别搜索的优势在于它允许新的 Agent 通过重新组合模块轻松重用经典的 Agent 设计,如 CoT 和 ToT。此外,Aflow [186] 通过由代码表示的边缘连接 LLM 的不同调用节点。除了搜索方法外,评估所搜索 Agent 的性能也是必要的。用于评估 Agent 性能的函数也可以由 LLMs 驱动,以提高搜索效率,同时密切匹配它们的实际性能。
**智能体级别。**ADAS 提议利用 LLM 来搜索在 Python 代码空间中定义的整个智能体系统 [53]。此外,多智能体系统在共享环境中做出决策并实现目标。在多智能体级别搜索中,关键方面包括智能体创建、环境感知、行动、交互和系统演化。对多智能体系统的搜索在下游任务如长篇故事创作方面取得了良好成果 [54]。目前正在探索多智能体系统的统一搜索和优化机制。GPTSwarm [200] 通过图优化增强了智能体的协作能力。
Agent 系统搜索提供智能体人自我改进的能力,使他们能够优化自身以增强其推理能力,而无需对 LLM 结构进行更改。上述三个搜索级别具有庞大的搜索空间。这三个搜索级别面临的共同挑战是提高搜索效率,降低搜索成本,并确保自动化的同时确保搜索的合理性。
本节中的测试时间增强技术目前尚未纳入大型推理模型的实现中。然而,它们具有巨大潜力,可以通过更全面的测试时间'思考'进一步提升 LLM 的推理能力,促进 LLM 在解决空间中进行战略推理,利用过去的经验并动态优化主观工作流程。因此,训练 LLM 掌握这些测试时间技术代表着一个有前途的未来研究方向,有望将 LLM 从'推理者'提升为完全功能的'智能体人'。
设计一个强大的基准测试对于记录 LLM 能力的改进至关重要。它还在选择有前途的研究方向以进一步推进方面起着至关重要的作用。在这一部分,我们系统地回顾了 LLM 推理的流行基准测试,这些基准测试在图 5 的分类中进行了总结。在这里,我们按照以下方式讨论这些基准测试。
数学推理已经成为评估 LLM 推理能力的关键试验场。数学推理基准的范围从基本算术扩展到高级大学水平的数学,提供了系统评估数学理解和解决问题能力的不同方面的方式。
在数学单词问题(MWP)领域,基准从基本算术运算逐渐发展到越来越复杂的问题解决场景。在基本水平上,像 MATH-401 [177] 这样的数据集通过 401 个精心构造的表达式评估纯粹的算术能力,而 MultiArith [116] 和 AddSub [51] 评估将简单的文字问题转化为数学运算(如加法或减法)的能力。在小学和高中水平上,像 GSM8K [24] 和 MATH [50] 这样的综合数据集提出了更复杂的多步推理挑战,其中 GSM8K 提供了 8.5K 个小学问题,而 MATH 则提供了跨越各种数学领域的 12.5K 问题,涵盖了各个难度级别。
高级数学能力的评估主要通过竞赛和专门的测试数据集进行。类似 CHAMP 和 ARB 的收集提供了需要复杂问题解决策略的竞赛级别问题,而 MATHQA 则包含了来自 GRE 和 GMAT 考试的标准化测试题。在最高级别上,像 FIMO 这样的数据集通过国际数学奥林匹克竞赛的问题挑战模型,测试自动化数学推理的极限。
几何推理代表了一个需要空间理解和正式数学证明的独特类别。像 Geometry3K [82] 和 GEOQA [19] 这样的数据集提供了专门的几何问题,而 UniGEO [18] 则提供了一个统一的框架,用于专注于计算和证明的几何推理任务。这些基准测试在评估模型连接视觉和数学推理能力方面特别有价值。
定理证明和形式数学领域已经发展到包括严格的评估框架。MINIF2F [193] 和 LeanDojo [170] 专注于与 Lean 定理相关的形式数学证明,而 THEOREMQA-MATH [23] 则检验数学定理的理解。像 TRIGO [166] 和 PISA [57] 这样的专门数据集则涉及数学推理的特定领域,如三角学和形式证明系统。
最后,跨模态数学推理已经成为一个重要领域,反映了数学问题在现实场景中以多种方式呈现的方式。MATHVISTA [81] 和 CHARTQA [93] 通过图表评估视觉数学推理,而 TABMWP [83] 和 MultiHiertt [192] 则评估处理表格和文本数据的推理能力。SciBench [151] 桥梁了纯数学和科学应用之间的差距,在更广泛的科学背景下测试数学推理。
基于数学推理能力,进行系统逻辑推理的能力是评估 LLM 认知能力的另一个基本标准。数学推理侧重于数量运算和形式证明,而逻辑推理涵盖在不同背景下绘制有效结论、识别模式和生成合理解释的更广泛能力。根据 Luo 等人 [86] 的观点,逻辑推理可以分为三种主要类型:演绎推理、归纳推理和推测推理。每种类型代表了进行综合逻辑分析所必不可少的不同认知过程,同时在认知评估中保持相互联系。
图 5:LLM 推理基准分类。
演绎推理(Deductive reasoning),又称为基于前提的推理,涉及从绝对确定性的一般原理中推导出具体结论(具有确定性和必然性)。例如,给定一组关于实体间关系的规则,模型必须确定哪些具体关系必须成立。ProofWriter [140] 是这一类别的示例,要求模型从给定的前提中构建明确的逻辑推导。其他基准测试,如 FOLIO [46] 和 PrOntoQA [119] 在自然语境中评估一阶逻辑推理,而 WaNLI [77] 则引入了日益复杂的评估标准,共有 107,885 个示例。
归纳推理(Inductive reasoning)强调从具体观察到更广泛原则的模式识别和概括(归纳推理是从多个具体的事例中总结出一般规律,但是具有不确定性)。这涉及识别潜在的规律,并将其扩展到新情境,处理的是概率而非确定性。具有许多专门组件的 BigBench [136] 考查了高级模式推断能力。CLUTTR [132] 基准系列也通过不同复杂度的关系模式来评估这种能力。
**推测推理(Abductive reasoning,),也被称为解释推理,指的是为一组观察或事实形成最有可能的解释的过程,即使结论并非确定的 [34](推测推理(Abductive reasoning),也被称为溯因推理或反绎推理。它是一种逻辑推理形式,用于从观察到的现象或结果推测出可能的原因或解释。与演绎推理(从一般原理推导出具体结论)和归纳推理(从具体事例归纳出一般规律)不同,推测推理是从结果推原因,只是可能性和概率性)。**这种推理方式通过生成合理的解释来测试模型如何处理信息不完整的情景。αNLI [99] 基准通过叙事完成任务实现了这一点,模型必须为给定情况选择最有可能的解释。AbductionRule [175] 系列针对不同领域提供了结构化评估框架,针对动物相关和人物相关推理情景有具体的变体。αARCT [100] 专门检验了选择和证明可信解释以及论证理解的能力。
常识推理(Commonsense reasoning)在自然语言处理中仍然是一个重要挑战,因为它旨在评估语言模型理解和应用日常常识知识的能力。有各种基准测试致力于针对常识推理任务的不同维度。例如,CommonsenseQA [141] 要求模型回答基于常识知识库的推理问题。
SocialIQA [118] 关注社交交互常识推理,围绕社交场景中的因果推理展开。相比之下,像 SWAG [178] 和 HellaSwag [179] 这样的数据集引入了对抗文本推理任务,模型必须根据上下文线索来预测事件最可能的延续,从而增加任务复杂性。对于物理常识推理,诸如 PIQA [12] 和 PHYRE [10] 等基准重点评估模型对日常物理任务和互动推理情景的理解。PIQA 主要使用问答任务,而 PHYRE 强调互动物理模拟。类似地,WinoGrande [117] 在 Winograd 模式挑战的基础上引入了一个更大规模的数据集和更复杂的消歧任务,以测试语义理解和会议决议能力。
其他研究作品,如 OBQA 和 CConS,探讨模型在反常识环境中的性能,凸显当前模型在隐性推理和背景知识利用方面所面临的挑战。最近,像 MMLU 和像 FactCC 这样的批判性研究进一步分析了语言模型的常识推理和事实推理。这些基准为语言模型的泛化能力提供了宝贵的视角,并且作为评估和提升它们在各种常识推理任务中性能的有价值工具。
**代码生成基准的发展在评估 LLMs 在编程任务中的推理能力方面发挥了重要作用。**这些基准评估模型在不同领域生成准确、高效、可靠的代码的能力。例如,ODEX 引入了一个面向开放领域代码生成的执行驱动的评估框架,强调运行生成的代码以验证其正确性和功能性的重要性。
关于现实场景,SWE-bench [58] 关注真实的 GitHub 问题,挑战模型解决实际软件工程问题。在数据科学领域,DS-1000 [67] 提供了一个基准,其中包含可靠且可信的数据科学代码生成任务,可以评估模型处理复杂数据操作和分析的能力。此外,APPS 基准 [49] 通过在多样化的编程问题上评估模型,衡量编码挑战的竞争力,反映了在竞赛编程和技术面试中遇到的挑战。
MBPP [6] 侧重于程序合成问题,评估模型基于给定规范生成正确和高效代码的能力,从而有助于了解 LLMs 在自动代码生成方面的能力。HumanEval [21] 通过提供一系列 Python 编程问题来评估在代码上训练的 LLMs,每个问题均提供了函数定义和相关文档,要求模型生成正确和功能性的代码解决方案。
基于智能体的基准测试的出现彻底改变了我们评估 LLM 作为独立智能体在交互环境中的能力的能力。这些复杂的评估框架评估了决策、推理和在不同场景中的环境交互等关键能力。
WebArena [197] 为构建和测试自主智能体提供了一个实用的网络环境,可以评估 LLMs 的网络导航和交互能力。类似地,Mind2Web [28] 旨在开发能够在各种网络任务中运行的通用智能体,强调在动态在线环境中的适应性。
综合评估框架,如 AgentBench [79] 和 AgentGym [164] 已经被开发出来,用于系统评估作为智能体的 LLMs 的功能。AgentBench 包括多样化的环境,用于评估推理和决策能力,而 AgentGym 专注于在不同环境中演化基于 LLM 的智能体,强调适应性和学习效率。此外,AgentBoard [87] 提供了一个分析平台,用于评估多轮对话的 LLM 智能体,为我们提供对其在长时间交互中的表现的洞察,并突出持续推理任务中需要改进的领域。
**后训练阶段的缩放定律(Scaling law of post-training phases)。**OpenAI o1 系列的灵感引发了对预训练/训练/推理阶段的新理解。特别地,涉及到自我对弈强化学习的引入以及在训练后阶段对高质量 Chain-of-Thought 标记数据的过程奖励学习。此外,延伸到训练后阶段的缩放定律,为训练阶段进一步发展中的困难提供了启示。众所周知,预训练和训练阶段的缩放定律已经导致了流行的大型语言模型(LLM)的成功,这需要巨额的训练数据和计算资源投入。然而,现在已经达到瓶颈,因此,训练后阶段的缩放定律可能成为大型语言模型下一个发展时期的推动力。此外,基于 LLM 的智能体 [163] 即使在推理能力尚未得到加强的情况下,也展示了极大的潜力。因此,关于 LLM 智能体的资源消耗和性能是否也会存在类似的缩放定律仍然是一个开放的问题,这可能有助于进一步提升 LLM 在现实世界应用中的能力。最后,当前展示的测试时间缩放定律与模型遵循指令的能力之间可能存在关系;也就是说,它必须具有足够强的遵循指令能力以展示测试时间缩放定律。例如,语言强化搜索技术的成功需要 LLM 具备基本的遵循指令能力。因此,如果 LLM 不能准确遵循指令,复杂的训练后技术可能无法正常工作。
**通过搜索生成高质量数据。**尽管 OpenAI o1 系列的核心技术人员披露了技术思想,以及试图复现 OpenAI o1 的开源工作,不同的方法如蒙特卡洛树搜索、LLM 生成等均将生成高质量数据(包括 CoT 数据)视为关键点。也就是说,大型推理模型的发展已经达到一个阶段,其中高质量的过程奖励数据比一般的预训练数据规模更为重要。同样,正如上文讨论的,这可能启发我们在 LLM 智能体中参考这些相关方法,首先进行高质量数据生成,然后加强缓慢推理的学习以及能力的获取。
尽管在工程水平上 OpenAI o1 系列的突破仍然未知,但从理论和技术上看,它目前似乎主要在于对数据进行慢思考的后期学习。此外,人类认知科学中的'系统 1 + 系统 2'已经被反复提及,但关于如何基于大型模型来实现它的想法一直在不断更新,主要还停留在借鉴慢思考概念的阶段。也就是说,人类大脑被命名为'系统 1 + 系统 2'的机制已经指导了 LLM 的设计,但这种指导仍然非常有限。换句话说,对人类大脑的模仿仅限于系统级别的设计,而不是非常详细的技术。人类慢思考的复杂机制及其优势仍显示出很高的潜力,以支持 LLM 的下一级推理能力。为了实现这一点,慢思考的领域知识应该在相关的设计中被使用,例如推理数据生成、奖励函数、学习过程等。
迄今为止,对 LLMs 的慢思维进行的理论分析工作尚未有真正重要和代表性的成果。生成式人工智能是如此神秘,以至于理解 LLMs 还需要一些技巧或特殊技术,比如用于理解 LLM 幻觉的新度量标准。为了理解慢推理能力,我们可能还需要进行理论分析。以 OpenAI o1 预览版和 OpenAI o1 Mini 两个不同版本为例,其主要区别在于 CoT 推理阶段思维深度和成本,但它们在文本生成、代码生成和数学问题解决等任务中表现出显著差异。LLMs 展示的推理特征也启发我们设计任务自适应的使用和应用。具体而言,将推理机制和不同任务中的表现联系起来可能会支持更有趣的见解。
正如本文所指出的,推理增强技术的发展是迅速的。推理能力不仅限于这些常见基准任务中的任务,还涉及到下游应用中更通用的任务。例如,FunSearch 工作显示了处理难以提供解决方案但验证迅速的任务的通用能力。在各个领域可能有一系列具有相似特征的任务,比如城市规划、物流调度等。一个有趣的问题是,当前研究中可能存在很多难以验证但推理过程更容易的互补问题。通过结合 LLMs 和外部评估者可能进一步验证一些答案的质量,或者我们可以利用带有评分的这些答案来训练奖励模型。
近期,LLM 的演进显著提升了其类人类推理能力。引入诸如'思考'等概念作为中间步骤的创新,利用强化学习技术进行训练时的扩展,以及利用搜索算法进行测试时的扩展,为大型推理模型奠定了基础,这些模型能够应对日益复杂的认知任务,正如 OpenAI 的 o1 系列所展示的那样。该领域的持续进展有望重塑我们对语言的理解以及 AI 在解决现实问题中的应用。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online