PaperSearchQA:学习在科学论文中搜索与推理 (RLVR)
摘要
搜索代理通过推理和搜索知识库(或网络)来回答问题;近期的方法仅使用可验证奖励的强化学习(RLVR)来监督最终答案的准确性。大多数 RLVR 搜索代理处理通用领域问答,这限制了它们与科学、工程和医学领域技术 AI 系统的相关性。 在本工作中,我们提出训练代理在科学论文上进行搜索和推理——这测试了技术问答能力,与真实科学家直接相关,并且这些能力对于未来的 AI 科学家系统至关重要。 具体而言,我们发布了一个包含 1600 万篇生物医学论文摘要的搜索语料库,并构建了一个具有 6 万个可从语料库中回答的样本的挑战性事实问答数据集 PaperSearchQA,以及相应的基准。 我们在该环境中训练搜索代理,使其性能优于非 RL 检索基线;我们还进行了进一步的定量分析,并观察到代理有趣的行为,如规划、推理和自我验证。 我们的语料库、数据集和基准可与流行的 Search-R1 代码库一起用于 RLVR 训练,并在 Hugging Face 上发布。 最后,我们的数据创建方法是可扩展的,并且易于扩展到其他科学领域。
摘抄
- 在 RLVR 中,会提示 LLM 回答一个查询,只有当自动验证器认为最终输出正确时才会给予奖励;然后使用相应的 token 来更新模型。
- RLVR 被 Search-R1(Jin et al., 2025)证明对于训练搜索代理是有效的。
- 科学 QA 的搜索智能体 BioASQ(Tsatsaronis et al., 2015; Krithara et al., 2023)是一个自 2012 年以来每年举办的挑战赛。
- 对于 3B LLM,RL 在 PaperSearchQA 和 BioASQ 上的表现分别比 RAG 提高了 9.6 和 5.5 个百分点。
- 对于 7B 模型,差异分别为 14.5 和 9.3。
- RAG 的性能平均比无检索方法高 17 个百分点。
- 思维链提示的性能平均仅比直接推理高 1.2 个百分点。
- 模型大小带来的性能提升可能归因于知识。在所有基准测试的平均得分中,Search-R1 在 3B 模型上比 CoT 高出 20.2 个百分点,在 7B 模型上高出 21.4 个百分点。这表明性能提升是由于参数化知识的改进,而不是由于查询制定或理解能力的优越性。
- 使用 GRPO 进行训练不稳定,并且在某些训练运行中奖励会崩溃为零——基础(非指令)模型通常更稳定。
- 轨迹的格式包括''标记内的推理,最终答案在''标记内。为了执行检索,LLM 在''标记中输出文本;检索到的文档被转储到''内的轨迹中。
- 这篇论文是一个单跳的 QA,多跳更难。
贡献
- 一个生物医学的 QA 数据集,主要用于论文阅读的 Agent。
- RLVR 训练论文阅读 Agent 的 baseline。
能动强化学习赋能下一代化学语言模型,用于分子设计与合成【Agentic reinforcement learning empowers next-generation chemical language models for molecular design and synthesis】
摘要
语言模型正在彻底改变生物化学领域,高效地协助科学家进行药物设计和化学合成。然而,当前的方法在易产生幻觉且知识保留有限的小型语言模型与存在隐私风险和高推理成本的大型云端语言模型之间挣扎。
为了弥合这一差距,我们引入了 ChemCRAFT,一个利用智能体强化学习来解耦化学推理与知识存储的新颖框架。我们的方法不是强迫模型记忆海量的化学数据,而是使语言模型能够与沙箱进行交互以进行精确的信息检索。这种知识的外化使得一个本地可部署的小型模型能够以最小的推理成本实现卓越的性能。为了使小型语言模型具备调用智能体的能力,我们构建了一个智能体轨迹构建流水线和一个全面的化学 - 智能体沙箱。基于沙箱交互,我们构建了 ChemToolDataset,这是第一个大规模。同时,我们提出了 SMILES-GRPO 来构建一个,以提升模型调用化学智能体的能力。 在药物设计的各个方面的评估表明,ChemCRAFT 在分子结构分析、分子优化和合成路径预测方面优于当前基于云的大型语言模型,证明了。这项工作为人工智能辅助化学领域建立了一种成本效益高且保护隐私的范式,为通过本地可部署的智能体加速分子发现开辟了新途径。

