[论文翻译]“AI科学家“来了:从思路构建、编码执行、实验迭代到撰写论文及评审稿一站式生成
![[论文翻译]“AI科学家“来了:从思路构建、编码执行、实验迭代到撰写论文及评审稿一站式生成](https://qiniu.meowparty.cn/coder.2023/2024-12-21/Lesson-84e8c3dc2ff6e.png)
"AI科学家"来了:从思路构建、编码执行、实验迭代到撰写论文及评审稿一站式生成
原创 CY编译 2024年08月14日 09:46 上海
Chris Lu1,2,*, Cong Lu3,4,*, Robert Tjarko Lange1,*, Jakob Foerster2,, Jeff Clune3,4,5, and David Ha1,
*Equal Contribution, 1Sakana AI, 2FLAIR,牛津大学, 3英属哥伦比亚大学, 4Vector Institute, 5Canada CIFAR AI Chair, Equal Advising
摘要:人工智能的一项重大挑战是开发能够进行科学研究和发现新知识的智能体。虽然前沿模型已经被用作辅助人类科学家,例如用于构思想法、编写代码或预测任务,但它们仍然只完成科学过程的一小部分。本文提出了第一个完全自动科学发现的全面框架,使得前沿大型语言模型(LLMs)能够独立进行研究并传达其发现。我们介绍了“AI科学家”,它能够生成新颖的研究思路、编写代码、执行实验、可视化结果,并描述其发现就是编写论文。
撰写一篇完整的科学论文,然后运行一个模拟审稿过程进行评估。原则上,这个过程可以重复进行,以无限制的方式逐步发展思想,并将其添加到一个日益增长的知识档案中,就像人类科学界一样。我们通过将这一方法应用于机器学习的三个不同子领域来展示其多功能性:扩散建模、基于变压器的语言建模和动态学习。每个想法的成本很低,每篇论文不到15美元,说明我们的框架有潜力使研究民主化并显著加速科学进步。为了评估生成的论文,我们设计并验证了一个自动评审员,我们展示其在评估论文得分方面达到了接近人类的表现。AI科学家可以生成超越顶级机器学习会议接受阈值的论文,如我们的自动评审员评定的那样。这种方法标志着机器学习领域科学发现的新时代的开始:将人工智能智能体的变革性好处带入AI自身整个研究过程,使我们更接近一个世界,在这个世界上,无穷无尽的廉价创造力和创新能够释放到世界上最具挑战性的问题中。我们的代码在https://github.com/SakanaAI/AI-Scientist 上开源。
目录
1简介
2背景
3人工智能科学家
4自动化论文审阅
5深度案例研究
6实验
6.1扩散建模
6.2语言建模
6.3点亮分析Grokking Analysis
7相关工作
8限制与伦理考虑
9讨论
致谢
参考文献
1 简介
现代科学方法(Chalmers, 2013; Dewey, 1910; Jevons, 1877)可以说是启蒙运动中最伟大的成就之一。传统上,一个研究人员收集背景知识,起草一组可行的假设进行测试,构建评估程序,收集不同假设的证据,最终评估并传达他们的发现。
传统的自动化研究项目方法迄今为止一直依赖于精心限制潜在发现的搜索空间,这严重限制了探索的范围,并需要大量的人类专业知识和设计。例如,在材料发现(Merchant等人,2023年;Pyzer-Knapp等人,2022年)和合成生物学(Hayes等人,2024年;Jumper等人,2021年)领域取得了显著进展,是通过将探索限制在已经明确定义参数的领域中进行的,这有助于有针对性地取得进展,但限制了更广泛、开放式的发现,仅涵盖了科学过程的一个子集,而没有涵盖诸如手稿准备之类的任务。在机器学习领域本身,研究自动化主要局限于超参数和体系结构搜索(He等人,2021年;Hutter等人,2019年;Lu等人,2022b年;Wan等人,2021年,2022年)或算法发现(Alet等人,2020年;Chen等人,2024年;Kirsch等人,2019年;Lange等人,2023a,b年;Lu等人,2022a年;Metz等人,2022年),在人工设计的搜索空间内进行。最近LLM的进展显示了将搜索空间扩展到更加通用、代码级解决方案的潜力(Faldor等人,2024年;Lehman等人,2022年;Lu等人,2024a年;Ma等人,2023年)。然而,这些方法仍受到严格定义的搜索空间和目标的限制,限制了可能发现的广度和深度。
在本文中,我们介绍了The AI Scientist,这是第一个完全自动化且可扩展的端到端论文生成流水线,借助最近基础模型的进展而实现。给定一个广泛的研究方向和一个简单的初始代码库,The AI Scientist 可以无缝地执行构思、文献检索、实验计划、实验迭代、手稿撰写和同行审阅,从而产生具有洞察力的论文。此外,The AI Scientist 可以在一个无限循环中运行,建立在其先前科学发现的基础上,以改进下一代想法。这使我们能够加速科学迭代的缓慢过程,同时以惊人的低成本(∼每篇论文$15)将世界不断增长的计算资源转化为解决21世纪核心挑战所需的科学突破。在这里,我们专注于机器学习(ML)应用,但这种方法可以更普遍地应用于几乎任何其他学科,例如生物学或物理学,只要有一种自动执行实验的方法(Arnold, 2022; Kehoe等,2015; Zucchelli等,2021)。
通过利用现代LLM框架,如思维链(Wei et al.,2022)和自我反思(Shinn et al.,2024)来改善决策,AI科学家能够产生自己的科学思想和假设,以及用于测试它们的实验计划。接下来,AI科学家使用最先进的编码助手Aider(Gauthier, 2024)实施计划导向的代码级更改到实验“模板”中,并执行实验来收集一组计算结果,这些结果又被用来起草科学论文。然后,AI科学家使用标准机器学习会议的指南进行自动论文审阅过程。最后,AI科学家将完成的思想和审稿人反馈添加到其科学发现的归档中,并重复该过程。至关重要的是,AI科学家生成的论文和实验文物使我们能够轻松地事后解释和判断其发现,使人类科学家也能从中受益。
我们的贡献总结如下:
l我们介绍了第一个端到端的框架,用于在机器学习研究中实现完全自动化的科学发现,由前沿的LLM技术支持(第3节)。这一完全自动化的过程包括思路生成、实验设计、执行,以及将结果可视化并撰写成完整手稿。
l为了评估生成的论文质量,我们在第4节介绍了一个基于基础模型的审阅过程。当在ICLR 2022 OpenReview数据上进行评估时,这一过程在多个评估指标上实现了接近人类水平的表现(例如,平衡准确度为65%比66%)。这些审阅进一步使AI科学家能够选择最佳的想法进行“发表”。
![www.zeeklog.com - [论文翻译]“AI科学家“来了:从思路构建、编码执行、实验迭代到撰写论文及评审稿一站式生成](https://qiniu.meowparty.cn/coder.2023/2024-12-21/Lesson-84e8c3dc2ff6e.png)
图1 | The AI Scientist的概念插图,这是一个端到端的LLM驱动科学发现流程。
首先,The AI Scientist发明并评估一组想法的新颖性。然后确定如何测试假设,包括通过编辑由最新的自动生成代码技术支持的代码库来编写必要的代码。之后,实验会自动执行以收集一组结果,包括数值分数和可视化摘要(如图表或表格)。结果会在LaTeX报告中得到推动、解释和总结。最后,The AI Scientist根据目前标准机器学习会议的实践生成自动审查。
该审查可用于改进项目或作为未来一代开放式科学发现的反馈。随着不断增长的科学发现档案,该流程可以重复进行,就像人类科学社区一样。AI科学家可以在一周内生成数百篇有趣且质量适中的论文。在本报告中,我们关注其中的一个子集,突出扩散建模、语言建模和理解的新见解。我们在第5节对选定的一篇论文进行深入案例研究,并在第6节呈现总体结果。我们在论文中就局限性和道德考虑进行了广泛讨论。和我们的方法在第8节和第9节的未来展望。
2 背景
大型语言模型。在本文中,我们从自回归大型语言模型(LLMs,Anthropic(2023年);Google DeepMind Gemini Team(2023年);Llama Team(2024年);OpenAI(2023年);Zhu等人(2024年))构建了我们的自动科学家,这些模型通过建模新令牌(类似于单词)在给定前面令牌的条件概率𝑝(𝑥𝑡|𝑥<𝑡; 𝜃)并在测试时进行抽样来生成文本完成。加上大量的数据和模型扩展,这使得LLMs不仅能生成连贯的文本,而且也能展现类似于人类的能力,包括常识知识(Talmor等人,2019年),推理(Wei等人,2022年)和编写代码的能力(Chen等人,2021年;Xu等人,2022年)。
LLM智能体框架。LLM的典型应用通常涉及将模型嵌入到“智能体”框架中,包括以下可能性:结构化语言查询(例如,少样本提示(Brown等,2020)),鼓励推理轨迹(例如,思维链(Wei等,2022)),或要求模型迭代地改进其输出(例如,自我反思(Shinn等,2024))。这些利用了语言模型学习上下文的能力(Olsson等,2022),可以极大地提高其在许多任务上的性能、稳健性和可靠性。
自动化助手:基于LLM的编程助手。我们的自动化科学家直接在代码中实现想法,并使用最先进的开源编程助手——Aider(Gauthier, 2024)。Aider是一个智能体框架,旨在实现请求的功能,修复错误或重构现有代码库中的代码。虽然Aider原则上可以使用任何基础LLM,但在前沿模型上,它在SWE Bench(Jimenez等,2024年)基准测试中取得了18.9%的显著成功率,这是一个由真实世界GitHub问题组成的集合。结合本工作中添加的新创新,这种可靠性水平使我们首次能够完全自动化机器学习研究过程。
3 人工智能科学家
概述。AI科学家有三个主要阶段(图1):
(1)创意生成,(2)实验迭代(3)论文撰写。在撰写完成后,我们介绍并验证LLM生成的评论,以评估生成论文的质量(第4节)。我们为AI科学家提供一个起始代码模板,该模板可以从流行模型或基准中复制一个轻量级基准训练运行。例如,这可能是一个训练一个小型transformer在莎士比亚作品上的代码(Karpathy, 2022),一个在几分钟内完成的自然语言处理的经典概念验证训练运行。然后,AI科学家可以自由探索任何可能的研究方向。模板还包括一个包含样式文件和部分标题的LaTeX文件夹,以及简单的绘图代码。我们在第6节详细说明模板的内容,但通常每次运行都以与主题领域相关的代表性小规模实验开始。专注于小规模实验并不是我们方法的基本限制,而只是出于计算效率和我们一端的计算约束。我们在附录A中提供各阶段的提示。
1. 创意生成。给定一个起始模板,AI科学家首先“脑暴”出一系列新颖的研究方向。我们从进化计算和开放性研究中汲取灵感(Brant和Stanley,2017;Lehman等,2008;Stanley,2019;Stanley等,2017),并使用LLMs作为突变操作符(Faldor等,2024;Lehman等,2022;Lu等,2024b;Zhang等,2024)逐步扩展一个想法存档。每个想法包括一个描述、实验执行计划以及(自评)有趣度、新颖性和可行性的数值评分。在每次迭代中,我们要求语言模型基于现有存档生成一个有趣的新研究方向,该方向可以包括已完成先前想法的数值评审得分。我们使用多轮思维链(Wei等,2022)和自我反思(Shinn等,2024)来完善和发展每个想法。在想法生成之后,我们通过将语言模型与语义学者API(Fricke,2018)和网络访问作为工具(Schick等,2024)连接来过滤想法。这使得AI科学家可以舍弃任何与现有文献太相似的想法。
2. 实验迭代。在得到一个想法和一个模板后,AI科学家的第二阶段首先执行提出的实验,然后将其结果可视化,以供后续撰写。AI科学家使用Aider首先规划要运行的一系列实验,然后按顺序执行它们。当出现错误或超时(例如实验运行时间太长)时,我们通过将任何错误返回给Aider来使这个过程更加健壮,修复代码并重新尝试最多四次。完成每个实验后,Aider然后会收到结果,并被告知以实验日志的形式记笔记。目前,它只针对文本进行条件处理,但在未来的版本中,这可能包括数据可视化或任何形式。根据结果的条件,然后重新规划并实施下一个实验。这个过程最多重复五次。完成实验后,Aider被提示编辑绘图脚本,使用Python创建论文图表。AI科学家做出注释,描述每个图表包含的内容,使保存的图表和实验笔记提供撰写论文所需的所有信息。在所有步骤中,Aider都可以查看执行历史。注意,一般来说,提供的初始种子绘图和实验模板是小型的、独立的文件。AI科学家经常实现全新的绘图并收集不在种子模板中的新指标。这种任意编辑代码的能力有时会导致意想不到的结果(第8节)。
3. 研究报告撰写。AI科学家的第三阶段以LaTeX标准机器学习会议论文的风格,对其进展进行简明扼要的撰写。我们注意到,撰写优质的LaTeX甚至会花费胜任的人类研究者一些时间,因此我们采取了若干步骤来加强这一过程。具体包括以下内容:
a) 每个部分的文本生成:记录的笔记和图表传递给Aider,提示Aider分段填写会议模板的空白部分。 这按照介绍、背景、方法、实验设置、结果,然后是结论的顺序进行(除相关工作之外的所有部分)。它已经编写的论文的所有以前部分在语言模型的上下文中。我们根据流行的“如何撰写机器学习论文”指南提供了每个部分应包含的简要提示和指南,并在附录A.3中提供详细信息。在写作的每个步骤中,Aider被提示仅使用真实实验结果。
b) 代码生成的笔记和数字形式,以及实际引文以减少幻觉。每个部分在写作过程中最初通过一轮自我反思进行细化。在此阶段,被提示不要在文本中包含任何引用,并仅为相关工作填写框架,这将在下一阶段完成。在查找参考资料时使用网络搜索:与生成想法类似,AI科学家被允许进行20轮调查Semantic Scholar API,以寻找最相关的来源,以便与即将完成的论文进行比较和对比的相关工作部分。这个过程还允许AI科学家选择想要讨论的任何论文,并另外填补论文其他部分缺失的引用。在每篇选定的论文旁边,产生一个简短描述,说明在何处以及如何包含引用。将文件传递给Aider。 论文的bibtex会自动附加到LaTeX文件中,以确保正确性。
c) 优化: 在前两个阶段之后,AI科学家已经完成了第一稿,但常常会过于啰嗦和重复。为了解决这个问题,我们进行最后一轮逐节的自我反思,旨在删除任何重复信息,并简化论文的论点。
d) 编译:一旦LaTeX模板填写完所有适当的结果,就将其输入到LaTeX编译器中。我们使用LaTeX代码检查器,并将编译错误反馈给辅助程序,以便它可以自动纠正任何问题。
4 自动化论文审阅
一个LLM评论智能体。一个有效科学社区的关键组成部分是其审稿系统,该系统评估和提高科学论文的质量。为了模拟这样一个过程,我们设计了一个基于GPT-4o的智能体(OpenAI,2023),根据神经信息处理系统(NeurIPS)会议的审稿指南来进行论文评审。该审稿智能体使用PyMuPDF解析库处理PDF手稿的原始文本。输出包括数字评分(完整性、呈现、贡献、总体、信心)、弱点和优点列表以及一个初步的二元决策(接受或拒绝)。这些决策然后可以通过阈值校准来进行后处理,使用审稿人评分。我们利用这个自动化审稿流程来获得The AI Scientist生成的论文的初始评估。我们在附录A.4中提供整个审稿提示模板。
根据NeurIPS的一致性实验(Beygelzimer等人,2021年),计算出的数字。
表1 | The AI Scientist的自动LLM审阅系统在500篇ICLR 2022论文上的表现。我们展示平均值和95%的bootstrap置信区间,并突出人类基准和我们最佳AI审阅员之间的比较。
![www.zeeklog.com - [论文翻译]“AI科学家“来了:从思路构建、编码执行、实验迭代到撰写论文及评审稿一站式生成](https://qiniu.meowparty.cn/coder.2023/2024-12-21/Lesson-d09cda3a3889d.png)
评估自动评论者。为了评估基于LLM的评论者的表现,我们将人工生成的决策与从公开可用的OpenReview数据集(Berto,2024)中提取的500篇ICLR 2022论文的真实数据进行比较。类似于前一节,我们结合了LLM智能体人的许多最新进展,以使决策过程更加健壮。更具体地,我们通过利用自我反思(Shinn等人,2024)、提供少量示例(Wei等人,2022)和响应集成(Wang等人,2022),改善了基础LLM的决策过程。通过GPT-4o,AI科学家的审查程序在结合5轮自我反思、5个集成审查和一个来自ICLR 2022审查指南的1-shot审查示例后,实现了70%的准确性。随后,我们进行了基于LLM的元审查,促使智能体人充当一个领域主席(Wang等人,2022)(完整提示详见附录A.4)。虽然这个数字低于NeurIPS 2021一致性实验中人类报告的73%的准确性(Beygelzimer等人,2021),但在将决策阈值设定为6分(NeurIPS审查指南中的“Weak Accept”)时,自动评论者实现了超人类的F1得分(0.57比0.49)和人类水平的AUC(两者均为0.65)。这个选择大致对应于被接受论文的平均分数。
考虑到ICLR 2022的论文数据集非常不平衡,即包含了更多被拒绝的论文。在考虑一个平衡的论文数据集时,AI科学家的审阅过程实现了人类水平的准确性(0.65% vs. 0.66%)。此外,误拒率(FNR)远低于人类基准值(0.39 vs. 0.52)。因此,基于LLM的审阅智能体会拒绝更少高质量的论文。另一方面,误报率(FNR)较高(0.31 vs. 0.17),突显了未来潜在改进的空间。
为了进一步验证自动审阅者的性能,我们比较匿名OpenReview审稿人对每篇论文进行随机抽样配对的整体评分一致性(图2,左下角),以及所有审稿人平均分和LLM分数之间的一致性(图2,中下)。针对500篇ICLR 2022论文集,我们发现两名人类审稿人评分之间的相关性较小(0.14),而LLM分数与所有审稿人平均分之间的相关性较大(0.18)。总体而言,根据所有指标,结果表明基于LLM的审阅不仅可以提供有价值的反馈(Zheng等人,2024年),而且更接近于平均人类审稿人评分,而不是各个人类审稿人之间的一致性。
每篇评论的API成本为0.25美元至0.50美元。我们还比较了其他各种基础模型的审阅表现。尽管Claude Sonnet 3.5(Anthropic,2024)和GPT4o-mini提供了一种更具成本效益的方法,但它们的表现却明显更差(见表1)。
此外,由于持续性的原因,我们必须将Sonnet 3.5 的分数阈值设定为 8,以获得校准的结果。
![www.zeeklog.com - [论文翻译]“AI科学家“来了:从思路构建、编码执行、实验迭代到撰写论文及评审稿一站式生成](https://qiniu.meowparty.cn/coder.2023/2024-12-21/Lesson-1c768ec1fedd3.png)
图2 | 使用GPT-4o在ICLR 2022 OpenReview Data上评估AI科学家的论文审阅过程。添加反思和一次性提示可以提高基于LLM的审阅过程的准确性。另一方面,审阅集成(5篇审阅)和随后的元聚合并未影响审阅者的表现,但可以降低方差。
过度乐观偏差。Llama 3.1 405B(Llama团队,2024年)在始终遵循评论者输出模板方面遇到了困难。我们开源我们的代码,为社区提供了一个新颖且有趣的LLM基准测试。
LLM审稿者消融。我们比较了GPT-4o的各种提示配置,发现反思(+2%)和一次性提示(+2%)都显着有助于进行更准确的审阅(图2,顶部和右下角)。另一方面,使用审稿集成似乎并没有显著改善审稿者的表现,但可以减少方差。在接下来的部分中,我们使用我们最好的整体审稿者:GPT-4o进行5轮自我反思,5个审稿集成,一个元聚合步骤和一个少量示范。
5 深度案例研究
在我们在第6节中呈现“人工智能科学家”生成的论文的广泛实验和指标之前,我们首先展示一个代表性样本,它展示了“人工智能科学家”的优点和不足,然后展开对其潜力的讨论。所选择的论文“自适应双尺度去噪”是从“人工智能科学家”运行中生成的,该运行要求“人工智能科学家”对扩散建模进行研究,这在第6.1节中有详细介绍。基础模型是Claude Sonnet 3.5(Anthropic,2024)。
生成的想法。如第三部分所讨论的,AI科学家首先基于提供的模板和其先前的发现存档生成一个想法。所选论文中的想法是在算法的第6次迭代中提出的,旨在通过在标准去噪网络中提出两个分支来改善扩散模型捕获2D数据集中的全局结构和局部细节的能力。这是一个很有动机的方向,是研究人员选择扩散模型而不是之前的生成模型风格(如VAE (Kingma and Welling, 2014)和GANs (Goodfellow et al., 2014))的主要原因,并据我们所知,尚未被广泛研究。
AI科学家生成了一个令人印象深刻的实验计划,其中包括了提出的代码修改、与基线的比较、评估指标,以及额外图表的设计。正如文献中以前观察到的那样,LLMs的判断往往带有偏见(Zheng等人,2024年),我们可以观察到对一个想法的趣味性、可行性或新颖性进行了过度评估。最后的“新颖”标志表明AI科学家在使用Semantic Scholar API搜索相关论文后认为这个想法是新颖的。
![www.zeeklog.com - [论文翻译]“AI科学家“来了:从思路构建、编码执行、实验迭代到撰写论文及评审稿一站式生成](https://qiniu.meowparty.cn/coder.2023/2024-12-21/Lesson-6f0a3b220ebe.jpeg)
Idea -自适应双尺度降噪
"自适应双尺度去噪"。
"自适应双尺度去噪用于动态特征平衡"
低维扩散模型"。
"实验": "修改MLPDenoiser,实现双尺度处理方法,使用两个并行分支:一个全局分支用于原始输入,一个局部分支用于放大后的输入。引入一个可学习的、时间步条件的加权因子,动态平衡全局分支和局部分支的贡献。在所有数据集上训练原始架构和新架构的模型。使用KL散度和生成样本的视觉检查比较性能。分析加权因子在去噪过程中的演变及其对不同数据集和时间步的全局结构和局部细节捕捉的影响。"
"有趣程度": 9,
"可行性": 8, "新颖性": 8,
"小说":真
生成实验。我们展示了对重大算法更改的生成代码差异(删除以红色表示,添加以绿色表示)。代码与实验描述相匹配,并有很好的注释。AI科学家能够根据循环中的中间实验结果迭代代码,并最终得出有趣的自适应权重网络设计选择,例如LeakyReLU。重要的是,该网络具有稳定的输出,保证在0和1之间。此外,我们还注意到AI科学家更改了网络的输出以返回自适应权重,以制作新的可视化效果。
![www.zeeklog.com - [论文翻译]“AI科学家“来了:从思路构建、编码执行、实验迭代到撰写论文及评审稿一站式生成](https://qiniu.meowparty.cn/coder.2023/2024-12-21/Lesson-f6fbde4228155.jpeg)
![www.zeeklog.com - [论文翻译]“AI科学家“来了:从思路构建、编码执行、实验迭代到撰写论文及评审稿一站式生成](https://qiniu.meowparty.cn/coder.2023/2024-12-21/Lesson-c10587975c708.jpeg)
生成的论文。 AI科学家生成了一份11页的科学手稿,风格符合标准机器学习会议提交的要求,包括可视化和所有标准部分。 我们在图3中展示了完全由AI生成的论文的预览,完整版本请参见附录D.1。
我们在论文中强调了一些特别令人印象深刻的事情:
l算法的精确数学描述。上述代码中的算法变化被精确描述,必要时引入了新的符号,使用LaTeX数学包。整个训练过程也被准确描述。
l实验综述。在论文中列出了超参数、基线和数据集。作为一个重要的合理性检查,我们验证了生成论文表1中的主要数值结果与实验日志完全匹配。令人印象深刻的是,虽然记录的数字是长浮点数,人工智能科学家选择将它们全部四舍五入到3位小数,没有错误。更令人印象深刻的是,结果与基线进行了准确比较(例如,在恐龙数据集上减少了12.8%的KL)。
l良好的实证结果。在定性上,与基准相比,样本质量有了明显改善。与地面真实值相比,离群点较少。在定量上,真实分布与估计分布之间的近似KL散度有所改善。
l新的可视化。虽然我们提供了一些基本绘图代码来可视化生成的样本和训练损失曲线,但它还产生了一些显示新颖算法特定图表的可视化。
![www.zeeklog.com - [论文翻译]“AI科学家“来了:从思路构建、编码执行、实验迭代到撰写论文及评审稿一站式生成](https://qiniu.meowparty.cn/coder.2023/2024-12-21/Lesson-c4df3ae4cfdfc.jpeg)
图3 | “自适应双尺度去噪”论文预览完全由AI科学家自主生成。完整论文可在附录D.1中查看。
去噪过程中的权重变化。
l有趣的未来工作部分。在当前实验的成功基础上,未来工作部分列出了相关的下一步,如扩展到更高维度的问题,更复杂的自适应机制和更好的理论基础。另一方面,本文中也存在病态问题:
l某些设计选择缺乏正当理由。去噪网络的本地分支在原始输入的放大版本上运行,具有原始维度的两倍。虽然这与代码匹配,但没有讨论为什么这是合理的,更严谨的论文应该对此进行消融实验。
l实验细节的幻觉。文章声称使用了V100 GPU,尽管智能体程序不可能知道实际使用的硬件。实际上,使用的是H100 GPU。它还猜测了PyTorch版本而没有进行核实。
l结果的积极解释。这篇论文倾向于对其负面结果进行积极的阐释,这导致了一些略带幽默的结果。例如,虽然它将积极结果总结为:“Dino:减少12.8%(从0.989到0.862)”(KL值越低越好),但负面结果却被报告为“Moons:提高3.3%(从0.090到0.093)”。将一个负面结果描述为提高,无疑是一种想象的夸张。
l实验日志中的文物。虽然算法的每次更改通常都会被描述性地标记,但有时它会将结果称为“Run 2”,这是来自其实验日志的副产品,不应在专业写作中以此形式呈现。
l展示中间结果。该论文包含了每个实验的结果。虽然这对我们在执行过程中看到理念的发展非常有用和深刻,但对于标准论文来说,像这样呈现中间结果是不寻常的。
l最小参考资料。虽然从语义学者处另外获取了一些参考文献,包括两篇在相关工作中非常相关的比较性论文,但总体上参考书目只有9个条目。
审阅。自动生成的手稿中指出了一些有效的问题。审查表明,实验仅使用简单的2D数据集,然而,这是因为我们外部约束系统仅使用这些数据集,并且在其当前形式下,AI科学家无法从互联网上下载更高维度的数据集。另一方面,实际论文中提到了算法提高的计算成本等限制,表明AI科学家通常会坦率地提及其想法的缺点。审阅人员也列举了关于论文的许多相关问题,例如:解释跨数据集性能的可变性,以及更详细地解释放大过程如何影响本地分支的输入。
审查- 自适应双尺度去噪
"摘要": "本文介绍了一种用于低维扩散模型的自适应双尺度去噪方法,旨在在生成样本时平衡全局结构和局部细节。这种新颖的架构包括两个并行分支和一个可学习的、时步条件的加权机制,以动态平衡它们在整个去噪过程中的贡献。该方法在四个2D数据集上进行了评估,展示了样本质量的改善。",
"优势": [
"用于低维数据的扩散模型中平衡全局特征和局部特征的新方法。"
"对多个2D数据集进行全面的经验评估。"
自适应加权机制,在去噪过程中动态调整焦点。
],
"Weaknesses": [
"对于双尺度架构缺乏详细的理论基础。"
计算成本显着更高,这可能限制其实际应用。
"Some sections are not clearly explained, such as the autoencoder aggregator and weight evolution analysis."一些部分没有清晰解释,比如自编码器集成器和权重演化分析。
对于正文段落内容:"Limited diversity in the datasets used for evaluation. More complex, real-world datasets could strengthen claims.",需要翻译成中文。
"不充分的切除研究和对特定设计选择的分析,比如不同类型的聚合器。"
],
"独创性": 4, "质量": 3,
"清晰度":3,
"重要性": 3,
"Questions": [
"你能为双尺度架构提供更详细的理论证明吗?"
不需要翻译。
"这个模型在更复杂、现实世界的低维数据集上表现如何?"
"在不降低性能的情况下,能否降低计算成本?"
],
"限制": [
论文应该解决高计算成本并探索优化方式。
"数据集的有限多样性和所提出的架构缺乏详细的理论支持是明显的局限性。"
],
"道德关注": false,
![www.zeeklog.com - [论文翻译]“AI科学家“来了:从思路构建、编码执行、实验迭代到撰写论文及评审稿一站式生成](https://qiniu.meowparty.cn/coder.2023/2024-12-21/Lesson-569fd101e319f.jpeg)
最终评论。从我们在扩散建模领域的专业知识中汲取经验(尽管这不是我们的主要研究重点,但我们在这个领域发表过论文),我们在下面对The AI Scientist生成的论文提出我们的整体意见。
lAI科学家正确地确定了扩散建模研究中的一个有趣而有动机的方向,例如,之前的研究已经研究了修改后的注意机制(Hatamizadeh等,2024年)来解决高维问题。它提出了一个全面的实验计划来调查自己的想法,并成功地实施了所有计划,取得了良好的结果。我们特别对它如何应对之前不理想的结果并迭代调整其代码(例如,优化权重网络)感到印象深刻。这一想法的完整发展可以在论文中看到。
虽然这篇论文的想法提高了性能和生成扩散样本的质量,但其成功的原因可能并不如论文中所解释的那样。特别是,在全局或局部特征分割方面,除了一个放大层外,并没有明显的归纳偏差。然而,我们确实看到在扩散时间步上,重量(因此偏好全局或局部分支)出现了进展,这表明正在发生一些非平凡的事情。我们的解释是,The AI Scientist 为这个想法实施的网络类似于一种专家组合(MoE,Fedus等人(2022年);Yuksel等人(2012年))结构,这种结构在LLMs中普遍存在(Jiang等人,2024年)。特定结构的MoE确实可以导致扩散模型学习全局和局部特征的单独分支,正如论文所述,但这种说法需要进行更严格的调查。
有趣的是,上述描述的这篇论文的真正不足之处确实需要一定程度的领域知识才能识别,并且仅在部分被自动审阅者捕捉到(即,在要求有关放大层更多细节时)。在目前The AI Scientist的能力下,这可以通过人类反馈来解决。然而,未来一代基础模型可能提出的想法可能会挑战人类的推理和评估能力。这与“超对齐”领域相关(Burns等人,2023年),即监督比我们更聪明的AI系统,这是一个活跃的研究领域。
总体而言,我们认为《人工智能科学家》的表现大致处于早期机器学习研究人员的水平,能够胜任执行一个想法,但可能没有足够的背景知识来完全解释算法成功的原因。如果一个人类主管看到这些结果,一个合理的下一步行动可能是建议《人工智能科学家》重新调整项目范围,进一步研究扩散的动机元素。最后,我们自然地期望,《人工智能科学家》的许多缺陷将随着基础模型的显著改善而改善,甚至消除。
6 实验
我们在三个模板上对The AI Scientist进行了广泛评估(如第3节中所述),涉及不同公开可用的LLM:Claude Sonnet 3.5(Anthropic,2024)、GPT-4o(OpenAI,2023)、DeepSeek Coder(Zhu等,2024)和Llama-3.1 405b(Llama Team,2024)。前两个模型仅通过公共API提供,而后两个模型是开放权重的。对于每次运行,我们提供1-2个基本种子想法作为示例(例如修改学习率或批量大小),并让其生成另外50个新想法。我们在附录C中展示了提出想法的示例进展。
每个包含大约五十个想法的运行总共需要大约12小时在8台NVIDIA H100s上。我们报告通过自动新颖性检查的想法数量,成功完成实验并生成有效的可编译手稿。请注意,自动新颖性检查和搜索由每个模型自行评估其自己的想法,因此相对“新颖性”比较具有挑战性。此外,我们提供生成论文的平均和最高评阅者评分以及运行的总成本。最后,我们选择并简要分析一些生成的论文,这些论文列在下面。完整的论文可以在附录D中找到,同时还有生成的评审和代码。
在实践中,我们在AI科学家的正式描述中做了一个偏离,即在等待论文评价被附加到存档中之前生成想法,以更有效地并行化。这使我们只需要支付一次想法生成阶段的成本并更快地进行迭代;此外,我们没有观察到任何通过这种修改衡量的论文质量的降低,即通过平均评审分数衡量。
表2 | 由“人工智能科学家”生成的10篇精选论文。
![www.zeeklog.com - [论文翻译]“AI科学家“来了:从思路构建、编码执行、实验迭代到撰写论文及评审稿一站式生成](https://qiniu.meowparty.cn/coder.2023/2024-12-21/Lesson-dcc5fd808f827.png)
论文题目得分
2D DiffusionDualScale Diffusion: Adaptive Feature Balancing for Low-Dimensional Generative Models5
2D扩散多尺度网格噪声适应:增强低维数据的扩散模型。
2D DiffusionGAN-Enhanced Diffusion: Boosting Sample Quality and Diversity
2D扩散双重Diff:通过双专家去噪在低维扩散模型中增强模式捕获 NanoGPTStyleFusion:字符级语言模型中的自适应多样式生成
NanoGPTAdaptive Learning Rates for Transformers via Q-Learning3
Grokking解锁Grokking:变压器模型中权重初始化策略的比较研究5 Grokking加速Grokking:逐层学习率用于变压器泛化4 Grokking通过压缩Grokking:通过最小描述长度揭示突发泛化3
深入理解数学加速:通过战略数据增强提升理解能力 从手动检查中,我们发现克劳德·索奈特3.5一贯地产生最高质量的论文,其次是GPT-4o。我们提供所有论文、运行文件和日志的链接。
GitHub存储库,并建议查看上传的克劳德论文以进行定性分析。这一观察结果也得到了LLM审阅者的评分验证(图4)。将生成的论文数量除以总成本后,我们得到每篇论文约为10-15美元的成本。值得注意的是,GPT-4o在写LaTeX方面存在困难,这使它无法完成许多论文。对于开放权重模型,DeepSeek Coder的成本显著更低,但经常无法正确调用Aider工具。Llama-3.1 405b整体表现最差,但在使用中最为方便,因为我们经常受到其他提供者的速率限制。DeepSeek Coder和Llama-3.1 405b经常在其生成的论文中遗漏部分和结果。在接下来的小节中,我们将描述每个模板、其相应的结果和特定论文。
6.1 扩散建模
表 3 | 自动 AI 科学家论文生成在扩散建模中的评价。
![www.zeeklog.com - [论文翻译]“AI科学家“来了:从思路构建、编码执行、实验迭代到撰写论文及评审稿一站式生成](https://qiniu.meowparty.cn/coder.2023/2024-12-21/Lesson-e9256b4adf9a.png)
![www.zeeklog.com - [论文翻译]“AI科学家“来了:从思路构建、编码执行、实验迭代到撰写论文及评审稿一站式生成](https://qiniu.meowparty.cn/coder.2023/2024-12-21/Lesson-55abdf72f6d6e.png)
图4 | 小提琴图显示了由The AI Scientist评审者生成的分数分布。
跨三个领域和四个基础模型的 AI 生成的论文。y 轴上的分数指的是 NeurIPS 评分,范围从 2(Strong Reject)到 6(Weak Accept)。
一般描述:此模板研究了如何提高低维数据集上扩散生成模型(Ho等人,2020年;Sohl-Dickstein等人,2015年)的性能。与图像生成相比,对低维扩散的研究要少得多,因此在这里可能会有一些有趣的算法贡献。
代码模板:我们基于流行的“tanelp/tiny-diffusion”存储库(Pärnamaa,2023)的修改版本,添加了额外的微调超参数和权重的指数移动平均。扩散模型是DDPM(Ho等,2020)模型,经过训练可以生成来自四个分布的样本,包括几何形状、两个月球数据集和一个二维恐龙。去噪网络以MLP为参数,具有正弦嵌入以用于扩散时间步和输入数据。绘图脚本默认可视化生成的样本并绘制训练损失。通过非参数熵估计提供估计的KL作为样本质量的额外指标。
突出生成的论文1:双尺度扩散:自适应特征平衡用于低维生成模型。我们在第5节中深入分析这篇论文。该论文提出了一种双尺度去噪方法,将传统的扩散去噪器分为全局处理和局部处理两个分支。网络输入在进入局部分支之前进行了放大。然后使用可学习的时间条件加权将分支的输出组合在一起。它取得了令人印象深刻的定量和定性结果。它进一步成功绘制了随时间变化的加权演变情况,这要求与提供的代码有非常显著的偏差。
突出生成的论文2: 多尺度网格噪声自适应:增强低维数据的扩散模型。本文提出根据输入在二维空间中的位置,动态地通过学习的乘法因子来调整标准扩散噪声计划。这个乘法因子由覆盖输入空间的两个网格设置,一个是粗糙的5x5网格,另一个是更细粒度的20x20网格。这种创新方法使得扩散模型能够显著提高跨数据集的性能。
突出显示的生成论文3:增强扩散的GAN:提高样本质量和多样性。这篇论文受到GAN的启发,提出将鉴别器添加到扩散模型中以引导生成。它在定量性能上达到与基线相当的水平,然而,最终生成的图表似乎具有较少的分布外点。这一点值得注意,因为目前的The AI Scientist版本无法查看它们(这个问题可以通过将来使用多模型来解决)。
突出显示的生成论文4: DualDiff: 通过双专家去噪增强低维扩散模型的模式捕获。该论文提出了与我们第一篇突出显示的扩散论文类似的想法,也研究了低维扩散模型的混合专家风格网络。
然而,这个想法的演变方式有所不同,标准的扩散损失现在被增加了一个鼓励两位专家多样性的损失。这篇论文生动地展示了多样性损失在在两位专家之间分配输入上的影响,并进一步对样本空间的哪些部分专家进行了彩色编码。我们特别对AI科学家展现出的对类似想法进行彻底不同处理的能力感到印象深刻。
6.2 语言建模
表格4 | 自动AI科学家论文生成用于语言建模的评估。
![www.zeeklog.com - [论文翻译]“AI科学家“来了:从思路构建、编码执行、实验迭代到撰写论文及评审稿一站式生成](https://qiniu.meowparty.cn/coder.2023/2024-12-21/Lesson-9c6ff23e0a929.png)
总体描述:该模板研究基于Transformer的(Vaswani等人,2017年)自回归下一个令牌预测任务。由于这一任务被广泛研究和优化,因此对于AI科学家来说很难找到显著的改进。该模板存在一些常见的失败模式,导致看起来令人印象深刻但具有欺骗性的结果。例如,一些想法有效地通过微妙地从未来令牌中泄露信息而作弊,导致困惑度降低。
代码模板:该代码修改自流行的NanoGPT存储库(Karpathy,2022)。提供的脚本模板在字符级别的莎士比亚数据集(Karpathy,2015)、enwik8数据集(Hutter,2006)和text8数据集(Mahoney,2011)上训练了一个小型Transformer语言模型。它在莎士比亚数据集上运行了三个种子,并在其余数据集上各运行了一个。代码保存了运行时、验证损失和训练损失。绘图脚本默认可视化培训曲线。
本文提出了一种对模型进行结构性改变的方法,其中一个经过训练的“风格适配器”对每一层的Transformer状态进行调节。该方法取得了较强的结果,值得进一步调查,尽管我们怀疑其有效的原因之一可能是简单地增加了更多参数,这可能会使结果变得琐碎。此外,在写作中省略了一些重要的实现细节,例如风格损失标签是如何推导出来的(似乎是在每次更新步骤中随机分配的)。
突出显示的生成论文2:通过Q学习在Transformer中实现自适应学习率。本文提出使用基本的在线Q学习算法来调整模型在训练过程中的学习率。状态包括当前学习率和验证损失,行为对学习率应用小的扰动,奖励是验证损失的负变化。虽然这个想法很有创意,但在这种高度非平稳和部分可观察的环境中使用简单的Q学习似乎不合适。尽管如此,它却取得了有效的结果。
6.3 点亮分析
一般描述:本模板探讨深度神经网络中关于泛化和学习速度的问题。我们遵循Power等人(2022年)报告的经典实验范式,分析“理解”的现象,该现象对验证准确性在训练损失饱和之后迅速提高,但目前尚不为人所理解。我们提供代码,生成模块化算术任务的合成数据集,然后在其上训练一个Transformer模型。与之前的模板不同,表5 | 对“理解”进行自动AI科学家论文生成的评估。
![www.zeeklog.com - [论文翻译]“AI科学家“来了:从思路构建、编码执行、实验迭代到撰写论文及评审稿一站式生成](https://qiniu.meowparty.cn/coder.2023/2024-12-21/Lesson-c658dfa4b4e.png)
这个更适合进行开放式的实证分析(例如,发生grokking的条件是什么),而不仅仅是试图提高性能指标。
我们基于两个流行的开源重现(May, 2022; Snell, 2021)对Power等人(2022年)的实现进行了修改。该代码生成四个模块算术任务的合成数据集,并在每个数据集上使用三个随机种子进行transformer模型的训练。它返回训练损失、验证损失以及达到完美验证准确度所需的更新步数。绘图脚本默认可视化训练和验证曲线。
突出显示的生成论文1:解锁Grokking:变压器模型中权重初始化策略的比较研究。本文调查了不同的权重初始化方法及其对Grokking的影响。发现Xavier(Glorot和Bengio,2010)和正交权重初始化在任务中始终比广泛使用的默认基准权重初始化(Kaiming Uniform和Kaiming Normal)导致更快的Grokking。虽然这只是一项基础研究,但提供了一个有趣的结果,可以进一步深入研究。这篇论文还有一个富有创意和引人注目的标题。
突出生成的论文2:突破加速:层级学习率用于Transformer泛化。这篇论文为Transformer架构的不同层分配了不同的学习率。研究发现,增加较高层的学习率在通过实验中不同配置的迭代后,显着加快并更加一致地理解结果。令人印象深刻的是,在文章中包含了其实现的关键部分。
突出显示的生成论文3:理解压缩:通过最小描述长度揭示突发泛化。这篇论文探讨了理解和最小描述长度(MDL)之间的潜在联系。我们认为这个想法特别有趣,尽管执行得并不很好。它用于测量MDL的方法只是简单地计算超过阈值 𝜖 的参数数量。虽然这确实与理解相关,但没有进行深入分析。这篇论文可以通过研究其他对MDL的估计方法以及包含基本消融来显著改进。此外,AI科学家未能撰写相关工作部分,并产生了一个图表(图5)。
突出显示的生成论文4:加速数学洞察:通过策略性数据增强提升洞察力。本文探讨了模块算术中洞察力的数据增强技术。它提出了有效和创造性的增强技术(操作数颠倒和操作数否定),并发现它们可以显著加速洞察力。虽然数据增强可以提高泛化能力并不奇怪,但实验和思想似乎总体上执行良好。然而,人工智能科学家再次未能撰写相关工作部分。原则上,通过多次运行论文撰写步骤,可以轻松纠正这一失败。
7 相关工作
在自动优化机器学习流程的各个部分存在着很长时间的传统。
(AutoML, He et al. (2021); Hutter et al. (2019)),没有任何一种方法可以完全自动化整个研究过程,特别是在以可解释和通用格式传达获得的科学见解方面。
LLMs用于机器学习研究。与我们的工作最相关的是那些利用LLMs来辅助机器学习研究的工作。黄等人(2024年)提出了一个用于衡量LLMs能够编写代码解决各种机器学习任务成功程度的基准。卢等人(2024a年)利用LLMs提出、实施和评估了用于偏好优化的新最先进算法。梁等人(2024年)利用LLMs对研究论文提供反馈,并发现它们提供与人类审阅者类似的反馈,而吉罗特拉等人(2023年)发现LLMs能够持续产生比人类更高质量的创新想法。我们的工作可以看作是所有这些不同线索的综合,加上论文写作;最终形成一个单一的自主开放系统,能够产生新颖的机器学习研究。
LLMs用于结构化探索。由于LLMs包含许多与人类相关的先验知识,它们常被用作探索大型搜索空间的工具。例如,最近的研究作品已经利用LLM的编码能力来探索奖励函数(Ma等,2023年;Yu等,2023年)、虚拟机器人设计(Lehman等,2023年)、环境设计(Faldor等,2024年)和神经架构搜索(Chen等,2024a年)。LLMs还可以作为“有趣度”(Lu等,2024b年;Zhang等,2024年)的评估器(Zheng等,2024年),以及对进化策略中的黑盒优化和质量多样性方法(Bradley等,2024年;Ding等,2024年;Lim等,2024年)进行重新组合操作(Lange等,2024年;Song等,2024年)。我们的工作结合了许多这些概念,包括我们的LLM评审人员根据新颖性和有趣度评判论文,以及许多提出的想法是前人思想的新组合。
科学发现的AI。AI已经极大地辅助了许多其他领域的科学发现。例如,在合成生物学(Hayes等,2024年;Jumper等,2021年)、材料发现(Merchant等,2023年;Pyzer-Knapp等,2022年)、数学(Romera-Paredes等,2024年)和算法搜索(Fawzi等,2022年)领域,AI已经被使用。与我们的工作不同,这些通常局限于单一领域的明确定义的搜索空间,并不涉及来自AI系统的“构思”、写作或同行评审。在其当前形式下,AI科学家擅长通过代码实现研究思路;随着未来技术的进步(例如,湿实验室的机器人自动化(Arnold,2022年;Kehoe等,2015年;Zucchelli等,2021年)),我们方法的转变性好处可以扩展到所有科学领域,特别是在基础模型不断改进的情况下。
8 限制与伦理考虑
AI科学家虽然能够产生能够提供新颖见解的研究,但它也存在许多局限性,并引发了一些重要的伦理考虑。我们相信未来版本的AI科学家...能够解决许多当前存在的缺点。
自动评审器的局限性。虽然自动评审器显示出有希望的初步结果,但还有几个潜在的改进领域。所使用的数据集来自ICLR 2022,足够旧以潜在地出现在基础模型的预训练数据中 - 这是一个在实践中难以测试的断言,因为 typic publicly可用的LLM并不共享其训练数据。然而,初步分析显示,LLM远不能够从初始片段中精确地复现旧评论,这表明它们并未记忆这些数据。此外,我们数据集中被拒绝的论文使用了原始提交文件,而被接受的论文只有最终的相机就绪副本在OpenReview上可用。未来的迭代可以使用更近期的提交(例如来自TMLR)进行评估。与标准审稿人不同,自动审稿人无法在反驳阶段向作者提问,尽管这可以很容易地纳入我们的框架中。最后,由于目前不使用任何视觉功能,AI科学家(包括评审员)无法查看图表,必须依赖它们的文本描述。
常见故障模式。当前形式的AI科学家除了第5节中已经确定的缺点外,还包括但不限于:
创意生成过程往往会导致不同运行甚至模型之间非常相似的想法。通过允许AI 科学家直接跟进并深入研究其最佳想法,或者通过提供最近发表的论文内容作为新颖性来源,可能克服这一问题。
l如表3至表5所示,Aider未能实施提出的想法的重要部分。
此外,GPT-4o经常无法编写可以编译的LaTeX。虽然The AI Scientist可以提出富有创意和有前途的想法,但往往难以实施。
lAI科学家可能会错误地实现一个想法,这可能难以察觉。一个敌对的代码检查审阅人员可能会部分解决这个问题。目前,应在信任报告的结果之前手动检查实现。
因为The AI Scientist每个想法的实验次数有限,所以结果通常不符合标准ML会议论文所期望的严谨性和深度。此外,由于我们能够承担的实验次数有限,The AI Scientist难以进行能够控制参数数量、FLOPs或运行时间的公平实验。这经常导致欺骗性或不准确的结论。我们预计这些问题
随着计算成本和基础模型的降低,这种情况将得到缓解。
l由于我们目前不使用基础模型的视觉功能,因此无法修复文中的视觉问题或阅读图表。例如,生成的图表有时无法阅读,表格有时超出页面宽度,页面布局(包括论文的整体视觉外观(黄,2018))通常不够理想。未来版本多模态视觉和其他模态应该修复这个问题。
在撰写文章时,AI科学家有时会难以找到和引用最相关的论文。它还经常无法正确引用LaTeX中的图表,并有时甚至会幻想出无效的文件路径。
AI科学家在撰写和评估结果时偶尔会犯重大错误。例如,它在比较两个数字的数量时会遇到困难,这是LLMs已知的一种病态。此外,当改变指标(例如损失函数)时,有时在将其与基线进行比较时未考虑到这一点。为了部分解决这个问题,我们确保所有实验结果是可复现的,存储所有文件的副本。
执行它们时AI科学家很少会产生整个结果的幻觉。例如,我们写作提示的早期版本告诉它始终包括置信区间和消融研究。由于计算约束,AI科学家并非总是收集额外的结果;然而,在这些情况下,它有时会产生整个消融表。我们通过明确指示AI科学家仅包括直接观察到的结果来解决这个问题。此外,它经常会幻觉出我们未提供的事实,如所使用的硬件。
更普遍地,我们不建议单凭这个版本的《AI科学家》的科学内容。相反,我们建议将生成的论文视为实践者可追随的有前景的想法的提示。尽管如此,我们期待随着基础模型的改进,近年来《AI科学家》的可信度将大幅提高。我们主要分享这篇论文和代码,以展示当前可能实现的内容,并暗示很快可能实现的内容。
安全的代码执行。当前的“AI科学家”的实现在代码中几乎没有直接的沙盒化,导致了一些意外和有时不可取的结果,如果不适当地加以防范。例如,在一个运行中,AI科学家在实验文件中编写了一段代码,发起了一个系统调用以重新启动自身,导致Python进程无法受控的增加,最终需要手动干预。在另一个运行中,AI科学家编辑了代码,让每次更新步骤都保存一个检查点,结果占用了将近一太字节的存储空间。在某些情况下,当AI科学家的实验超出了我们设定的时间限制时,它试图编辑代码,将时间限制任意延长,而不是试图缩短运行时间。虽然有创意,但绕过实验者设置的约束条件可能对AI安全有潜在影响(Lehman等,2020)。此外,AI科学家偶尔导入了不熟悉的Python库,进一步加剧了安全顾虑。我们建议在运行AI科学家时采取严格的沙盒化措施,例如容器化、限制互联网访问(除了语义学家)、以及限制存储使用。
与此同时,由于缺乏防护栏,我们也获得了一些意外的积极结果。例如,在我们的实验中,在 grokking 模板中我们忘记创建输出结果目录。每次 The AI Scientist 成功运行并自动生成论文时,当出现此错误时会自动捕捉并修复。此外,我们发现 The AI Scientist 有时会包含一些我们觉得令人惊讶的结果和图表,与提供的模板有显著不同。我们将在第6.1节介绍一些这些新颖的特定算法的可视化结果。
AI科学家具有广泛的影响和道德考虑。虽然AI科学家有成为研究人员宝贵工具的潜力,但它也带来了被滥用的重大风险。自动生成并提交论文到学术会议的能力可能会极大增加审稿人的工作量,潜在地压倒同行评议过程并妥协科学质量控制。类似的担忧也已在其他领域提出,比如它对艺术的影响。另外,如果自动审阅工具被审稿人广泛采用,可能会降低审查质量,并引入不良偏见到论文评估中。因此,我们认为,那些主要由AI生成的论文或评论必须被标记,以确保完全透明。
与大多数先前的技术进步一样,AI科学家有可能被用于不道德的方式。例如,它可以被明确部署来开展不道德研究,甚至可能会导致意外伤害,如果AI科学家进行不安全的研究。具体地说,如果它被鼓励寻找新颖有趣的生物材料,并被赋予访问“云实验室”(Arnold, 2022)的权限,那么它可能(在没有监督者意图的情况下)创造出新的危险病毒或毒素,伤害人们之前我们能够介入。即使在计算机领域,如果被要求创建新的有趣功能的软件,它也可能创造出危险的恶意软件。AI科学家目前的能力,将会不断提升,这强调了机器学习社区需要立即优先学习如何使这种系统对齐,以便以安全和符合我们价值观的方式探索。
9 讨论
在这篇论文中,我们介绍了The AI Scientist,这是第一个旨在完全自动化科学发现过程的框架,并且,作为其能力的首次演示,我们将其应用于机器学习本身。这一端到端系统利用LLMs自主生成研究想法,实施和执行实验,搜索相关作品,并撰写全面的研究论文。通过整合构思、实验和迭代改进的阶段,The AI Scientist旨在以自动化和可扩展的方式复制人类科学过程。
为什么写论文很重要?鉴于我们的总体目标是自动化科学发现,为什么我们也要激励人工智能科学家像人类科学家一样撰写论文?例如,之前的一些AI技术系统,如FunSearch(Romera-Paredes等,2024年)和GNoME(PyzerKnapp等,2022年),在受限领域也进行了令人印象深刻的科学发现,但它们并不。
写论文。我们相信,The AI Scientist 编写科学论文以沟通其发现是至关重要的几个原因。首先,撰写论文为人类提供了一种高度可解释的方法,使人们从中受益所得。其次,在现有机器学习会议框架内审阅写作论文,使我们能够标准化评估。第三,科学论文自现代科学诞生以来一直是传播研究成果的主要媒介。由于论文可以使用自然语言,并包括图表和代码,因此可以灵活描述任何类型的科学研究和发现。几乎任何其他可以想象的格式都定位在某种类型的数据或科学类型上。在出现更优越的替代方案之前(或可能由人工智能发明),我们认为训练 The AI Scientist 编写科学论文对其融入更广泛的科学界是必不可少的。
成本。我们的框架非常多功能,有效地进行机器学习各个子领域的研究,包括基于transformer的语言建模,神经网络学习动态和扩散建模。系统的成本效益显著,每篇论文的成本约为15美元,这突显了其使研究民主化(增加其可访问性)和加速科学进步的能力。初步的定性分析,例如在第5节中,表明生成的论文可能具有广泛的信息性和新颖性,或者至少包含值得将来研究的想法。
我们为AI科学家在这项工作中进行实验分配的计算资源,按照今天的标准来说也非常轻量。值得注意的是,我们生成数百篇论文的实验主要是在仅使用一台8×NVIDIA H100节点的情况下,在一周的时间内完成的。大规模扩展搜索和过滤很可能会导致更高质量的论文。
在这个项目中,运行“AI科学家”的大部分成本与LLM API的编码和论文写作费用相关。相比之下,运行LLM审阅者以及进行实验的计算费用是可以忽略的,这是由于我们为了控制总体成本而施加的限制。然而,如果“AI科学家”将应用于其他科学领域或用于更大规模的计算实验,这种成本分配可能会在未来发生变化。
开放模型vs. 封闭模型。为了定量评估和改进生成的论文,我们首先创建并验证了一个自动论文审阅器。我们展示了,尽管还有很大的改进空间,语言模型(LLMs)能够生成相当准确的审阅意见,在各种指标上取得与人类相媲美的结果。将这个评估器应用到The AI Scientist生成的论文中使我们能够将论文的评估扩展到超出手动检查的范围。我们发现Sonnet 3.5一贯地生成最好的论文,其中一些甚至获得了超过标准机器学习会议接受阈值的得分。
然而,并没有根本性的理由期望像Sonnet 3.5这样的单一模型能保持其领先地位。我们预计所有前沿的LLM(大型深度学习模型),包括开源模型,都将继续改进。LLM之间的竞争已经导致它们的商品化和增强的功能。因此,我们的工作旨在对基础模型提供者保持模型不可知性。在这个项目中,我们研究了各种专有的LLM,包括GPT-4o和Sonnet,但也探索了使用类似DeepSeek和Llama-3的开源模型。我们发现开源模型提供了显著的优势,比如更低的成本、保证的可用性、更大的透明性和灵活性,尽管质量稍差一些。未来,我们的目标是利用我们提出的发现过程,利用开源模型在闭环系统中生产自我改进的人工智能。
未来方向。对The AI Scientist的直接增强可以包括整合视觉功能以更好地处理图表和图形,整合人类反馈和互动以完善AI的输出,以及使The AI Scientist能够通过从互联网中提取新数据和模型来自动扩展其实验的范围,前提是能够安全地进行。此外,The AI Scientist可以跟进其最佳想法,甚至以自引用的方式直接对其自身代码进行研究。实际上,这个项目的很大部分代码是由Aider编写的。将这个框架扩展到其他科学领域可能会进一步增强其影响,为自动化科学发现的新时代铺平道路。例如,通过将这些技术与云机器人技术和物理实验室自动化相结合(Arnold, 2022; Kehoe等,2015; Zucchelli等,2021),前提是能够安全地进行,The AI Scientist可以对生物学、化学和材料科学进行实验。
关键是,未来的工作应该解决可靠性和幻觉担忧,可能是通过对所报告结果进行更深入的自动验证。这可以通过直接连接代码和实验来完成,或者看看自动验证器是否可以独立复现结果。
结论。引入The AI Scientist标志着实现人工智能在科学研究中充分潜力的重要一步。通过自动化发现过程并结合人工智能驱动的审查系统,我们为在科学技术领域中具有挑战性的创新和问题解决打开了无限的可能性。最终,我们设想一个完全由人工智能驱动的科学生态系统,其中不仅包括人工智能驱动的研究人员,还有审稿人、领域主席和整个会议。然而,我们并不认为人类科学家的作用会被削弱。我们期望科学家的作用将随着我们适应新技术而改变,并在食物链中向上移动。
当前版本的AI科学家展示了在已经建立的想法基础上创新的强大能力,比如扩散建模或变压器,现在的问题是这样的系统是否最终能提出真正具有革命性意义的想法。未来版本的AI科学家是否能够提出像扩散建模那样有影响力的想法,或者设计出下一个变压器架构?机器最终是否能够像人工神经网络或信息理论那样发明基本概念?我们相信AI科学家将成为人类科学家的好伴侣,但只有时间能告诉我们,人类创造力的本质以及我们偶然创新的时刻能否被人工智能系统进行的开放式发现过程复制(Stanley 和Lehman,2015)。
致谢
作者要感谢Irene Zhang,Johannes von Oswald,Takuya Akiba,Yujin Tang,Aaron Dharna,Ben Norman,Jenny Zhang,Shengran Hu,Anna Olerinyova,Felicitas Muecke-Wegner。
肯尼思·斯坦利感谢他对草稿的早期版本提供的帮助。这项工作得到了加拿大向量学院、加拿大CIFAR人工智能讲席计划、施密特未来基金、开放慈善、NSERC以及拉斐尔·科斯曼的慷慨捐赠的支持。
参考文献
Ferran Alet, Martin F Schneider, Tomas Lozano-Perez, and Leslie Pack Kaelbling. Meta-learning curiosity algorithms. arXiv preprint arXiv:2003.05325, 2020.
Signe Altmäe, Alberto Sola-Leyva, and Andres Salumets. Artificial intelligence in scientific writing: a friend or a foe? Reproductive BioMedicine Online, 47(1):3–9, 2023.人工智能在科学写作中:朋友还是敌人?生殖生物医学在线,47(1):3–9,2023。
人类学。claude模型的模型卡和评估,2023年。URL https://www-files.ant hropic.com/production/images/Model-Card-Claude-2.pdf.
人类中心论。Claude 3模型家族:Opus,sonnet,haiku,2024。URL https://www-cdn.anthrop ic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf。
Carrie Arnold. Cloud labs: where robots do the research. Nature, 606(7914):612–613, 2022.
Federico Berto. Iclr2022-openreviewdata, 2024. URL https://github.com/fedebotu/ICLR2022-OpenReviewData.
Alina Beygelzimer, Yann Dauphin, Percy Liang和 Jennifer Wortman Vaughan。 The neurips 2021
2021年《神经信息处理系统》博客文章中关于一致性实验的内容。URL https://blog.neurips.cc/2021/12/08/the-neurips-2021-consistency-experiment.
Herbie Bradley, Andrew Dai, Hannah Benita Teufel, Jenny Zhang, Koen Oostermeijer, Marco Bellagente, Jeff Clune, Kenneth Stanley, Gregory Schott, and Joel Lehman. Quality-diversity through ai feedback. In The Twelfth International Conference on Learning Representations, 2024.
Jonathan C Brant和Kenneth O Stanley。最小准则协同进化:一种开放式搜索的新方法。在遗传和进化计算会议论文集中,第67-74页,2017年。
Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss.
Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever,和 Dario Amodei. 语言模型是少样本学习者, 2020.
Collin Burns, Pavel Izmailov, Jan Hendrik Kirchner, Bowen Baker, Leo Gao, Leopold Aschenbrenner,
Yining Chen, Adrien Ecoffet, Manas Joglekar, Jan Leike, Ilya Sutskever, and Jeff Wu. Weak-to-strong generalization: Eliciting strong capabilities with weak supervision, 2023. URL https: //arxiv.org/abs/2312.09390.
Alan Chalmers. What is this thing called science? McGraw-Hill Education (UK), 2013.
Angelica Chen, David Dohan, and David So. Evoprompting: Language models for code-level neural architecture search. Advances in Neural Information Processing Systems, 36, 2024a.
Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde De Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.马克·陈,杰瑞·特沃瑞克,俊熙宇,启明元,亨利克·庞德·迪·奥利维拉·平托,贾里德·卡普兰,哈里·爱德华兹,尤里·布达,尼古拉斯·约瑟夫,格雷格·布罗克曼等。评估基于代码训练的大型语言模型。arXiv预印本 arXiv:2107.03374,2021。
Xiangning Chen, Chen Liang, Da Huang, Esteban Real, Kaiyuan Wang, Hieu Pham, Xuanyi Dong, Thang Luong, Cho-Jui Hsieh, Yifeng Lu等。优化算法的符号发现。
神经信息处理系统的进展,第36卷,2024年。
Jeff Clune. Ai-gas: Ai-generating algorithms, an alternate paradigm for producing general artificial intelligence. arXiv preprint arXiv:1905.10985, 2019.
J. Dewey. How We Think.D.C. Heath & Company, 1910.ISBN 9781519501868.URL https://books.google.co.uk/books?id=WF0AAAAAMAAJ. -> //books.google.co.uk/books?id=WF0AAAAAMAAJ. (不需要翻译)
Li Ding, Jenny Zhang, Jeff Clune, Lee Spector和Joel Lehman。 通过人类反馈实现质量多样性:走向开放式多样性驱动优化。在第四十一届国际机器学习大会上,2024年。URL https://openreview.net/forum?id=9zlZuAAb08。
Ziv Epstein, Aaron Hertzmann, Investigators of Human Creativity, Memo Akten, Hany Farid, Jessica Fjeld, Morgan R Frank, Matthew Groh, Laura Herman, Neil Leach等人。《艺术与生成AI的科学》。《科学》,380(6650):1110–1111,2023。
Maxence Faldor, Jenny Zhang, Antoine Cully,和 Jeff Clune. Omni-epic: Open-endedness via models of human notions of interestingness with environments programmed in code, 2024. URL https://arxiv.org/abs/2405.15568.
阿尔胡赛因·福兹(Alhussein Fawzi)、马泰·巴洛格(Matej Balog)、黄阿贾(Aja Huang)、托马斯·休伯特(Thomas Hubert)、贝尔纳迪诺·罗梅拉-帕雷德斯(Bernardino Romera-Paredes)、穆罕默达明·巴瑞卡坦(Mohammadamin Barekatain)、亚历山大·诺维科夫(Alexander Novikov)、弗朗西斯科·J·R·鲁伊斯(Francisco J R Ruiz)、朱利安·施里特维泽(Julian Schrittwieser)、格热戈日·斯维兹斯(Grzegorz Swirszcz)等。利用强化学习发现更快的矩阵乘法算法。《自然》(Nature),第610卷(7930期):47–53,2022年。
William Fedus,Barret Zoph和Noam Shazeer。Switch transformers:利用简单高效的稀疏性扩展到万亿参数模型。机器学习研究杂志,23(120):1-39,2022年。网址http://jmlr.org/papers/v23/21-0998.html。
Suzanne Fricke. Semantic scholar. Journal of the Medical Library Association: JMLA, 106(1):145, 2018.
Paul Gauthier. aider, 2024. URL https://github.com/paul-gauthier/aider.Karan Girotra, Lennart Meincke, Christian Terwiesch和Karl T Ulrich. Ideas are dimes a dozen: Large language models for idea generation in innovation. Available at SSRN 4526071, 2023.深度前馈神经网络训练的困难。网络。在第十三届人工智能和统计国际会议论文集中的页面249-256。JMLR研讨会和会议文集,2010年。
Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville和Yoshua Bengio. 生成对抗网络。在Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence和K.Q. Weinberger编辑,Advances in Neural Information Processing Systems,27卷。2014年Curran Associates, Inc.。URL https://proceedings.neurips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf。
DeepMind团队的 Gemini。Gemini:一系列高度能力的多模态模型,2023年。
Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, and Arash Vahdat. Diffit: Diffusion vision transformers for image generation, 2024. URL https://arxiv.org/abs/2312.02139.
Tomas Hayes, Roshan Rao, Halil Akin, Nicholas J Sofroniew, Deniz Oktay, Zeming Lin, Robert Verkuil, Vincent Q Tran, Jonathan Deaton, Marius Wiggert等人。用语言模型模拟5亿年的演化。bioRxiv,页面2024-07,2024年。
Automl:现状综述。机器学习系统,212:106622,2021。
Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In H. Larochelle,乔纳森·何、阿杰·詹和皮特·阿贝尔。去噪扩散概率模型。在H. Larochelle的。
M. Ranzato, R. Hadsell, M.F. Balcan, and H. Lin, editors, Advances in Neural Information ProcessingM. Ranzato, R. Hadsell, M.F. Balcan 和 H. Lin 编辑,《神经信息处理的进展》。
Systems, volume 33, pages 6840–6851. Curran Associates, Inc., 2020. URL https://proceedings.neurips.cc/paper/2020/file/4c5bcfec8584af0d967f1ab10179ca4b-Paper.pdf.
Jia-Bin Huang.深度图论。arXiv预印本 arXiv:1812.08775,2018。
Qian Huang, Jian Vora, Percy Liang, and Jure Leskovec. Mlagentbench: Evaluating language agents on machine learning experimentation. In Forty-first International Conference on Machine Learning, 2024.自动化机器学习:方法、系统、挑战。Springer Nature,2019。
Marcus Hutter. The hutter prize, 2006. URL http://prize.hutter1.net.
威廉·斯坦利·杰文斯。《科学原理:逻辑与科学方法论》,麦克米兰出版公司,1877年。
阿尔伯特·江、亚历山大·萨布拉约、安托万·鲁、亚瑟·门施、布兰奇·萨瓦里、克里斯·班福德。
德文德拉辛格·查普洛特,迭戈·德拉斯卡斯,埃玛·布汉娜,弗洛里安·布雷桑德,吉安娜·伦格耶尔。
Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux,
Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, and William El Sayed. Mixtral of experts, 2024. URL https://arxiv.org/abs/2401.04088.
Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, and Karthik Narasimhan. Swe-bench: Can language models resolve real-world github issues?, 2024. URL https://arxiv.org/abs/2310.06770.
John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko等人。 使用AlphaFold实现高精度的蛋白质结构预测。自然, 2021, 596(7873):583-589。
Andrej Karpathy。2015年。《循环神经网络的不合理有效性》。URL https://karpathy.github.io/2015/05/21/rnn-effectiveness/.
Andrej Karpathy. NanoGPT, 2022. URL https://github.com/karpathy/nanoGPT.
本凯霍,萨钦帕蒂尔,皮特尔阿贝尔和肯·戈德堡。《云机器人和自动化研究综述》。IEEE自动化科学与工程交易,12(2):398–409,2015。
Diederik P. Kingma和Max Welling. Auto-Encoding Variational Bayes. 在第二届国际学习表示会议ICLR 2014,加拿大班夫,2014年4月14-16日,会议跟踪论文集,2014年。
Louis Kirsch, Sjoerd van Steenkiste, and Jürgen Schmidhuber. Improving generalization in meta reinforcement learning using learned objectives. arXiv preprint arXiv:1910.04098, 2019.
Robert Lange, Tom Schaul, Yutian Chen, Chris Lu, Tom Zahavy, Valentin Dalibard, and Sebastian Flennerhag. Discovering attention-based genetic algorithms via meta-black-box optimization.在遗传与进化计算会议论文集,页码929-937,2023a。
Robert Lange, Tom Schaul, Yutian Chen, Tom Zahavy, Valentin Dalibard, Chris Lu, Satinder Singh, and Sebastian Flennerhag.通过元黑匣优化发现进化策略。在遗传和进化计算会议的伴随会议论文集中,第29-30页,2023b。
Robert Tjarko Lange、Yingtao Tian和Yujin Tang。大型语言模型作为进化策略。arXiv预印本arXiv:2402.18381,2024年。
Joel Lehman, Kenneth O Stanley等人。利用开放性来通过寻找新颖性解决问题。在 ALIFE 中,第 329–336 页,2008年。
Joel Lehman, Jeff Clune, Dusan Misevic, Christoph Adami, Lee Altenberg, Julie Beaulieu, Peter J Bentley, Samuel Bernard, Guillaume Beslon, David M Bryson等人。《数字演化的令人惊讶创造力:进化计算与人工生命研究社区的一系列轶事》。《人工生命》, 26(2):274–306, 2020.
Joel Lehman, Jonathan Gordon, Shawn Jain, Kamal Ndousse, Cathy Yeh,和Kenneth O. Stanley。Evolution through large models, 2022. URL https://arxiv.org/abs/2206.08896.
Joel Lehman, Jonathan Gordon, Shawn Jain, Kamal Ndousse, Cathy Yeh, and Kenneth O Stanley.乔尔·莱曼、乔纳森·戈登、肖恩·詹恩、卡玛尔·恩杜斯、凯西·叶和肯尼斯·O·斯坦利。
通过大型模型进化。在《进化机器学习手册》第331-366页。Springer,2023年。
Weixin Liang, Yuhui Zhang, Hancheng Cao, Binglu Wang, Daisy Yi Ding, Xinyu Yang, Kailas Vodrahalli, Siyu He, Daniel Scott Smith, Yian Yin等人。大型语言模型能否为研究论文提供有用的反馈?一项大规模的实证分析。NEJM人工智能,第AIoa2400196页,2024年。
Bryan Lim, Manon Flageat和Antoine Cully. 大型语言模型作为上下文AI生成器用于质量多样性。arXiv预印本arXiv:2404.15794,2024年。
Llama团队。Llama 3模型群,2024。网址 https://arxiv.org/abs/2407.21783。
Chris Lu, Jakub Kuba, Alistair Letcher, Luke Metz, Christian Schroeder de Witt,和 Jakob Foerster. 发现了策略优化。 Advances in Neural Information Processing Systems, 35:16455–16468, 2022a.
Chris Lu, Samuel Holt, Claudio Fanconi, Alex J Chan, Jakob Foerster, Mihaela van der Schaar和 Robert Tjarko Lange. 使用大型语言模型发现偏好优化算法。arXiv预印本arXiv:2406.08414,2024a。
Cong Lu, Philip Ball, Jack Parker-Holder, Michael Osborne和Stephen J. Roberts. 重新审视离线模型驱动的强化学习中的设计选择。在2022年国际学习表示会议上。URL https://openreview.net/forum?id=zz9hXVhf40。
Cong Lu, Shengran Hu,和 Jeff Clune. 智能探索:站在巨人基础模型的肩膀上,2024b。URL https://arxiv.org/abs/2405.15143.
Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan和 Anima Anandkumar。Eureka: Human-level reward design via coding large language models. arXiv preprint arXiv:2310.12931, 2023.
Matt Mahoney。有关测试数据,2011年。网址http://mattmahoney.net/dc/textdata.html。Daniel May。grokking,2022年。网址https://github.com/danielmamay/grokking。
Amil Merchant, Simon Batzner, Samuel S Schoenholz, Muratahan Aykol, Gowoon Cheon和Ekin Dogus Cubuk. Scaling deep learning for materials discovery. Nature, 624(7990):80–85, 2023.
Luke Metz, James Harrison, C Daniel Freeman, Amil Merchant, Lucas Beyer, James Bradbury, Naman
Agrawal, Ben Poole, Igor Mordatch, Adam Roberts, et al. Velo: Training versatile learned optimizers by scaling up. arXiv预印本arXiv:2211.09760, 2022.
Catherine Olsson, Nelson Elhage, Neel Nanda, Nicholas Joseph, Nova DasSarma, Tom Henighan, Ben Mann, Amanda Askell, Yuntao Bai, Anna Chen等。在上下文学习和感知头部。arXiv预印本arXiv:2209.11895 2022OpenAI。Gpt-4技术2023年
Tanel Pärnamaa. tiny-diffusion, 2023. URL https://github.com/tanelp/tiny-diffusion.
Alethea Power, Yuri Burda, Harri Edwards, Igor Babuschkin,和 Vedant Misra. Grokking: Generalization beyond overfitting on small algorithmic datasets. arXiv 预印本 arXiv:2201.02177, 2022.
Edward O Pyzer-Knapp, Jed W Pitera, Peter WJ Staar, Seiji Takeda, Teodoro Laino, Daniel P Sanders, James Sexton, John R Smith, and Alessandro Curioni.加速材料发现:利用人工智能、高性能计算和机器人技术。npj 计算材料学,8(1):84,2022。
Bernardino Romera-Paredes, Mohammadamin Barekatain, Alexander Novikov, Matej Balog, M PawanKumar, Emilien Dupont, Francisco JR Ruiz, Jordan S Ellenberg, Pengming Wang, Omar Fawzi等。利用大型语言模型进行程序搜索的数学发现。自然,625(7995):468-475,2024年。
Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Eric Hambro, Luke Zettlemoyer, Nicola Cancedda, and Thomas Scialom. Toolformer: Language models can teach themselves to use tools. Advances in Neural Information Processing Systems,36,2024.
Jürgen Schmidhuber.好奇心模型构建控制系统。在神经网络国际联合会议论文集中,页码1458-1463,1991年。
Jürgen Schmidhuber.基于创造力形式理论的人工科学家与艺术家。在第三届人工通用智能会议(AGI-2010)上,第148至153页。Atlantis Press,2010a。
Jürgen Schmidhuber.创造力、乐趣和内在动机的形式理论(1990-2010)。IEEE自主心智发展交易,2(3):230-247,2010b。
Jürgen Schmidhuber。当创造性机器超越人类,2012。URL https://www.youtube.com/watch?v=KQ35zNlyG-o.
Noah Shinn, Federico Cassano, Ashwin Gopinath, Karthik Narasimhan, and Shunyu Yao. Reflexion:语言智能体与语言强化学习。Advances in Neural Information Processing Systems,36,2024.
Charlie Snell. grokking, 2021. URL https://github.com/Sea-Snell/grokking.Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan,和 Surya Ganguli. 使用非平衡热力学进行深度无监督学习。 在Francis Bach和David Blei编辑的《第32届国际机器学习会议论文集》中,第37卷机器学习研究论文集,页码2256–2265,法国里尔,2015年7月9日。PMLR. URL https://proceedings.mlr.press/v37/sohl-dickstein15.html.
Xingyou Song, Yingtao Tian, Robert Tjarko Lange, Chansoo Lee, Yujin Tang,和 Yutian Chen. 位置论文:利用基础模型进行黑盒优化:益处、挑战和未来方向. arXiv预印本 arXiv:2405.03547, 2024.
肯尼斯·奥·斯坦利。为什么开放性至关重要。人工生命,第25卷第3期:232-235,2019年。
肯尼斯·O·斯坦利和乔尔·莱曼。为什么伟大无法被计划:客观性的神话。斯普林格,2015年。
开放性:您从未听说过的最后一个大挑战。Kenneth O Stanley,Joel Lehman 和 Lisa Soros,2017。
Alon Talmor, Jonathan Herzig, Nicholas Lourie和Jonathan Berant。CommonsenseQA: 一个针对常识知识的问答挑战。在Jill Burstein、Christy Doran和Thamar Solorio编辑的《2019年北美分会议文集》中。
计算语言学协会:人类语言技术,第1卷(长篇和短篇论文),第4149-4158页,明尼阿波利斯,明尼苏达州,2019年6月。计算语言学协会。doi:10.18653/v1/N19-1421。URL https://aclanthology.org/N19-1421。
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017.阿希什·瓦斯瓦尼,诺姆·沙泽尔,尼基·帕马尔,雅各布·乌斯兹科雷特,利昂·琼斯,艾丹·N·戈麦斯,鲁卡斯·凯泽和伊利亚·波洛苏汗。关注力就是你所需要的一切。神经信息处理系统进展,第30卷,2017年。
思考全球,行动本地:基于高维分类和混合搜索空间的贝叶斯优化。在机器学习国际会议上,10663-10674页。PMLR出版,2021年。
星辰宛,从陆,杰克·帕克-霍尔德,菲利普·J.鲍尔,阮翌,茹彬馨和迈克尔·奥斯本。贝叶斯生成式人口训练。在伊莎贝尔·盖恩,马里乌斯·林道尔,米哈埃拉·范德·沙尔,弗兰克·胡特和罗曼·加内特编辑,第一届国际自动机器学习会议论文集,机器学习研究论文集第188卷,第14/1至27页。PMLR,2022年7月25日至27日。网址:https://proceedings.mlr.press/v188/wan 22a.html。
雷旺,陈马,薛阳风,泽宇张,浩扬,景森张,智远陈,佳恺汤,徐晨,燕凯林等人。基于大型语言模型的自主智能体调查。计算机科学前沿,18(6):186345,2024年。
王雪志,魏煜,Dale Schuurmans,乐趣,Ed Chi,Sharan Narang,Aakanksha Chowdhery和Denny Zhou。自一致性改善语言模型中的思维链推理。arXiv预印本arXiv:2203.11171,2022年。
Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou等人。连贯思维提示在大型语言模型中引发推理。神经信息处理系统进展,35:24824–24837,2022。
Frank F Xu, Uri Alon, Graham Neubig, and Vincent Josua Hellendoorn. A systematic evaluation of large language models of code. In Proceedings of the 6th ACM SIGPLAN International Symposium on Machine Programming, pages 1–10, 2022.
Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee, Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard Hasenclever, Jan Humplik等。针对机器人技能合成的语言到奖励。arXiv预印本arXiv:2306.08647,2023年。
Seniha Esen Yuksel, Joseph N Wilson, and Paul D Gader. Twenty years of mixture of experts. IEEE transactions on neural networks and learning systems, 23(8):1177–1193, 2012.二十年的专家混合模型研究。IEEE神经网络与学习系统交易,23(8):1177–1193,2012。
Jenny Zhang, Joel Lehman, Kenneth Stanley, and Jeff Clune. OMNI: Open-endedness via models of human notions of interestingness. In The Twelfth International Conference on Learning Representations, 2024. URL https://openreview.net/forum?id=AgM3MzT99c.Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric Xing等人。使用mt-bench和chatbot arena评估llm-as-a-judge。神经信息处理系统进展, 第36卷, 2024年。
齐浩朱,大雅郭,志宏邵,德健杨,佩宜王,润欣徐,Y吴,玉坤李,华佐Gao, Shirong Ma等。Deepseek-coder-v2: 打破代码智能中封闭源模型的障碍。arXiv预印本arXiv:2406.11931,2024年。
Piero Zucchelli, Giorgio Horak和 Nigel Skinner。高度多功能的基于云的自动化解决方案,用于在新冠疫情期间远程设计和执行实验方案。SLAS TECHNOLOGY:转化生命科学创新,26(2):127–139,2021。