LoongFlow 登顶 MLE-Bench 全球榜首,成 TOP5 中唯一开源 Agent 开发框架
百度百舸开源的 LoongFlow 登顶 MLE-bench 全球榜首!其驱动的 ML Agent 斩获 26 块金牌,成为榜单 TOP5 中唯一开源智能体,测试过程中采用 Gemini-3-Flash-Preview 模型,成本仅为其他 Agent 使用的 Gemini-3-Pro-Preview 的 1/4。
LoongFlow 核心依托 PES 闭环(Planner-Executor-Summary)与混合进化记忆机制,复刻顶尖算法工程师思维,实现定向进化探索并高效解决长程复杂问题。
在工业落地中,LoongFlow 在百度 GPU 集群的故障预测场景中成效显著,将昇腾 910B 故障预测准确率从 38.5% 提升至 62%,英伟达 H800 从 60% 提升至 83.72%。
在衡量 AI Agent 机器学习(ML)工程能力的金标准——OpenAI MLE-bench 最新榜单中,百度百舸团队开源的 LoongFlow 正式登顶全球第一,同时公开了此次测试的 ML 实验代码。
- MLE-bench 榜单:https://github.com/openai/mle-bench/blob/main/README.md
- ML Agent 代码实现:https://github.com/baidu-baige/LoongFlow/tree/main/agents/ml_agent
作为榜单 TOP 阵营中唯一开源的智能体,LoongFlow 的胜出并非偶然的刷榜,而是一个在更低模型成本条件下、能够多次稳定复现高分的成熟系统。
它证明了:决定 Agent 上限的从不是单次运气或模型参数规模,而是其是否具备「专家级思考」的能力。

1. MLE-bench:不是比「聪明」,而是比谁更像专家
作为 OpenAI 推出的权威基准测试,MLE-bench 是当前衡量 Agent 机器学习工程能力最严苛的标准,它从不是一个「会写代码就能得分」的简单评测,而是直接使用 75 场真实 Kaggle 竞赛任务,覆盖计算机视觉、自然语言处理、时间序列预测等多个前沿领域。
在 MLE-bench 的考核中,Agent 需要独立完成从数据探索(EDA)、特征工程、模型设计,到训练验证、调优集成的全流程,还要在 24 小时的时间限制内持续迭代并提交最终结果。
这意味着 Agent 面对的是高度不确定、强噪声、无法脚本化的长程任务,很多系统折戟于此,并非「能力不足」,而是容易出现逻辑中途崩溃、失败经验无法复用、高分难以稳定复现等问题。
2. 登顶绝非偶然:成绩背后的三大关键信号
此次评测中,LoongFlow 驱动的 ML Agent 交出了一组极具「反直觉」的结果组合:奖杯率 62.66% 刷新纪录获得第一,且斩获 26 块金牌;是 TOP5 中唯一开源 Agent;使用更低成本模型配置且稳定复现测试结果。
高金牌率,意味着 Agent 锚定目标、有效探索;低模型成本,LoongFlow 采用 Gemini-3-Flash-Preview 模型完成训练推理,成本仅为 Gemini-3-Pro-Preview 的 1/4,这一数据直接印证系统决策高效、执行可控;稳定复现,则说明结果绝非偶然,而是经验积累的必然。
LoongFlow 的核心,就是用架构设计让 AI 彻底告别随机漫步,实现高效的定向进化探索。
3. 设计哲学:模拟顶尖算法工程师的「定向进化探索」
LoongFlow 的核心突破在于它不再是被动执行超参数搜索的「调参工具」,而是构建了一套机器学习专家思维逻辑的自主进化架构。
在传统的 ML 研发中,工程师需要在大脑中构建从数据探索到模型优化的完整链路,并根据实验结果动态调整策略。LoongFlow 正是抓住了这一专家工作的核心逻辑,通过其核心的 PES 闭环(Planner-Executor-Summary)与进化记忆机制,实现了定向进化探索,使得 ML Agent 能够高效、稳定地解决长程复杂问题。
当前的 Agent 系统虽然也能尝试完整的 ML 流程,但面临三个核心问题:规划短视、长程崩溃、经验孤立。LoongFlow 的 PES 闭环从架构层面解决了这些通用难题 —— Planner 实现战略级规划,Executor 保障长程执行的稳定性,Summary 让经验得以积累与复用。
更关键的是,LoongFlow 将一系列针对机器学习的特化设计深度融入 PES 的每个环节:Planner 将任务分解为数据、验证、特征、训练、集成、编排六个正交阶段并制定优化策略,Executor 按阶段执行与评估,Summary 沉淀可复用的领域经验。正是通用架构 + 领域特化的深度融合,才让 LoongFlow 在机器学习领域实现了真正的专家级表现。

3.1 PES 闭环:模拟专家工作流的三大能力
3.1.1. Planner:像专家一样「战略规划」
机器学习专家在接到 ML 任务时,不会立即动手写代码,而是先进行系统性分析。LoongFlow 的 Planner 正是模拟了这种战略思维。
- 正交分解与数据驱动:Planner 将复杂的 ML 任务拆解为 6 个正交阶段:数据加载、验证策略、特征工程、模型训练、模型集成、流程编排。每个阶段有明确的输入输出契约,可以独立优化而不引发连锁影响。更关键的是,Planner 主动调用 EDA 工具深度分析数据特征,让技术选择建立在数据证据之上 —— 高维稀疏数据触发线性模型,图像数据触发卷积架构,时序数据触发循环网络。这种数据驱动的决策机制,避免了传统工具的盲目尝试。
- 结构化推理范式:专家在制定方案前,会强制自己完成系统性思考。Planner 设计了强制性的结构化分析框架:必须完成历史诊断(父代和兄弟方案的探索轨迹与效果归因)、任务诊断(从数据特性推导技术约束条件)、瓶颈诊断(理论上限与实际性能差距分析)、方向决策(深化当前路径还是探索新方向的战略判断)、复用决策(历史方案的互补性评估)、实施规划(改进意图到阶段级修改的精确映射)。这个框架保证了三个关键要素:推理质量(禁止跳过分析直接输出结论)、输出结构化(便于后续的查询、对比与复用)、决策可追溯(每个决策都有完整的证据链条)。这不是「拍脑袋」的直觉判断,而是基于证据的系统性战略分析。当单一方向优化遇到瓶颈时,Planner 还能启动 Fusion 模式,从历史方案中选择互补的模型进行精准复用。
3.1.2. Executor:像专家一样「渐进式实现」
机器学习专家不会一次性写完整个 ML Pipeline,而是按 Planner 设计的计划分阶段实现、逐步验证。LoongFlow 的 Executor 正是模拟了这种渐进式工作方式。
- 阶段化生成与依赖传递:一次性生成完整 Pipeline 意味着生成数百上千行代码,代码长度与出错概率呈非线性增长,出错后的定位成本极高。Executor 将 Pipeline 拆解为 6 个阶段,每个阶段配备独立的代码生成子 Agent。关键设计在于:依赖链式传递机制 —— 前一阶段的完整实现会自动成为后一阶段的生成上下文。这带来三个核心优势:代码量可控、依赖明确(精确感知前序输出)、渐进式验证(快速定位问题)。
- 上下文工程与智能纠错:Executor 为每个阶段配备了精心设计的上下文工程体系(Context Engineering):任务语义、EDA 洞察、战略指令、父代码参考、依赖代码、硬件约束。这种上下文感知的设计,让生成的代码具备「全局视野」。同时,专用验证器编码了 ML 领域的最佳实践,验证失败后进行分类诊断:依赖缺失触发自动安装,逻辑错误反馈完整上下文进行针对性修复,形成「错误 - 诊断 - 修复」的智能循环。
3.1.3. Summary:像专家一样「反思与沉淀」
机器学习专家在完成实验后会先反思:这次改动为什么有效?哪些经验可以复用?下次应该往哪个方向走?LoongFlow 的 Summary 正是模拟了这种反思能力。
- 五维度知识提取:Summary 通过五个维度系统性地提取经验:构建方案的技术指纹,记录技术特征;进行根因分析,建立因果理解;沉淀关键学习,提取可迁移的 ML 洞察;给出可执行指导,提供具体的优化路径;记录融合画像,为 Fusion 决策提供数据基础。这些知识不会随实验结束消失,而是进入混合进化记忆系统这一系统长期记忆,成为后续迭代的重要依据。
- 动态平衡机制:Summary 的自适应权重机制实现了搜索策略的动态平衡:早期大胆探索不同方向,中期在已知好方案和新方向之间平衡,后期聚焦高分方案的精细优化,让系统在「利用」和「探索」之间智能切换。
LoongFlow 的 PES 闭环架构重新定义了 ML 自动化:从「试错式代码生成」跨越到「战略性方案设计」,让机器像机器学习专家一样思考、执行、进化。

3.2. 混合进化记忆系统:不是记住答案,而是记住「思路版图」
如果说 PES 认知闭环负责保障单次迭代的质量,那么混合进化记忆系统,就是决定整个探索过程的效率的关键。LoongFlow 的记忆系统,并非简单存储过往的「最优解」,而是通过三大核心设计,构建了一套体系化的经验管理体系,让 AI 的每一次探索都站在「过往经验」的肩膀上:
- 多岛模型:建立多个独立的「探索特区」,允许不同技术路线并行发展,相互隔离又定期交流,保持探索的多样性,避免思维过早趋同;
- MAP-Elites:如同多维的「杰出方案陈列馆」,不仅按成绩归档方案,更会根据算法复杂度、计算效率等行为特征分类,让那些某一特性表现极佳的方案也能被留存,为跨界创新保留火种;
- 自适应玻尔兹曼选择:作为智能的「资源调度官」,根据种群探索的实时状态动态调节参数,智能切换策略 —— 是全局开拓新方向,还是局部深耕最优解,实现探索与利用的动态平衡。
正是 PES 这一通用专家级思考方式在机器学习领域的精准落地,与混合进化记忆系统的深度耦合、协同赋能,让 LoongFlow 实现了从「随机演化」到「定向进化探索」的跨越,能用更少的尝试,覆盖更大的有效解空间,这也是其能在 MLE-bench 中实现低成本、高稳定性、高胜率的核心密码。
4. 从榜单到落地:GPU 故障预测的工业级实践验证
MLE-bench 的亮眼成绩,只是 LoongFlow 能力的一次实验室验证,而在真实的工业生产环境中,LoongFlow 早已完成从「打榜神器」到「生产力引擎」的转变。在百度内部超大规模算力集群的 GPU 故障预测场景中,LoongFlow 直面行业痛点,展现了极致的专家级能力。
在动辄数千卡的 GPU 集群中,不同代际硬件混合部署,每块卡产生的温度、功耗、显存使用等海量遥测数据中,隐藏着故障早期信号,但传统方案始终难以破解难题:阈值告警误报率高、隐性故障易遗漏;针对不同 GPU 型号手动建模,迭代周期长达数周;训练负载动态变化,静态模型极易失效。
面对这一复杂的时序异常检测问题,LoongFlow 驱动的 ML-Agent 实现了全流程自主破局,无需人工干预:自主完成多维遥测数据的分析与特征挖掘,识别不同 GPU 型号的故障模式差异;针对昇腾 910B、英伟达 H800 等不同硬件,自主尝试从传统统计方法到深度时序模型的多种技术路线,根据数据特性选择最优方案;通过 PES 闭环持续从预测失败案例中学习,自动调整策略并实现性能迭代。
最终,LoongFlow 驱动的 GPU 故障检测系统交出了突破性的成果:
- 昇腾 910B:故障预测准确率从 38.5% 跃升至 62%,提升幅度达 61%。
- 英伟达 H800:故障预测准确率从 60% 提升至 83.72%,提升幅度达 39.5%。
更重要的是,这并非一个「调参调出来的固定模型」,而是一个能随数据积累、业务演进持续进化的智能系统,为百度大模型研发大幅降低算力成本,减少训练中断,提升集群利用率。
5. 能力泛化:重新定义机器学习工作流
在百度内部的多个场景中,LoongFlow 正在验证其在不同类型 ML 任务中的适应性。LoongFlow 的价值不仅在于「做得好」,更在于「做得快」:
- 复杂工业场景:像 GPU 故障预测这样的高维时序、多模态数据问题,传统方式需要资深算法工程师数周的特征工程和模型调优,LoongFlow 将这个周期极致压缩,且无需人工干预。
- 快速原型验证:当业务团队有新的 ML 需求时,从想法到可用的 baseline 模型,LoongFlow 能够在很短时间完成端到端的实验闭环,让团队快速验证技术可行性。
- 持续优化迭代:随着数据的积累和业务场景的演进,LoongFlow 的自进化机制能够让模型性能持续提升,而不是「训练一次就固化」。
更深层的意义在于技术门槛的消解:领域专家(如运维工程师、业务分析师)可以专注于定义问题和业务逻辑,而将繁琐的数据清洗、特征工程、模型选择、超参调优等 ML 工程细节交给 LoongFlow 自主完成。这让机器学习真正从「少数算法专家的专利」走向「每个领域专家的生产力工具」。
6. 快速上手:三步启动你的专家级 Agent
LoongFlow 已全面开源,提供开箱即用的 ML Agent。开发者只需三步,即可快速开启全自主的机器学习研发之旅,体验「专家级思考」带来的效率革命:
第一步:环境准备
LoongFlow 需要 Mamba 环境管理器。如果还没安装,请先安装 Miniforge。
Miniforge 地址:https://github.com/conda-forge/miniforge
# 克隆仓库 git clone https://github.com/baidu-baige/LoongFlow cd LoongFlow # 自动创建 mamba 环境并安装依赖 ./run_ml.sh init第二步:LLM 配置
LoongFlow 支持 OpenAI、DeepSeek、Gemini 等主流大模型。编辑配置文件填入 API 凭证:
vim agents/ml_evolve/examples/ml_example/task_config.yaml核心配置
url: "http://your-llm-api/v1" api_key: "your-api-key" model: "openai/gemini-3-flash-preview"第三步:启动任务
LoongFlow 会自动完成数据探索、特征工程、模型训练、集成优化的全流程,并持续进化直到达到最佳效果。所有结果保存在 output/ 目录。
# 运行演示任务(Iris 分类) ./run_ml.sh run ml_example --background # 监控进化过程 tail -f output/logs/evolux.log7. 结语:从随机试错,到定向进化探索
LoongFlow 在 MLE-bench 的刷新记录,从来不是一次偶然的工程胜利,而是对一种全新智能体发展范式的验证:当 Agent 学会系统性的专家级思考,解决复杂问题的解法,将不再依赖运气和算力的堆叠。
我们相信,未来真正具备生产力的 AI,不仅拥有更高的智力,更能具备如同人类顶尖工程师一般的「专家级思考能力」—— 懂得如何一步步逼近正确答案,如何从失败中学习,如何持续进化。而 LoongFlow,正希望成为这条道路上的核心基础设施,让每一个有数据、有目标的团队,都能拥有一个「永不疲倦、持续进化」的专家级 AI 助手。
目前,LoongFlow 的完整代码、文档与 Demo 已在 GitHub 开源,诚邀全球开发者、研究人员与行业专家加入,共同定义 AI 的专家级思考未来。
访问 GitHub:详细代码、文档与示例 https://github.com/baidu-baige/LoongFlow
阅读技术报告:深入了解设计原理 https://arxiv.org/abs/2512.24077