LoongFlow 登顶 MLE-Bench 全球榜首，成 TOP5 中唯一开源 Agent 开发框架

Ne0inhk

21 Mar 2026 — 17 min read

百度百舸开源的 LoongFlow 登顶 MLE-bench 全球榜首！其驱动的 ML Agent 斩获 26 块金牌，成为榜单 TOP5 中唯一开源智能体，测试过程中采用 Gemini-3-Flash-Preview 模型，成本仅为其他 Agent 使用的 Gemini-3-Pro-Preview 的 1/4。

LoongFlow 核心依托 PES 闭环（Planner-Executor-Summary）与混合进化记忆机制，复刻顶尖算法工程师思维，实现定向进化探索并高效解决长程复杂问题。

在工业落地中，LoongFlow 在百度 GPU 集群的故障预测场景中成效显著，将昇腾 910B 故障预测准确率从 38.5% 提升至 62%，英伟达 H800 从 60% 提升至 83.72%。

在衡量 AI Agent 机器学习（ML）工程能力的金标准——OpenAI MLE-bench 最新榜单中，百度百舸团队开源的 LoongFlow 正式登顶全球第一，同时公开了此次测试的 ML 实验代码。

MLE-bench 榜单：https://github.com/openai/mle-bench/blob/main/README.md
ML Agent 代码实现：https://github.com/baidu-baige/LoongFlow/tree/main/agents/ml_agent

作为榜单 TOP 阵营中唯一开源的智能体，LoongFlow 的胜出并非偶然的刷榜，而是一个在更低模型成本条件下、能够多次稳定复现高分的成熟系统。

它证明了：决定 Agent 上限的从不是单次运气或模型参数规模，而是其是否具备「专家级思考」的能力。

1. MLE-bench：不是比「聪明」，而是比谁更像专家

作为 OpenAI 推出的权威基准测试，MLE-bench 是当前衡量 Agent 机器学习工程能力最严苛的标准，它从不是一个「会写代码就能得分」的简单评测，而是直接使用 75 场真实 Kaggle 竞赛任务，覆盖计算机视觉、自然语言处理、时间序列预测等多个前沿领域。

在 MLE-bench 的考核中，Agent 需要独立完成从数据探索（EDA）、特征工程、模型设计，到训练验证、调优集成的全流程，还要在 24 小时的时间限制内持续迭代并提交最终结果。

这意味着 Agent 面对的是高度不确定、强噪声、无法脚本化的长程任务，很多系统折戟于此，并非「能力不足」，而是容易出现逻辑中途崩溃、失败经验无法复用、高分难以稳定复现等问题。

2. 登顶绝非偶然：成绩背后的三大关键信号

此次评测中，LoongFlow 驱动的 ML Agent 交出了一组极具「反直觉」的结果组合：奖杯率 62.66% 刷新纪录获得第一，且斩获 26 块金牌；是 TOP5 中唯一开源 Agent；使用更低成本模型配置且稳定复现测试结果。

高金牌率，意味着 Agent 锚定目标、有效探索；低模型成本，LoongFlow 采用 Gemini-3-Flash-Preview 模型完成训练推理，成本仅为 Gemini-3-Pro-Preview 的 1/4，这一数据直接印证系统决策高效、执行可控；稳定复现，则说明结果绝非偶然，而是经验积累的必然。

LoongFlow 的核心，就是用架构设计让 AI 彻底告别随机漫步，实现高效的定向进化探索。

3. 设计哲学：模拟顶尖算法工程师的「定向进化探索」

LoongFlow 的核心突破在于它不再是被动执行超参数搜索的「调参工具」，而是构建了一套机器学习专家思维逻辑的自主进化架构。

在传统的 ML 研发中，工程师需要在大脑中构建从数据探索到模型优化的完整链路，并根据实验结果动态调整策略。LoongFlow 正是抓住了这一专家工作的核心逻辑，通过其核心的 PES 闭环（Planner-Executor-Summary）与进化记忆机制，实现了定向进化探索，使得 ML Agent 能够高效、稳定地解决长程复杂问题。

当前的 Agent 系统虽然也能尝试完整的 ML 流程，但面临三个核心问题：规划短视、长程崩溃、经验孤立。LoongFlow 的 PES 闭环从架构层面解决了这些通用难题 —— Planner 实现战略级规划，Executor 保障长程执行的稳定性，Summary 让经验得以积累与复用。

更关键的是，LoongFlow 将一系列针对机器学习的特化设计深度融入 PES 的每个环节：Planner 将任务分解为数据、验证、特征、训练、集成、编排六个正交阶段并制定优化策略，Executor 按阶段执行与评估，Summary 沉淀可复用的领域经验。正是通用架构 + 领域特化的深度融合，才让 LoongFlow 在机器学习领域实现了真正的专家级表现。

3.1 PES 闭环：模拟专家工作流的三大能力

3.1.1. Planner：像专家一样「战略规划」

机器学习专家在接到 ML 任务时，不会立即动手写代码，而是先进行系统性分析。LoongFlow 的 Planner 正是模拟了这种战略思维。

正交分解与数据驱动：Planner 将复杂的 ML 任务拆解为 6 个正交阶段：数据加载、验证策略、特征工程、模型训练、模型集成、流程编排。每个阶段有明确的输入输出契约，可以独立优化而不引发连锁影响。更关键的是，Planner 主动调用 EDA 工具深度分析数据特征，让技术选择建立在数据证据之上 —— 高维稀疏数据触发线性模型，图像数据触发卷积架构，时序数据触发循环网络。这种数据驱动的决策机制，避免了传统工具的盲目尝试。
结构化推理范式：专家在制定方案前，会强制自己完成系统性思考。Planner 设计了强制性的结构化分析框架：必须完成历史诊断（父代和兄弟方案的探索轨迹与效果归因）、任务诊断（从数据特性推导技术约束条件）、瓶颈诊断（理论上限与实际性能差距分析）、方向决策（深化当前路径还是探索新方向的战略判断）、复用决策（历史方案的互补性评估）、实施规划（改进意图到阶段级修改的精确映射）。这个框架保证了三个关键要素：推理质量（禁止跳过分析直接输出结论）、输出结构化（便于后续的查询、对比与复用）、决策可追溯（每个决策都有完整的证据链条）。这不是「拍脑袋」的直觉判断，而是基于证据的系统性战略分析。当单一方向优化遇到瓶颈时，Planner 还能启动 Fusion 模式，从历史方案中选择互补的模型进行精准复用。

3.1.2. Executor：像专家一样「渐进式实现」

机器学习专家不会一次性写完整个 ML Pipeline，而是按 Planner 设计的计划分阶段实现、逐步验证。LoongFlow 的 Executor 正是模拟了这种渐进式工作方式。

阶段化生成与依赖传递：一次性生成完整 Pipeline 意味着生成数百上千行代码，代码长度与出错概率呈非线性增长，出错后的定位成本极高。Executor 将 Pipeline 拆解为 6 个阶段，每个阶段配备独立的代码生成子 Agent。关键设计在于：依赖链式传递机制 —— 前一阶段的完整实现会自动成为后一阶段的生成上下文。这带来三个核心优势：代码量可控、依赖明确（精确感知前序输出）、渐进式验证（快速定位问题）。
上下文工程与智能纠错：Executor 为每个阶段配备了精心设计的上下文工程体系（Context Engineering）：任务语义、EDA 洞察、战略指令、父代码参考、依赖代码、硬件约束。这种上下文感知的设计，让生成的代码具备「全局视野」。同时，专用验证器编码了 ML 领域的最佳实践，验证失败后进行分类诊断：依赖缺失触发自动安装，逻辑错误反馈完整上下文进行针对性修复，形成「错误 - 诊断 - 修复」的智能循环。

3.1.3. Summary：像专家一样「反思与沉淀」

机器学习专家在完成实验后会先反思：这次改动为什么有效？哪些经验可以复用？下次应该往哪个方向走？LoongFlow 的 Summary 正是模拟了这种反思能力。

五维度知识提取：Summary 通过五个维度系统性地提取经验：构建方案的技术指纹，记录技术特征；进行根因分析，建立因果理解；沉淀关键学习，提取可迁移的 ML 洞察；给出可执行指导，提供具体的优化路径；记录融合画像，为 Fusion 决策提供数据基础。这些知识不会随实验结束消失，而是进入混合进化记忆系统这一系统长期记忆，成为后续迭代的重要依据。
动态平衡机制：Summary 的自适应权重机制实现了搜索策略的动态平衡：早期大胆探索不同方向，中期在已知好方案和新方向之间平衡，后期聚焦高分方案的精细优化，让系统在「利用」和「探索」之间智能切换。

LoongFlow 的 PES 闭环架构重新定义了 ML 自动化：从「试错式代码生成」跨越到「战略性方案设计」，让机器像机器学习专家一样思考、执行、进化。

3.2. 混合进化记忆系统：不是记住答案，而是记住「思路版图」

如果说 PES 认知闭环负责保障单次迭代的质量，那么混合进化记忆系统，就是决定整个探索过程的效率的关键。LoongFlow 的记忆系统，并非简单存储过往的「最优解」，而是通过三大核心设计，构建了一套体系化的经验管理体系，让 AI 的每一次探索都站在「过往经验」的肩膀上：

多岛模型：建立多个独立的「探索特区」，允许不同技术路线并行发展，相互隔离又定期交流，保持探索的多样性，避免思维过早趋同；
MAP-Elites：如同多维的「杰出方案陈列馆」，不仅按成绩归档方案，更会根据算法复杂度、计算效率等行为特征分类，让那些某一特性表现极佳的方案也能被留存，为跨界创新保留火种；
自适应玻尔兹曼选择：作为智能的「资源调度官」，根据种群探索的实时状态动态调节参数，智能切换策略 —— 是全局开拓新方向，还是局部深耕最优解，实现探索与利用的动态平衡。

正是 PES 这一通用专家级思考方式在机器学习领域的精准落地，与混合进化记忆系统的深度耦合、协同赋能，让 LoongFlow 实现了从「随机演化」到「定向进化探索」的跨越，能用更少的尝试，覆盖更大的有效解空间，这也是其能在 MLE-bench 中实现低成本、高稳定性、高胜率的核心密码。

4. 从榜单到落地：GPU 故障预测的工业级实践验证

MLE-bench 的亮眼成绩，只是 LoongFlow 能力的一次实验室验证，而在真实的工业生产环境中，LoongFlow 早已完成从「打榜神器」到「生产力引擎」的转变。在百度内部超大规模算力集群的 GPU 故障预测场景中，LoongFlow 直面行业痛点，展现了极致的专家级能力。

在动辄数千卡的 GPU 集群中，不同代际硬件混合部署，每块卡产生的温度、功耗、显存使用等海量遥测数据中，隐藏着故障早期信号，但传统方案始终难以破解难题：阈值告警误报率高、隐性故障易遗漏；针对不同 GPU 型号手动建模，迭代周期长达数周；训练负载动态变化，静态模型极易失效。

面对这一复杂的时序异常检测问题，LoongFlow 驱动的 ML-Agent 实现了全流程自主破局，无需人工干预：自主完成多维遥测数据的分析与特征挖掘，识别不同 GPU 型号的故障模式差异；针对昇腾 910B、英伟达 H800 等不同硬件，自主尝试从传统统计方法到深度时序模型的多种技术路线，根据数据特性选择最优方案；通过 PES 闭环持续从预测失败案例中学习，自动调整策略并实现性能迭代。

最终，LoongFlow 驱动的 GPU 故障检测系统交出了突破性的成果：

昇腾 910B：故障预测准确率从 38.5% 跃升至 62%，提升幅度达 61%。
英伟达 H800：故障预测准确率从 60% 提升至 83.72%，提升幅度达 39.5%。

更重要的是，这并非一个「调参调出来的固定模型」，而是一个能随数据积累、业务演进持续进化的智能系统，为百度大模型研发大幅降低算力成本，减少训练中断，提升集群利用率。

5. 能力泛化：重新定义机器学习工作流

在百度内部的多个场景中，LoongFlow 正在验证其在不同类型 ML 任务中的适应性。LoongFlow 的价值不仅在于「做得好」，更在于「做得快」：

复杂工业场景：像 GPU 故障预测这样的高维时序、多模态数据问题，传统方式需要资深算法工程师数周的特征工程和模型调优，LoongFlow 将这个周期极致压缩，且无需人工干预。
快速原型验证：当业务团队有新的 ML 需求时，从想法到可用的 baseline 模型，LoongFlow 能够在很短时间完成端到端的实验闭环，让团队快速验证技术可行性。
持续优化迭代：随着数据的积累和业务场景的演进，LoongFlow 的自进化机制能够让模型性能持续提升，而不是「训练一次就固化」。

更深层的意义在于技术门槛的消解：领域专家（如运维工程师、业务分析师）可以专注于定义问题和业务逻辑，而将繁琐的数据清洗、特征工程、模型选择、超参调优等 ML 工程细节交给 LoongFlow 自主完成。这让机器学习真正从「少数算法专家的专利」走向「每个领域专家的生产力工具」。

6. 快速上手：三步启动你的专家级 Agent

LoongFlow 已全面开源，提供开箱即用的 ML Agent。开发者只需三步，即可快速开启全自主的机器学习研发之旅，体验「专家级思考」带来的效率革命：

第一步：环境准备

LoongFlow 需要 Mamba 环境管理器。如果还没安装，请先安装 Miniforge。

Miniforge 地址：https://github.com/conda-forge/miniforge

 # 克隆仓库 git clone https://github.com/baidu-baige/LoongFlow cd LoongFlow # 自动创建 mamba 环境并安装依赖 ./run_ml.sh init

第二步：LLM 配置

LoongFlow 支持 OpenAI、DeepSeek、Gemini 等主流大模型。编辑配置文件填入 API 凭证：

vim agents/ml_evolve/examples/ml_example/task_config.yaml

核心配置

  url: "http://your-llm-api/v1"   api_key: "your-api-key"   model: "openai/gemini-3-flash-preview"

第三步：启动任务

LoongFlow 会自动完成数据探索、特征工程、模型训练、集成优化的全流程，并持续进化直到达到最佳效果。所有结果保存在 output/ 目录。

# 运行演示任务（Iris 分类） ./run_ml.sh run ml_example --background # 监控进化过程 tail -f output/logs/evolux.log

7. 结语：从随机试错，到定向进化探索

LoongFlow 在 MLE-bench 的刷新记录，从来不是一次偶然的工程胜利，而是对一种全新智能体发展范式的验证：当 Agent 学会系统性的专家级思考，解决复杂问题的解法，将不再依赖运气和算力的堆叠。

我们相信，未来真正具备生产力的 AI，不仅拥有更高的智力，更能具备如同人类顶尖工程师一般的「专家级思考能力」—— 懂得如何一步步逼近正确答案，如何从失败中学习，如何持续进化。而 LoongFlow，正希望成为这条道路上的核心基础设施，让每一个有数据、有目标的团队，都能拥有一个「永不疲倦、持续进化」的专家级 AI 助手。

目前，LoongFlow 的完整代码、文档与 Demo 已在 GitHub 开源，诚邀全球开发者、研究人员与行业专家加入，共同定义 AI 的专家级思考未来。

访问 GitHub：详细代码、文档与示例 https://github.com/baidu-baige/LoongFlow

阅读技术报告：深入了解设计原理 https://arxiv.org/abs/2512.24077