LoongFlow 登顶 MLE-bench 全球榜首
百度百舸开源的 LoongFlow 登顶 MLE-bench 全球榜首!其驱动的 ML Agent 斩获 26 块金牌,成为榜单 TOP5 中唯一开源智能体。测试过程中采用 Gemini-3-Flash-Preview 模型,成本仅为其他 Agent 使用的 Gemini-3-Pro-Preview 的 1/4。
LoongFlow 核心依托 PES 闭环(Planner-Executor-Summary)与混合进化记忆机制,复刻顶尖算法工程师思维,实现定向进化探索并高效解决长程复杂问题。
在工业落地中,LoongFlow 在百度 GPU 集群的故障预测场景中成效显著,将昇腾 910B 故障预测准确率从 38.5% 提升至 62%,英伟达 H800 从 60% 提升至 83.72%。
1. MLE-bench:不是比「聪明」,而是比谁更像专家
作为 OpenAI 推出的权威基准测试,MLE-bench 是当前衡量 Agent 机器学习工程能力最严苛的标准。它直接使用 75 场真实 Kaggle 竞赛任务,覆盖计算机视觉、自然语言处理、时间序列预测等多个前沿领域。
在 MLE-bench 的考核中,Agent 需要独立完成从数据探索(EDA)、特征工程、模型设计,到训练验证、调优集成的全流程,还要在 24 小时的时间限制内持续迭代并提交最终结果。
这意味着 Agent 面对的是高度不确定、强噪声、无法脚本化的长程任务,很多系统折戟于此,并非「能力不足」,而是容易出现逻辑中途崩溃、失败经验无法复用、高分难以稳定复现等问题。

2. 登顶绝非偶然:成绩背后的三大关键信号
此次评测中,LoongFlow 驱动的 ML Agent 交出了一组极具「反直觉」的结果组合:奖杯率 62.66% 刷新纪录获得第一,且斩获 26 块金牌;是 TOP5 中唯一开源 Agent;使用更低成本模型配置且稳定复现测试结果。
高金牌率,意味着 Agent 锚定目标、有效探索;低模型成本,LoongFlow 采用 Gemini-3-Flash-Preview 模型完成训练推理,成本仅为 Gemini-3-Pro-Preview 的 1/4,这一数据直接印证系统决策高效、执行可控;稳定复现,则说明结果绝非偶然,而是经验积累的必然。
LoongFlow 的核心,就是用架构设计让 AI 彻底告别随机漫步,实现高效的定向进化探索。
3. 设计哲学:模拟顶尖算法工程师的「定向进化探索」
LoongFlow 的核心突破在于它不再是被动执行超参数搜索的「调参工具」,而是构建了一套机器学习专家思维逻辑的自主进化架构。
在传统的 ML 研发中,工程师需要在大脑中构建从数据探索到模型优化的完整链路,并根据实验结果动态调整策略。LoongFlow 正是抓住了这一专家工作的核心逻辑,通过其核心的 PES 闭环(Planner-Executor-Summary)与进化记忆机制,实现了定向进化探索,使得 ML Agent 能够高效、稳定地解决长程复杂问题。
当前的 Agent 系统虽然也能尝试完整的 ML 流程,但面临三个核心问题:规划短视、长程崩溃、经验孤立。LoongFlow 的 PES 闭环从架构层面解决了这些通用难题 —— Planner 实现战略级规划,Executor 保障长程执行的稳定性,Summary 让经验得以积累与复用。
更关键的是,LoongFlow 将一系列针对机器学习的特化设计深度融入 PES 的每个环节:Planner 将任务分解为数据、验证、特征、训练、集成、编排六个正交阶段并制定优化策略,Executor 按阶段执行与评估,Summary 沉淀可复用的领域经验。正是通用架构 + 领域特化的深度融合,才让 LoongFlow 在机器学习领域实现了真正的专家级表现。

3.1 PES 闭环:模拟专家工作流的三大能力
3.1.1 Planner:像专家一样「战略规划」
机器学习专家在接到 ML 任务时,不会立即动手写代码,而是先进行系统性分析。LoongFlow 的 Planner 正是模拟了这种战略思维。



