LoongFlow 登顶 MLE-Bench 榜首，TOP5 唯一开源 Agent 框架

LoongFlow 登顶 MLE-bench 全球榜首

百度百舸开源的 LoongFlow 登顶 MLE-bench 全球榜首！其驱动的 ML Agent 斩获 26 块金牌，成为榜单 TOP5 中唯一开源智能体。测试过程中采用 Gemini-3-Flash-Preview 模型，成本仅为其他 Agent 使用的 Gemini-3-Pro-Preview 的 1/4。

LoongFlow 核心依托 PES 闭环（Planner-Executor-Summary）与混合进化记忆机制，复刻顶尖算法工程师思维，实现定向进化探索并高效解决长程复杂问题。

在工业落地中，LoongFlow 在百度 GPU 集群的故障预测场景中成效显著，将昇腾 910B 故障预测准确率从 38.5% 提升至 62%，英伟达 H800 从 60% 提升至 83.72%。

1. MLE-bench：不是比「聪明」，而是比谁更像专家

作为 OpenAI 推出的权威基准测试，MLE-bench 是当前衡量 Agent 机器学习工程能力最严苛的标准。它直接使用 75 场真实 Kaggle 竞赛任务，覆盖计算机视觉、自然语言处理、时间序列预测等多个前沿领域。

在 MLE-bench 的考核中，Agent 需要独立完成从数据探索（EDA）、特征工程、模型设计，到训练验证、调优集成的全流程，还要在 24 小时的时间限制内持续迭代并提交最终结果。

这意味着 Agent 面对的是高度不确定、强噪声、无法脚本化的长程任务，很多系统折戟于此，并非「能力不足」，而是容易出现逻辑中途崩溃、失败经验无法复用、高分难以稳定复现等问题。

2. 登顶绝非偶然：成绩背后的三大关键信号

此次评测中，LoongFlow 驱动的 ML Agent 交出了一组极具「反直觉」的结果组合：奖杯率 62.66% 刷新纪录获得第一，且斩获 26 块金牌；是 TOP5 中唯一开源 Agent；使用更低成本模型配置且稳定复现测试结果。

高金牌率，意味着 Agent 锚定目标、有效探索；低模型成本，LoongFlow 采用 Gemini-3-Flash-Preview 模型完成训练推理，成本仅为 Gemini-3-Pro-Preview 的 1/4，这一数据直接印证系统决策高效、执行可控；稳定复现，则说明结果绝非偶然，而是经验积累的必然。

LoongFlow 的核心，就是用架构设计让 AI 彻底告别随机漫步，实现高效的定向进化探索。

3. 设计哲学：模拟顶尖算法工程师的「定向进化探索」

LoongFlow 的核心突破在于它不再是被动执行超参数搜索的「调参工具」，而是构建了一套机器学习专家思维逻辑的自主进化架构。

在传统的 ML 研发中，工程师需要在大脑中构建从数据探索到模型优化的完整链路，并根据实验结果动态调整策略。LoongFlow 正是抓住了这一专家工作的核心逻辑，通过其核心的 PES 闭环（Planner-Executor-Summary）与进化记忆机制，实现了定向进化探索，使得 ML Agent 能够高效、稳定地解决长程复杂问题。

当前的 Agent 系统虽然也能尝试完整的 ML 流程，但面临三个核心问题：规划短视、长程崩溃、经验孤立。LoongFlow 的 PES 闭环从架构层面解决了这些通用难题 —— Planner 实现战略级规划，Executor 保障长程执行的稳定性，Summary 让经验得以积累与复用。

更关键的是，LoongFlow 将一系列针对机器学习的特化设计深度融入 PES 的每个环节：Planner 将任务分解为数据、验证、特征、训练、集成、编排六个正交阶段并制定优化策略，Executor 按阶段执行与评估，Summary 沉淀可复用的领域经验。正是通用架构 + 领域特化的深度融合，才让 LoongFlow 在机器学习领域实现了真正的专家级表现。

3.1 PES 闭环：模拟专家工作流的三大能力

3.1.1 Planner：像专家一样「战略规划」

机器学习专家在接到 ML 任务时，不会立即动手写代码，而是先进行系统性分析。LoongFlow 的 Planner 正是模拟了这种战略思维。

LoongFlow 登顶 MLE-Bench 榜首，TOP5 唯一开源 Agent 框架

LoongFlow 登顶 MLE-bench 全球榜首

1. MLE-bench：不是比「聪明」，而是比谁更像专家

2. 登顶绝非偶然：成绩背后的三大关键信号

3. 设计哲学：模拟顶尖算法工程师的「定向进化探索」

3.1 PES 闭环：模拟专家工作流的三大能力

3.1.1 Planner：像专家一样「战略规划」

更多推荐文章

相关免费在线工具

3.1.2 Executor：像专家一样「渐进式实现」

3.1.3 Summary：像专家一样「反思与沉淀」

3.2 混合进化记忆系统：不是记住答案，而是记住「思路版图」

4. 从榜单到落地：GPU 故障预测的工业级实践验证

5. 能力泛化：重新定义机器学习工作流

6. 快速上手：三步启动你的专家级 Agent

第一步：环境准备

第二步：LLM 配置

第三步：启动任务

7. 结语：从随机试错，到定向进化探索

更多推荐文章

相关免费在线工具

LoongFlow 登顶 MLE-Bench 榜首，TOP5 唯一开源 Agent 框架

LoongFlow 登顶 MLE-bench 全球榜首

1. MLE-bench：不是比「聪明」，而是比谁更像专家

2. 登顶绝非偶然：成绩背后的三大关键信号

3. 设计哲学：模拟顶尖算法工程师的「定向进化探索」

3.1 PES 闭环：模拟专家工作流的三大能力

3.1.1 Planner：像专家一样「战略规划」

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.1.2 Executor：像专家一样「渐进式实现」

3.1.3 Summary：像专家一样「反思与沉淀」

3.2 混合进化记忆系统：不是记住答案，而是记住「思路版图」

4. 从榜单到落地：GPU 故障预测的工业级实践验证

5. 能力泛化：重新定义机器学习工作流

6. 快速上手：三步启动你的专家级 Agent

第一步：环境准备

第二步：LLM 配置

第三步：启动任务

7. 结语：从随机试错，到定向进化探索

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具