跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

LoongFlow 登顶 MLE-Bench 榜首,TOP5 唯一开源 Agent 框架

LoongFlow 在 OpenAI MLE-bench 榜单登顶,是 TOP5 中唯一开源智能体。其核心采用 PES 闭环(规划 - 执行 - 总结)与混合进化记忆机制,模拟专家思维实现定向进化探索。测试中使用低成本模型且结果稳定复现。工业落地方面,在百度 GPU 集群故障预测场景中显著提升准确率。项目已开源,支持快速上手配置 LLM 进行自动化机器学习任务。

月亮邮递员发布于 2026/3/24更新于 2026/6/229K 浏览
LoongFlow 登顶 MLE-Bench 榜首,TOP5 唯一开源 Agent 框架

LoongFlow 登顶 MLE-bench 全球榜首

百度百舸开源的 LoongFlow 登顶 MLE-bench 全球榜首!其驱动的 ML Agent 斩获 26 块金牌,成为榜单 TOP5 中唯一开源智能体。测试过程中采用 Gemini-3-Flash-Preview 模型,成本仅为其他 Agent 使用的 Gemini-3-Pro-Preview 的 1/4。

LoongFlow 核心依托 PES 闭环(Planner-Executor-Summary)与混合进化记忆机制,复刻顶尖算法工程师思维,实现定向进化探索并高效解决长程复杂问题。

在工业落地中,LoongFlow 在百度 GPU 集群的故障预测场景中成效显著,将昇腾 910B 故障预测准确率从 38.5% 提升至 62%,英伟达 H800 从 60% 提升至 83.72%。

1. MLE-bench:不是比「聪明」,而是比谁更像专家

作为 OpenAI 推出的权威基准测试,MLE-bench 是当前衡量 Agent 机器学习工程能力最严苛的标准。它直接使用 75 场真实 Kaggle 竞赛任务,覆盖计算机视觉、自然语言处理、时间序列预测等多个前沿领域。

在 MLE-bench 的考核中,Agent 需要独立完成从数据探索(EDA)、特征工程、模型设计,到训练验证、调优集成的全流程,还要在 24 小时的时间限制内持续迭代并提交最终结果。

这意味着 Agent 面对的是高度不确定、强噪声、无法脚本化的长程任务,很多系统折戟于此,并非「能力不足」,而是容易出现逻辑中途崩溃、失败经验无法复用、高分难以稳定复现等问题。

图片

2. 登顶绝非偶然:成绩背后的三大关键信号

此次评测中,LoongFlow 驱动的 ML Agent 交出了一组极具「反直觉」的结果组合:奖杯率 62.66% 刷新纪录获得第一,且斩获 26 块金牌;是 TOP5 中唯一开源 Agent;使用更低成本模型配置且稳定复现测试结果。

高金牌率,意味着 Agent 锚定目标、有效探索;低模型成本,LoongFlow 采用 Gemini-3-Flash-Preview 模型完成训练推理,成本仅为 Gemini-3-Pro-Preview 的 1/4,这一数据直接印证系统决策高效、执行可控;稳定复现,则说明结果绝非偶然,而是经验积累的必然。

LoongFlow 的核心,就是用架构设计让 AI 彻底告别随机漫步,实现高效的定向进化探索。

3. 设计哲学:模拟顶尖算法工程师的「定向进化探索」

LoongFlow 的核心突破在于它不再是被动执行超参数搜索的「调参工具」,而是构建了一套机器学习专家思维逻辑的自主进化架构。

在传统的 ML 研发中,工程师需要在大脑中构建从数据探索到模型优化的完整链路,并根据实验结果动态调整策略。LoongFlow 正是抓住了这一专家工作的核心逻辑,通过其核心的 PES 闭环(Planner-Executor-Summary)与进化记忆机制,实现了定向进化探索,使得 ML Agent 能够高效、稳定地解决长程复杂问题。

当前的 Agent 系统虽然也能尝试完整的 ML 流程,但面临三个核心问题:规划短视、长程崩溃、经验孤立。LoongFlow 的 PES 闭环从架构层面解决了这些通用难题 —— Planner 实现战略级规划,Executor 保障长程执行的稳定性,Summary 让经验得以积累与复用。

更关键的是,LoongFlow 将一系列针对机器学习的特化设计深度融入 PES 的每个环节:Planner 将任务分解为数据、验证、特征、训练、集成、编排六个正交阶段并制定优化策略,Executor 按阶段执行与评估,Summary 沉淀可复用的领域经验。正是通用架构 + 领域特化的深度融合,才让 LoongFlow 在机器学习领域实现了真正的专家级表现。

图片

3.1 PES 闭环:模拟专家工作流的三大能力

3.1.1 Planner:像专家一样「战略规划」

机器学习专家在接到 ML 任务时,不会立即动手写代码,而是先进行系统性分析。LoongFlow 的 Planner 正是模拟了这种战略思维。

  • 正交分解与数据驱动:Planner 将复杂的 ML 任务拆解为 6 个正交阶段:数据加载、验证策略、特征工程、模型训练、模型集成、流程编排。每个阶段有明确的输入输出契约,可以独立优化而不引发连锁影响。更关键的是,Planner 主动调用 EDA 工具深度分析数据特征,让技术选择建立在数据证据之上 —— 高维稀疏数据触发线性模型,图像数据触发卷积架构,时序数据触发循环网络。这种数据驱动的决策机制,避免了传统工具的盲目尝试。
  • 结构化推理范式:专家在制定方案前,会强制自己完成系统性思考。Planner 设计了强制性的结构化分析框架:必须完成历史诊断(父代和兄弟方案的探索轨迹与效果归因)、任务诊断(从数据特性推导技术约束条件)、瓶颈诊断(理论上限与实际性能差距分析)、方向决策(深化当前路径还是探索新方向的战略判断)、复用决策(历史方案的互补性评估)、实施规划(改进意图到阶段级修改的精确映射)。这个框架保证了三个关键要素:推理质量(禁止跳过分析直接输出结论)、输出结构化(便于后续的查询、对比与复用)、决策可追溯(每个决策都有完整的证据链条)。这不是「拍脑袋」的直觉判断,而是基于证据的系统性战略分析。当单一方向优化遇到瓶颈时,Planner 还能启动 Fusion 模式,从历史方案中选择互补的模型进行精准复用。
3.1.2 Executor:像专家一样「渐进式实现」

机器学习专家不会一次性写完整个 ML Pipeline,而是按 Planner 设计的计划分阶段实现、逐步验证。LoongFlow 的 Executor 正是模拟了这种渐进式工作方式。

  • 阶段化生成与依赖传递:一次性生成完整 Pipeline 意味着生成数百上千行代码,代码长度与出错概率呈非线性增长,出错后的定位成本极高。Executor 将 Pipeline 拆解为 6 个阶段,每个阶段配备独立的代码生成子 Agent。关键设计在于:依赖链式传递机制 —— 前一阶段的完整实现会自动成为后一阶段的生成上下文。这带来三个核心优势:代码量可控、依赖明确(精确感知前序输出)、渐进式验证(快速定位问题)。
  • 上下文工程与智能纠错:Executor 为每个阶段配备了精心设计的上下文工程体系(Context Engineering):任务语义、EDA 洞察、战略指令、父代码参考、依赖代码、硬件约束。这种上下文感知的设计,让生成的代码具备「全局视野」。同时,专用验证器编码了 ML 领域的最佳实践,验证失败后进行分类诊断:依赖缺失触发自动安装,逻辑错误反馈完整上下文进行针对性修复,形成「错误 - 诊断 - 修复」的智能循环。
3.1.3 Summary:像专家一样「反思与沉淀」

机器学习专家在完成实验后会先反思:这次改动为什么有效?哪些经验可以复用?下次应该往哪个方向走?LoongFlow 的 Summary 正是模拟了这种反思能力。

  • 五维度知识提取:Summary 通过五个维度系统性地提取经验:构建方案的技术指纹,记录技术特征;进行根因分析,建立因果理解;沉淀关键学习,提取可迁移的 ML 洞察;给出可执行指导,提供具体的优化路径;记录融合画像,为 Fusion 决策提供数据基础。这些知识不会随实验结束消失,而是进入混合进化记忆系统这一系统长期记忆,成为后续迭代的重要依据。
  • 动态平衡机制:Summary 的自适应权重机制实现了搜索策略的动态平衡:早期大胆探索不同方向,中期在已知好方案和新方向之间平衡,后期聚焦高分方案的精细优化,让系统在「利用」和「探索」之间智能切换。

LoongFlow 的 PES 闭环架构重新定义了 ML 自动化:从「试错式代码生成」跨越到「战略性方案设计」,让机器像机器学习专家一样思考、执行、进化。

图片

3.2 混合进化记忆系统:不是记住答案,而是记住「思路版图」

如果说 PES 认知闭环负责保障单次迭代的质量,那么混合进化记忆系统,就是决定整个探索过程的效率的关键。LoongFlow 的记忆系统,并非简单存储过往的「最优解」,而是通过三大核心设计,构建了一套体系化的经验管理体系,让 AI 的每一次探索都站在「过往经验」的肩膀上:

  • 多岛模型:建立多个独立的「探索特区」,允许不同技术路线并行发展,相互隔离又定期交流,保持探索的多样性,避免思维过早趋同;
  • MAP-Elites:如同多维的「杰出方案陈列馆」,不仅按成绩归档方案,更会根据算法复杂度、计算效率等行为特征分类,让那些某一特性表现极佳的方案也能被留存,为跨界创新保留火种;
  • 自适应玻尔兹曼选择:作为智能的「资源调度官」,根据种群探索的实时状态动态调节参数,智能切换策略 —— 是全局开拓新方向,还是局部深耕最优解,实现探索与利用的动态平衡。

正是 PES 这一通用专家级思考方式在机器学习领域的精准落地,与混合进化记忆系统的深度耦合、协同赋能,让 LoongFlow 实现了从「随机演化」到「定向进化探索」的跨越,能用更少的尝试,覆盖更大的有效解空间,这也是其能在 MLE-bench 中实现低成本、高稳定性、高胜率的核心密码。

4. 从榜单到落地:GPU 故障预测的工业级实践验证

MLE-bench 的亮眼成绩,只是 LoongFlow 能力的一次实验室验证,而在真实的工业生产环境中,LoongFlow 早已完成从「打榜神器」到「生产力引擎」的转变。在百度内部超大规模算力集群的 GPU 故障预测场景中,LoongFlow 直面行业痛点,展现了极致的专家级能力。

在动辄数千卡的 GPU 集群中,不同代际硬件混合部署,每块卡产生的温度、功耗、显存使用等海量遥测数据中,隐藏着故障早期信号,但传统方案始终难以破解难题:阈值告警误报率高、隐性故障易遗漏;针对不同 GPU 型号手动建模,迭代周期长达数周;训练负载动态变化,静态模型极易失效。

面对这一复杂的时序异常检测问题,LoongFlow 驱动的 ML-Agent 实现了全流程自主破局,无需人工干预:自主完成多维遥测数据的分析与特征挖掘,识别不同 GPU 型号的故障模式差异;针对昇腾 910B、英伟达 H800 等不同硬件,自主尝试从传统统计方法到深度时序模型的多种技术路线,根据数据特性选择最优方案;通过 PES 闭环持续从预测失败案例中学习,自动调整策略并实现性能迭代。

最终,LoongFlow 驱动的 GPU 故障检测系统交出了突破性的成果:

  • 昇腾 910B:故障预测准确率从 38.5% 跃升至 62%,提升幅度达 61%。
  • 英伟达 H800:故障预测准确率从 60% 提升至 83.72%,提升幅度达 39.5%。

更重要的是,这并非一个「调参调出来的固定模型」,而是一个能随数据积累、业务演进持续进化的智能系统,为百度大模型研发大幅降低算力成本,减少训练中断,提升集群利用率。

5. 能力泛化:重新定义机器学习工作流

在百度内部的多个场景中,LoongFlow 正在验证其在不同类型 ML 任务中的适应性。LoongFlow 的价值不仅在于「做得好」,更在于「做得快」:

  • 复杂工业场景:像 GPU 故障预测这样的高维时序、多模态数据问题,传统方式需要资深算法工程师数周的特征工程和模型调优,LoongFlow 将这个周期极致压缩,且无需人工干预。
  • 快速原型验证:当业务团队有新的 ML 需求时,从想法到可用的 baseline 模型,LoongFlow 能够在很短时间完成端到端的实验闭环,让团队快速验证技术可行性。
  • 持续优化迭代:随着数据的积累和业务场景的演进,LoongFlow 的自进化机制能够让模型性能持续提升,而不是「训练一次就固化」。

更深层的意义在于技术门槛的消解:领域专家(如运维工程师、业务分析师)可以专注于定义问题和业务逻辑,而将繁琐的数据清洗、特征工程、模型选择、超参调优等 ML 工程细节交给 LoongFlow 自主完成。这让机器学习真正从「少数算法专家的专利」走向「每个领域专家的生产力工具」。

6. 快速上手:三步启动你的专家级 Agent

LoongFlow 已全面开源,提供开箱即用的 ML Agent。开发者只需三步,即可快速开启全自主的机器学习研发之旅,体验「专家级思考」带来的效率革命:

第一步:环境准备

LoongFlow 需要 Mamba 环境管理器。如果还没安装,请先安装 Miniforge。

Miniforge 地址:https://github.com/conda-forge/miniforge

# 克隆仓库
git clone https://github.com/baidu-baige/LoongFlow
cd LoongFlow
# 自动创建 mamba 环境并安装依赖
./run_ml.sh init

第二步:LLM 配置

LoongFlow 支持 OpenAI、DeepSeek、Gemini 等主流大模型。编辑配置文件填入 API 凭证:

vim agents/ml_evolve/examples/ml_example/task_config.yaml

核心配置

url: "http://your-llm-api/v1"
api_key: "your-api-key"
model: "openai/gemini-3-flash-preview"

第三步:启动任务

LoongFlow 会自动完成数据探索、特征工程、模型训练、集成优化的全流程,并持续进化直到达到最佳效果。所有结果保存在 output/ 目录。

# 运行演示任务(Iris 分类)
./run_ml.sh run ml_example --background
# 监控进化过程
tail -f output/logs/evolux.log

7. 结语:从随机试错,到定向进化探索

LoongFlow 在 MLE-bench 的刷新记录,从来不是一次偶然的工程胜利,而是对一种全新智能体发展范式的验证:当 Agent 学会系统性的专家级思考,解决复杂问题的解法,将不再依赖运气和算力的堆叠。

该架构旨在让未来真正具备生产力的 AI,不仅拥有更高的智力,更能具备如同人类顶尖工程师一般的「专家级思考能力」—— 懂得如何一步步逼近正确答案,如何从失败中学习,如何持续进化。LoongFlow 希望成为这条道路上的核心基础设施,让每一个有数据、有目标的团队,都能拥有一个「永不疲倦、持续进化」的专家级 AI 助手。

目前,LoongFlow 的完整代码、文档与 Demo 已在 GitHub 开源。

访问 GitHub:详细代码、文档与示例 https://github.com/baidu-baige/LoongFlow

阅读技术报告:深入了解设计原理 https://arxiv.org/abs/2512.24077

目录

  1. LoongFlow 登顶 MLE-bench 全球榜首
  2. 1. MLE-bench:不是比「聪明」,而是比谁更像专家
  3. 2. 登顶绝非偶然:成绩背后的三大关键信号
  4. 3. 设计哲学:模拟顶尖算法工程师的「定向进化探索」
  5. 3.1 PES 闭环:模拟专家工作流的三大能力
  6. 3.1.1 Planner:像专家一样「战略规划」
  7. 3.1.2 Executor:像专家一样「渐进式实现」
  8. 3.1.3 Summary:像专家一样「反思与沉淀」
  9. 3.2 混合进化记忆系统:不是记住答案,而是记住「思路版图」
  10. 4. 从榜单到落地:GPU 故障预测的工业级实践验证
  11. 5. 能力泛化:重新定义机器学习工作流
  12. 6. 快速上手:三步启动你的专家级 Agent
  13. 第一步:环境准备
  14. 克隆仓库
  15. 自动创建 mamba 环境并安装依赖
  16. 第二步:LLM 配置
  17. 第三步:启动任务
  18. 运行演示任务(Iris 分类)
  19. 监控进化过程
  20. 7. 结语:从随机试错,到定向进化探索
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • OpenClaw 安装与飞书机器人接入教程
  • Eino Embedding 组件核心用法与场景解析
  • AI 绘画工具背后的视觉技术:Stable Diffusion 解析
  • Online Softmax 算法原理与 Flash Attention 应用解析
  • Spring AI Model Context Protocol 集成 Brave Search 完整案例
  • C++ 模板进阶:非类型参数、特化与分离编译
  • AI 写作工具横评:DeepSeek、Kimi、笔灵等 5 款网文创作神器
  • Web 自动化测试入门指南:从概念到 Selenium 实战
  • Docker Compose UI: 无需命令行管理容器及远程访问配置指南
  • 基于 AI WebUI Chatbot 的实战开发:从架构设计到生产环境部署
  • Git 在 Windows 环境下的安装与使用教程
  • Spatial Joy 2025 全球 AR&AI 赛事:开发者资源与参赛指南
  • FPGA 开发常用软件对比:Vivado、Quartus、ModelSim
  • ROS2 Humble 下 Mid360 运行 Fast-LIO2 实战指南
  • FPGA 车牌识别与 Modelsim 仿真:基于 Artix-7 硬件实现
  • Redis 7 持久化机制详解:RDB 与 AOF
  • 华为 OD 机试真题:挑选宝石 Python & JS 实现
  • XC7A100T FPGA 板卡设计与接口配置
  • CLI-Anything:让所有软件都能被 AI Agent 原生调用
  • Spring Cloud Alibaba 集成 SkyWalking 全链路追踪实战

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online