LoongFlow 登顶 MLE-Bench 榜首,TOP5 唯一开源 Agent 框架
LoongFlow 在 OpenAI MLE-bench 榜单登顶,是 TOP5 中唯一开源智能体。其核心采用 PES 闭环(规划 - 执行 - 总结)与混合进化记忆机制,模拟专家思维实现定向进化探索。测试中使用低成本模型且结果稳定复现。工业落地方面,在百度 GPU 集群故障预测场景中显著提升准确率。项目已开源,支持快速上手配置 LLM 进行自动化机器学习任务。

LoongFlow 在 OpenAI MLE-bench 榜单登顶,是 TOP5 中唯一开源智能体。其核心采用 PES 闭环(规划 - 执行 - 总结)与混合进化记忆机制,模拟专家思维实现定向进化探索。测试中使用低成本模型且结果稳定复现。工业落地方面,在百度 GPU 集群故障预测场景中显著提升准确率。项目已开源,支持快速上手配置 LLM 进行自动化机器学习任务。

百度百舸开源的 LoongFlow 登顶 MLE-bench 全球榜首!其驱动的 ML Agent 斩获 26 块金牌,成为榜单 TOP5 中唯一开源智能体。测试过程中采用 Gemini-3-Flash-Preview 模型,成本仅为其他 Agent 使用的 Gemini-3-Pro-Preview 的 1/4。
LoongFlow 核心依托 PES 闭环(Planner-Executor-Summary)与混合进化记忆机制,复刻顶尖算法工程师思维,实现定向进化探索并高效解决长程复杂问题。
在工业落地中,LoongFlow 在百度 GPU 集群的故障预测场景中成效显著,将昇腾 910B 故障预测准确率从 38.5% 提升至 62%,英伟达 H800 从 60% 提升至 83.72%。
作为 OpenAI 推出的权威基准测试,MLE-bench 是当前衡量 Agent 机器学习工程能力最严苛的标准。它直接使用 75 场真实 Kaggle 竞赛任务,覆盖计算机视觉、自然语言处理、时间序列预测等多个前沿领域。
在 MLE-bench 的考核中,Agent 需要独立完成从数据探索(EDA)、特征工程、模型设计,到训练验证、调优集成的全流程,还要在 24 小时的时间限制内持续迭代并提交最终结果。
这意味着 Agent 面对的是高度不确定、强噪声、无法脚本化的长程任务,很多系统折戟于此,并非「能力不足」,而是容易出现逻辑中途崩溃、失败经验无法复用、高分难以稳定复现等问题。

此次评测中,LoongFlow 驱动的 ML Agent 交出了一组极具「反直觉」的结果组合:奖杯率 62.66% 刷新纪录获得第一,且斩获 26 块金牌;是 TOP5 中唯一开源 Agent;使用更低成本模型配置且稳定复现测试结果。
高金牌率,意味着 Agent 锚定目标、有效探索;低模型成本,LoongFlow 采用 Gemini-3-Flash-Preview 模型完成训练推理,成本仅为 Gemini-3-Pro-Preview 的 1/4,这一数据直接印证系统决策高效、执行可控;稳定复现,则说明结果绝非偶然,而是经验积累的必然。
LoongFlow 的核心,就是用架构设计让 AI 彻底告别随机漫步,实现高效的定向进化探索。
LoongFlow 的核心突破在于它不再是被动执行超参数搜索的「调参工具」,而是构建了一套机器学习专家思维逻辑的自主进化架构。
在传统的 ML 研发中,工程师需要在大脑中构建从数据探索到模型优化的完整链路,并根据实验结果动态调整策略。LoongFlow 正是抓住了这一专家工作的核心逻辑,通过其核心的 PES 闭环(Planner-Executor-Summary)与进化记忆机制,实现了定向进化探索,使得 ML Agent 能够高效、稳定地解决长程复杂问题。
当前的 Agent 系统虽然也能尝试完整的 ML 流程,但面临三个核心问题:规划短视、长程崩溃、经验孤立。LoongFlow 的 PES 闭环从架构层面解决了这些通用难题 —— Planner 实现战略级规划,Executor 保障长程执行的稳定性,Summary 让经验得以积累与复用。
更关键的是,LoongFlow 将一系列针对机器学习的特化设计深度融入 PES 的每个环节:Planner 将任务分解为数据、验证、特征、训练、集成、编排六个正交阶段并制定优化策略,Executor 按阶段执行与评估,Summary 沉淀可复用的领域经验。正是通用架构 + 领域特化的深度融合,才让 LoongFlow 在机器学习领域实现了真正的专家级表现。

机器学习专家在接到 ML 任务时,不会立即动手写代码,而是先进行系统性分析。LoongFlow 的 Planner 正是模拟了这种战略思维。
机器学习专家不会一次性写完整个 ML Pipeline,而是按 Planner 设计的计划分阶段实现、逐步验证。LoongFlow 的 Executor 正是模拟了这种渐进式工作方式。
机器学习专家在完成实验后会先反思:这次改动为什么有效?哪些经验可以复用?下次应该往哪个方向走?LoongFlow 的 Summary 正是模拟了这种反思能力。
LoongFlow 的 PES 闭环架构重新定义了 ML 自动化:从「试错式代码生成」跨越到「战略性方案设计」,让机器像机器学习专家一样思考、执行、进化。

如果说 PES 认知闭环负责保障单次迭代的质量,那么混合进化记忆系统,就是决定整个探索过程的效率的关键。LoongFlow 的记忆系统,并非简单存储过往的「最优解」,而是通过三大核心设计,构建了一套体系化的经验管理体系,让 AI 的每一次探索都站在「过往经验」的肩膀上:
正是 PES 这一通用专家级思考方式在机器学习领域的精准落地,与混合进化记忆系统的深度耦合、协同赋能,让 LoongFlow 实现了从「随机演化」到「定向进化探索」的跨越,能用更少的尝试,覆盖更大的有效解空间,这也是其能在 MLE-bench 中实现低成本、高稳定性、高胜率的核心密码。
MLE-bench 的亮眼成绩,只是 LoongFlow 能力的一次实验室验证,而在真实的工业生产环境中,LoongFlow 早已完成从「打榜神器」到「生产力引擎」的转变。在百度内部超大规模算力集群的 GPU 故障预测场景中,LoongFlow 直面行业痛点,展现了极致的专家级能力。
在动辄数千卡的 GPU 集群中,不同代际硬件混合部署,每块卡产生的温度、功耗、显存使用等海量遥测数据中,隐藏着故障早期信号,但传统方案始终难以破解难题:阈值告警误报率高、隐性故障易遗漏;针对不同 GPU 型号手动建模,迭代周期长达数周;训练负载动态变化,静态模型极易失效。
面对这一复杂的时序异常检测问题,LoongFlow 驱动的 ML-Agent 实现了全流程自主破局,无需人工干预:自主完成多维遥测数据的分析与特征挖掘,识别不同 GPU 型号的故障模式差异;针对昇腾 910B、英伟达 H800 等不同硬件,自主尝试从传统统计方法到深度时序模型的多种技术路线,根据数据特性选择最优方案;通过 PES 闭环持续从预测失败案例中学习,自动调整策略并实现性能迭代。
最终,LoongFlow 驱动的 GPU 故障检测系统交出了突破性的成果:
更重要的是,这并非一个「调参调出来的固定模型」,而是一个能随数据积累、业务演进持续进化的智能系统,为百度大模型研发大幅降低算力成本,减少训练中断,提升集群利用率。
在百度内部的多个场景中,LoongFlow 正在验证其在不同类型 ML 任务中的适应性。LoongFlow 的价值不仅在于「做得好」,更在于「做得快」:
更深层的意义在于技术门槛的消解:领域专家(如运维工程师、业务分析师)可以专注于定义问题和业务逻辑,而将繁琐的数据清洗、特征工程、模型选择、超参调优等 ML 工程细节交给 LoongFlow 自主完成。这让机器学习真正从「少数算法专家的专利」走向「每个领域专家的生产力工具」。
LoongFlow 已全面开源,提供开箱即用的 ML Agent。开发者只需三步,即可快速开启全自主的机器学习研发之旅,体验「专家级思考」带来的效率革命:
LoongFlow 需要 Mamba 环境管理器。如果还没安装,请先安装 Miniforge。
Miniforge 地址:https://github.com/conda-forge/miniforge
# 克隆仓库
git clone https://github.com/baidu-baige/LoongFlow
cd LoongFlow
# 自动创建 mamba 环境并安装依赖
./run_ml.sh init
LoongFlow 支持 OpenAI、DeepSeek、Gemini 等主流大模型。编辑配置文件填入 API 凭证:
vim agents/ml_evolve/examples/ml_example/task_config.yaml
核心配置
url: "http://your-llm-api/v1"
api_key: "your-api-key"
model: "openai/gemini-3-flash-preview"
LoongFlow 会自动完成数据探索、特征工程、模型训练、集成优化的全流程,并持续进化直到达到最佳效果。所有结果保存在 output/ 目录。
# 运行演示任务(Iris 分类)
./run_ml.sh run ml_example --background
# 监控进化过程
tail -f output/logs/evolux.log
LoongFlow 在 MLE-bench 的刷新记录,从来不是一次偶然的工程胜利,而是对一种全新智能体发展范式的验证:当 Agent 学会系统性的专家级思考,解决复杂问题的解法,将不再依赖运气和算力的堆叠。
该架构旨在让未来真正具备生产力的 AI,不仅拥有更高的智力,更能具备如同人类顶尖工程师一般的「专家级思考能力」—— 懂得如何一步步逼近正确答案,如何从失败中学习,如何持续进化。LoongFlow 希望成为这条道路上的核心基础设施,让每一个有数据、有目标的团队,都能拥有一个「永不疲倦、持续进化」的专家级 AI 助手。
目前,LoongFlow 的完整代码、文档与 Demo 已在 GitHub 开源。
访问 GitHub:详细代码、文档与示例 https://github.com/baidu-baige/LoongFlow
阅读技术报告:深入了解设计原理 https://arxiv.org/abs/2512.24077

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online