LoongFlow 登顶 MLE-Bench 全球榜首,成 TOP5 中唯一开源 Agent 开发框架

LoongFlow 登顶 MLE-Bench 全球榜首,成 TOP5 中唯一开源 Agent 开发框架

百度百舸开源的 LoongFlow 登顶 MLE-bench 全球榜首!其驱动的 ML Agent 斩获 26 块金牌,成为榜单 TOP5 中唯一开源智能体,测试过程中采用 Gemini-3-Flash-Preview 模型,成本仅为其他 Agent 使用的 Gemini-3-Pro-Preview 的 1/4。

LoongFlow 核心依托 PES 闭环(Planner-Executor-Summary)与混合进化记忆机制,复刻顶尖算法工程师思维,实现定向进化探索并高效解决长程复杂问题。

在工业落地中,LoongFlow 在百度 GPU 集群的故障预测场景中成效显著,将昇腾 910B 故障预测准确率从 38.5% 提升至 62%,英伟达 H800 从 60% 提升至 83.72%。


在衡量 AI Agent 机器学习(ML)工程能力的金标准——OpenAI MLE-bench 最新榜单中,百度百舸团队开源的 LoongFlow 正式登顶全球第一,同时公开了此次测试的 ML 实验代码。

  • MLE-bench 榜单:https://github.com/openai/mle-bench/blob/main/README.md
  • ML Agent 代码实现:https://github.com/baidu-baige/LoongFlow/tree/main/agents/ml_agent

作为榜单 TOP 阵营中唯一开源的智能体,LoongFlow 的胜出并非偶然的刷榜,而是一个在更低模型成本条件下、能够多次稳定复现高分的成熟系统。

它证明了:决定 Agent 上限的从不是单次运气或模型参数规模,而是其是否具备「专家级思考」的能力。

图片

1.    MLE-bench:不是比「聪明」,而是比谁更像专家

作为 OpenAI 推出的权威基准测试,MLE-bench 是当前衡量 Agent 机器学习工程能力最严苛的标准,它从不是一个「会写代码就能得分」的简单评测,而是直接使用 75 场真实 Kaggle 竞赛任务,覆盖计算机视觉、自然语言处理、时间序列预测等多个前沿领域。

在 MLE-bench 的考核中,Agent 需要独立完成从数据探索(EDA)、特征工程、模型设计,到训练验证、调优集成的全流程,还要在 24 小时的时间限制内持续迭代并提交最终结果。

这意味着 Agent 面对的是高度不确定、强噪声、无法脚本化的长程任务,很多系统折戟于此,并非「能力不足」,而是容易出现逻辑中途崩溃、失败经验无法复用、高分难以稳定复现等问题。

2.    登顶绝非偶然:成绩背后的三大关键信号

此次评测中,LoongFlow 驱动的 ML Agent 交出了一组极具「反直觉」的结果组合:奖杯率 62.66% 刷新纪录获得第一,且斩获 26 块金牌;是 TOP5 中唯一开源 Agent;使用更低成本模型配置且稳定复现测试结果。

高金牌率,意味着 Agent 锚定目标、有效探索;低模型成本,LoongFlow 采用 Gemini-3-Flash-Preview 模型完成训练推理,成本仅为 Gemini-3-Pro-Preview 的 1/4,这一数据直接印证系统决策高效、执行可控;稳定复现,则说明结果绝非偶然,而是经验积累的必然。

LoongFlow 的核心,就是用架构设计让 AI 彻底告别随机漫步,实现高效的定向进化探索。

3.    设计哲学:模拟顶尖算法工程师的「定向进化探索」

LoongFlow 的核心突破在于它不再是被动执行超参数搜索的「调参工具」,而是构建了一套机器学习专家思维逻辑的自主进化架构。

在传统的 ML 研发中,工程师需要在大脑中构建从数据探索到模型优化的完整链路,并根据实验结果动态调整策略。LoongFlow 正是抓住了这一专家工作的核心逻辑,通过其核心的 PES 闭环(Planner-Executor-Summary)与进化记忆机制,实现了定向进化探索,使得 ML Agent 能够高效、稳定地解决长程复杂问题。

当前的 Agent 系统虽然也能尝试完整的 ML 流程,但面临三个核心问题:规划短视、长程崩溃、经验孤立。LoongFlow 的 PES 闭环从架构层面解决了这些通用难题 —— Planner 实现战略级规划,Executor 保障长程执行的稳定性,Summary 让经验得以积累与复用。

更关键的是,LoongFlow 将一系列针对机器学习的特化设计深度融入 PES 的每个环节:Planner 将任务分解为数据、验证、特征、训练、集成、编排六个正交阶段并制定优化策略,Executor 按阶段执行与评估,Summary 沉淀可复用的领域经验。正是通用架构 + 领域特化的深度融合,才让 LoongFlow 在机器学习领域实现了真正的专家级表现。

图片

3.1    PES 闭环:模拟专家工作流的三大能力

3.1.1.    Planner:像专家一样「战略规划」

机器学习专家在接到 ML 任务时,不会立即动手写代码,而是先进行系统性分析。LoongFlow 的 Planner 正是模拟了这种战略思维。

  • 正交分解与数据驱动:Planner 将复杂的 ML 任务拆解为 6 个正交阶段:数据加载、验证策略、特征工程、模型训练、模型集成、流程编排。每个阶段有明确的输入输出契约,可以独立优化而不引发连锁影响。更关键的是,Planner 主动调用 EDA 工具深度分析数据特征,让技术选择建立在数据证据之上 —— 高维稀疏数据触发线性模型,图像数据触发卷积架构,时序数据触发循环网络。这种数据驱动的决策机制,避免了传统工具的盲目尝试。
  • 结构化推理范式:专家在制定方案前,会强制自己完成系统性思考。Planner 设计了强制性的结构化分析框架:必须完成历史诊断(父代和兄弟方案的探索轨迹与效果归因)、任务诊断(从数据特性推导技术约束条件)、瓶颈诊断(理论上限与实际性能差距分析)、方向决策(深化当前路径还是探索新方向的战略判断)、复用决策(历史方案的互补性评估)、实施规划(改进意图到阶段级修改的精确映射)。这个框架保证了三个关键要素:推理质量(禁止跳过分析直接输出结论)、输出结构化(便于后续的查询、对比与复用)、决策可追溯(每个决策都有完整的证据链条)。这不是「拍脑袋」的直觉判断,而是基于证据的系统性战略分析。当单一方向优化遇到瓶颈时,Planner 还能启动 Fusion 模式,从历史方案中选择互补的模型进行精准复用。

3.1.2.    Executor:像专家一样「渐进式实现」

机器学习专家不会一次性写完整个 ML Pipeline,而是按 Planner 设计的计划分阶段实现、逐步验证。LoongFlow 的 Executor 正是模拟了这种渐进式工作方式。

  • 阶段化生成与依赖传递:一次性生成完整 Pipeline 意味着生成数百上千行代码,代码长度与出错概率呈非线性增长,出错后的定位成本极高。Executor 将 Pipeline 拆解为 6 个阶段,每个阶段配备独立的代码生成子 Agent。关键设计在于:依赖链式传递机制 —— 前一阶段的完整实现会自动成为后一阶段的生成上下文。这带来三个核心优势:代码量可控、依赖明确(精确感知前序输出)、渐进式验证(快速定位问题)。
  • 上下文工程与智能纠错:Executor 为每个阶段配备了精心设计的上下文工程体系(Context Engineering):任务语义、EDA 洞察、战略指令、父代码参考、依赖代码、硬件约束。这种上下文感知的设计,让生成的代码具备「全局视野」。同时,专用验证器编码了 ML 领域的最佳实践,验证失败后进行分类诊断:依赖缺失触发自动安装,逻辑错误反馈完整上下文进行针对性修复,形成「错误 - 诊断 - 修复」的智能循环。

3.1.3.    Summary:像专家一样「反思与沉淀」

机器学习专家在完成实验后会先反思:这次改动为什么有效?哪些经验可以复用?下次应该往哪个方向走?LoongFlow 的 Summary 正是模拟了这种反思能力。

  • 五维度知识提取:Summary 通过五个维度系统性地提取经验:构建方案的技术指纹,记录技术特征;进行根因分析,建立因果理解;沉淀关键学习,提取可迁移的 ML 洞察;给出可执行指导,提供具体的优化路径;记录融合画像,为 Fusion 决策提供数据基础。这些知识不会随实验结束消失,而是进入混合进化记忆系统这一系统长期记忆,成为后续迭代的重要依据。
  • 动态平衡机制:Summary 的自适应权重机制实现了搜索策略的动态平衡:早期大胆探索不同方向,中期在已知好方案和新方向之间平衡,后期聚焦高分方案的精细优化,让系统在「利用」和「探索」之间智能切换。

LoongFlow 的 PES 闭环架构重新定义了 ML 自动化:从「试错式代码生成」跨越到「战略性方案设计」,让机器像机器学习专家一样思考、执行、进化。

图片

3.2.    混合进化记忆系统:不是记住答案,而是记住「思路版图」

如果说 PES 认知闭环负责保障单次迭代的质量,那么混合进化记忆系统,就是决定整个探索过程的效率的关键。LoongFlow 的记忆系统,并非简单存储过往的「最优解」,而是通过三大核心设计,构建了一套体系化的经验管理体系,让 AI 的每一次探索都站在「过往经验」的肩膀上:

  • 多岛模型:建立多个独立的「探索特区」,允许不同技术路线并行发展,相互隔离又定期交流,保持探索的多样性,避免思维过早趋同;
  • MAP-Elites:如同多维的「杰出方案陈列馆」,不仅按成绩归档方案,更会根据算法复杂度、计算效率等行为特征分类,让那些某一特性表现极佳的方案也能被留存,为跨界创新保留火种;
  • 自适应玻尔兹曼选择:作为智能的「资源调度官」,根据种群探索的实时状态动态调节参数,智能切换策略 —— 是全局开拓新方向,还是局部深耕最优解,实现探索与利用的动态平衡。

正是 PES 这一通用专家级思考方式在机器学习领域的精准落地,与混合进化记忆系统的深度耦合、协同赋能,让 LoongFlow 实现了从「随机演化」到「定向进化探索」的跨越,能用更少的尝试,覆盖更大的有效解空间,这也是其能在 MLE-bench 中实现低成本、高稳定性、高胜率的核心密码。

4.    从榜单到落地:GPU 故障预测的工业级实践验证

MLE-bench 的亮眼成绩,只是 LoongFlow 能力的一次实验室验证,而在真实的工业生产环境中,LoongFlow 早已完成从「打榜神器」到「生产力引擎」的转变。在百度内部超大规模算力集群的 GPU 故障预测场景中,LoongFlow 直面行业痛点,展现了极致的专家级能力。

在动辄数千卡的 GPU 集群中,不同代际硬件混合部署,每块卡产生的温度、功耗、显存使用等海量遥测数据中,隐藏着故障早期信号,但传统方案始终难以破解难题:阈值告警误报率高、隐性故障易遗漏;针对不同 GPU 型号手动建模,迭代周期长达数周;训练负载动态变化,静态模型极易失效。

面对这一复杂的时序异常检测问题,LoongFlow 驱动的 ML-Agent 实现了全流程自主破局,无需人工干预:自主完成多维遥测数据的分析与特征挖掘,识别不同 GPU 型号的故障模式差异;针对昇腾 910B、英伟达 H800 等不同硬件,自主尝试从传统统计方法到深度时序模型的多种技术路线,根据数据特性选择最优方案;通过 PES 闭环持续从预测失败案例中学习,自动调整策略并实现性能迭代。

最终,LoongFlow 驱动的 GPU 故障检测系统交出了突破性的成果:

  • 昇腾 910B:故障预测准确率从 38.5% 跃升至 62%,提升幅度达 61%。
  • 英伟达 H800:故障预测准确率从 60% 提升至 83.72%,提升幅度达 39.5%。

更重要的是,这并非一个「调参调出来的固定模型」,而是一个能随数据积累、业务演进持续进化的智能系统,为百度大模型研发大幅降低算力成本,减少训练中断,提升集群利用率。

5.    能力泛化:重新定义机器学习工作流

在百度内部的多个场景中,LoongFlow 正在验证其在不同类型 ML 任务中的适应性。LoongFlow 的价值不仅在于「做得好」,更在于「做得快」:

  • 复杂工业场景:像 GPU 故障预测这样的高维时序、多模态数据问题,传统方式需要资深算法工程师数周的特征工程和模型调优,LoongFlow 将这个周期极致压缩,且无需人工干预。
  • 快速原型验证:当业务团队有新的 ML 需求时,从想法到可用的 baseline 模型,LoongFlow 能够在很短时间完成端到端的实验闭环,让团队快速验证技术可行性。
  • 持续优化迭代:随着数据的积累和业务场景的演进,LoongFlow 的自进化机制能够让模型性能持续提升,而不是「训练一次就固化」。

更深层的意义在于技术门槛的消解:领域专家(如运维工程师、业务分析师)可以专注于定义问题和业务逻辑,而将繁琐的数据清洗、特征工程、模型选择、超参调优等 ML 工程细节交给 LoongFlow 自主完成。这让机器学习真正从「少数算法专家的专利」走向「每个领域专家的生产力工具」。

6.    快速上手:三步启动你的专家级 Agent

LoongFlow 已全面开源,提供开箱即用的 ML Agent。开发者只需三步,即可快速开启全自主的机器学习研发之旅,体验「专家级思考」带来的效率革命:

第一步:环境准备

LoongFlow 需要 Mamba 环境管理器。如果还没安装,请先安装 Miniforge。

Miniforge 地址:https://github.com/conda-forge/miniforge

 # 克隆仓库 git clone https://github.com/baidu-baige/LoongFlow cd LoongFlow # 自动创建 mamba 环境并安装依赖 ./run_ml.sh init

第二步:LLM 配置

LoongFlow 支持 OpenAI、DeepSeek、Gemini 等主流大模型。编辑配置文件填入 API 凭证:

vim agents/ml_evolve/examples/ml_example/task_config.yaml

核心配置

  url: "http://your-llm-api/v1"   api_key: "your-api-key"   model: "openai/gemini-3-flash-preview"

第三步:启动任务

LoongFlow 会自动完成数据探索、特征工程、模型训练、集成优化的全流程,并持续进化直到达到最佳效果。所有结果保存在 output/ 目录。

# 运行演示任务(Iris 分类) ./run_ml.sh run ml_example --background # 监控进化过程 tail -f output/logs/evolux.log

7.    结语:从随机试错,到定向进化探索

LoongFlow 在 MLE-bench 的刷新记录,从来不是一次偶然的工程胜利,而是对一种全新智能体发展范式的验证:当 Agent 学会系统性的专家级思考,解决复杂问题的解法,将不再依赖运气和算力的堆叠。

我们相信,未来真正具备生产力的 AI,不仅拥有更高的智力,更能具备如同人类顶尖工程师一般的「专家级思考能力」—— 懂得如何一步步逼近正确答案,如何从失败中学习,如何持续进化。而 LoongFlow,正希望成为这条道路上的核心基础设施,让每一个有数据、有目标的团队,都能拥有一个「永不疲倦、持续进化」的专家级 AI 助手。

目前,LoongFlow 的完整代码、文档与 Demo 已在 GitHub 开源,诚邀全球开发者、研究人员与行业专家加入,共同定义 AI 的专家级思考未来。

访问 GitHub:详细代码、文档与示例 https://github.com/baidu-baige/LoongFlow

阅读技术报告:深入了解设计原理 https://arxiv.org/abs/2512.24077

Read more

OpenClaw相关的开源AI项目汇总大全:本文涵盖近期所有OpenClaw相关的GitHub高星star热门项目

OpenClaw相关的开源AI项目汇总大全:本文涵盖近期所有OpenClaw相关的GitHub高星star热门项目

OpenClaw相关的开源AI项目汇总大全:本文涵盖近期所有OpenClaw相关的GitHub高星star热门项目 💡 导读 GitHub上这些OpenClaw开源项目,Star数为什么能破千?我们扒了13个宝藏仓库后发现… 有人用OpenClaw给钉钉搭了智能助手,有人在飞书里养了个AI女友Clawra,还有人把记忆层memU玩成了第二大脑——而这些全部免费开源! 2026年OpenClaw热度飙升,但官方文档晦涩、部署门槛高劝退无数人?别慌!本文汇总了OpenClawInstaller、OneClaw、Moltworker等13个硬核开源项目,覆盖:✅ 一键部署工具(零代码上手)✅ 钉钉/企微/飞书/微信全平台接入方案✅ 云端托管+本地Sandbox双模式✅ 记忆层memU、技能库Skills、甚至AI女友Clawra… 收藏这一篇,省掉你100个小时的踩坑时间! 文章目录 * OpenClaw相关的开源AI项目汇总大全:本文涵盖近期所有OpenClaw相关的GitHub高星star热门项目 * 💡 导读 * 一、OpenClawInstall

By Ne0inhk
【汉化中文版】OpenClaw(Clawdbot/Moltbot)第三方开源汉化中文发行版部署全指南:一键脚本/Docker/npm 三模式安装+Ubuntu 环境配置+中文汉化界面适配开源版

【汉化中文版】OpenClaw(Clawdbot/Moltbot)第三方开源汉化中文发行版部署全指南:一键脚本/Docker/npm 三模式安装+Ubuntu 环境配置+中文汉化界面适配开源版

OpenClaw这是什么? OpenClaw(曾用名 Clawdbot / Moltbot)是一个开源的个人 AI 助手平台(GitHub 120k+ Stars),可以通过 WhatsApp、Telegram、Discord 等聊天软件与 AI 交互。简单说就是:在你自己的机器上运行一个 AI 助手,通过常用聊天软件跟它对话。 forks项目仓库 :https://github.com/MaoTouHU/OpenClawChinese 文章目录 * OpenClaw这是什么? * 汉化效果预览 * 环境要求 * 安装方式 * 方式 A:一键脚本(推荐新手) * 方式 B:npm 手动安装 * 方式 C:Docker 部署(服务器推荐) * 首次配置 * 运行初始化向导 * 安装守护进程(

By Ne0inhk
万字长文:重点区域低空安全防御系统(反无人机)深度实战方案 | 从0到1构建立体安防体系(WORD)

万字长文:重点区域低空安全防御系统(反无人机)深度实战方案 | 从0到1构建立体安防体系(WORD)

摘要:随着低空经济爆发式增长,无人机"黑飞"已成为国家重点区域安防的重大威胁。本文基于真实政务项目案例,深度解析一套覆盖"探测-识别-定位-反制-溯源"全链条的低空安全防御系统建设方案。全文8000+字,涵盖TDOA无源定位、相控阵雷达、导航诱骗等核心技术,以及等保2.0合规、电磁频谱安全等实施细节,为安防系统集成商、智慧城市建设者提供保姆级技术参考。 一、项目背景与战略价值:低空经济背后的安全缺口 1.1 低空经济崛起的"双刃剑"效应 近年来,随着《"十四五"数字经济发展规划》的深入推进,低空经济已被纳入国家战略性新兴产业序列。无人机在物流配送、电力巡检、应急救援、城市测绘等领域的应用呈现爆发式增长。据统计,截至2025年初,我国民用无人机保有量已突破500万架,年飞行时长超过数千万小时。 然而,

By Ne0inhk