用 10% GPU 跑通万亿参数 RL!马骁腾拆解万亿参数大模型的后训练实战

用 10% GPU 跑通万亿参数 RL!马骁腾拆解万亿参数大模型的后训练实战

整理 | 梦依丹

出品 | ZEEKLOG(ID:ZEEKLOGnews)

左手是提示词的工程化约束,右手是 Context Learning 的自我进化。

在 OpenAI 新发布的《Prompt guidance for GPT-5.4》中,反复提到了 Prompt Contracts(提示词合约)。要求开发者像编写代码一样,严谨地定义 Agent 的输入边界、输出格式与工具调用逻辑,进而换取 AI 行为的确定性。

但在现实操作中,谁又能日复一日地去维护那些冗长、脆弱的“提示词代码”?

真正的 Agent,不应只靠阅读 Context Engineering,更应该具备 Context Learning 的能力。

为此,在 4 月 17-18 日的 2026 奇点智能技术大会上,我们诚邀 Macaron AI 首席科学家、Mind Lab Director 马骁腾带来一场直击 Agent 进化本质的深度分享,让 Agent 从“听指令”进化到“涨经验”。

马骁腾是谁?

提到马骁腾,笔者脑海首先闪现的是强化学习、Agent、1500+……

作为清华大学自动化系的博士、博士后,马骁腾在产业界和学术界有着扎实的底蕴。他在强化学习相关领域发表了 30 余篇顶会论文,谷歌学术引用超过 1500 次。

现在,他是 Macaron AI 首席科学家,也是 Mind Lab 的掌舵人。

他带队研发了面向万亿参数模型的 LoRA-RL 训练底座—— MinT,成功实现了端到端的万亿参数推理强化学习。

以万亿参数模型(如 Kimi K2)为例,该系统所需的 GPU 数量仅为传统全参数 RL 的约 10%。这彻底改变了大模型后训练的经济学,使 RL 能够大规模落地到更多产品和团队中。(核心解读:https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus)

从 Context Engineering 到 Context Learning:万亿参数大模型的后训练实战

在 2026 奇点智能技术大会上,马骁腾将带来 《迈向经验智能:从 Context Engineering 到 Context Learning》 的深度分享,直击当前 AI Agent 开发与落地的核心痛点。

痛点:Prompt 工程的“边际效应递减”

当前的 Agent 开发,陷入了一个“堆砌上下文”的怪圈。

为了让 Agent 应对动态环境(比如操作一个不断更新的 App 界面),工程师们不得不编写越来越长、越来越复杂的 Prompt。但这带来了两个无法回避的问题:

  • 扩展性受限: 人工编排永远赶不上环境的变化速度;
  • 经验无法复用: Agent 每次任务都是“从零开始”,上一次的成功或失败经验,无法沉淀为模型的能力。

解法:Context Learning(在交互中学习)

马骁腾提出的 Context Learning,核心在于“经验的内化”。

通过强化学习,让模型在真实的交互数据中自主试错、积累经验,并将这些经验刻进模型参数里。

实战干货:MinT 底座与 Macaron AI 案例

为了证明这条路走得通,马骁腾将在现场拆解 Mind Lab 的工程实践:

  • MinT 面向万亿参数模型的 LoRA-RL 训练底座:支撑高吞吐、低成本的强化学习快速迭代。并以 Macaron AI 模型训练为案例,展示如何利用 Context Learning 教会模型操作 Dynamic UI,将交互经验沉淀为可复用的模型能力与训练管线。
  • Macaron AI 模型案例:用 Context Learning 训练 Dynamic UI 交互能力

对于参会者而言,这场分享的直接价值在于:

  • 获得可落地的 RL Infra 建设思路:了解如何搭建一个像 MinT 这样,能够支撑大模型低成本、高吞吐强化学习迭代的基础设施;
  • 将 Context Learning 从理念变为工程现实的前提;
  • 理解可靠性与适应性的平衡术:明白在什么场景下仍需依赖 Context Engineering 确保可靠,又在什么场景下可以放手让模型通过 Context Learning 自主进化,从而设计出更健壮、更灵活的 Agent 系统。

2026 奇点智能技术大会

马骁腾的 Context Learning,只是 2026 奇点智能技术大会众多硬核议题中的一环。

面对“未来没有全栈,只有 Agent 工程师”的行业剧变,我们需要的不只是几场演讲,而是一份可被验证的、成体系的工程经验。

4 月 17-18 日,由 ZEEKLOG 与 奇点智能研究院联合主办的「2026 奇点智能技术大会」 将在上海环球港凯悦酒店隆重召开。

  • 顶尖阵容: 汇聚 50+ 位站在变革最前沿的技术领袖,来自 微软、BAT、京东、快手等一线大厂;
  • 硬核议题: 覆盖 Agent 系统、世界模型、AI 原生研发、AI Infra 等 12 大前沿专题。

这里没有空泛的预测,只有扎实的复盘与当下的解法与前沿的探索。

与此同时,2026 奇点智能技术大会同步开放多种合作形式:

  • 技术生态合作伙伴
  • 企业专场共建
  • 行业解决方案联合展示
  • ……

我们期待与更多长期主义者一起,为 AI 时代留下可被验证、可被复用的工程经验。

图片

扫码下方二维码

提前预约 2026 奇点智能技术大会全套 PPT 资料

图片

官方网站:www.ml-summit.org

购票热线:400-821-5876

购票咨询:[email protected]

企业合作:[email protected]

演讲申请:[email protected]

媒体联系:[email protected]

↓↓ 点击「阅读原文」,了解「2026  奇点智能技术大会」更多信息!

Read more

爬虫工程师必备:用Selenium+Python自动获取登录态Cookie的3种实战方案

爬虫工程师的“钥匙串”:三种高可用Selenium Cookie获取方案深度实战 做爬虫,尤其是需要处理用户登录态的爬虫,最让人头疼的往往不是解析页面,而是如何稳定、优雅地拿到那把“钥匙”——身份认证凭证。无论是传统的Cookie,还是现代应用偏爱的Token、Session,获取它们的过程,常常是项目从“玩具级”迈向“生产级”的第一道坎。很多开发者止步于简单的driver.get_cookies(),却在面对复杂登录流程、动态令牌或反爬策略时束手无策。今天,我们不谈那些手动复制粘贴的“玩具”方法,而是聚焦于如何用Selenium构建一套健壮的、可自动化的身份凭证获取体系。这不仅仅是调用一个API,更是一场关于浏览器自动化、网络协议理解与工程化思维的实战。 1. 基础与进阶:超越 get_cookies() 的API获取方案 绝大多数Selenium教程都会告诉你,获取Cookie只需一行代码:cookies = driver.get_cookies()。这没错,但如果你只停留在这一步,可能会错过一半的风景,并踩进无数的坑。

By Ne0inhk
【SpringBoot】一篇文章讲清楚拦截器所有知识

【SpringBoot】一篇文章讲清楚拦截器所有知识

🎬 那我掉的头发算什么:个人主页 🔥 个人专栏: 《javaSE》《数据结构》《数据库》《javaEE》 ⛺️待到苦尽甘来日 文章目录 * 拦截器 * 快速入门 * 定义拦截器 * 注册配置拦截器 * 拦截器详解 * 拦截路径 * 拦截器执行流程 * 登录校验 * 定义注册拦截器 * DispatcherServlet 源码分析 * 适配器模式 拦截器 快速入门 拦截器是 Spring 框架提供的核心功能之一,主要用来拦截用户的请求,在指定方法执行的前后,根据业务需要执行预先设定的代码。 也就是说,拦截器允许开发人员提前定义一些通用逻辑,在用户的请求被处理前、响应返回后执行;也可以在用户请求处理前直接阻止其执行。 在拦截器中,开发人员可以实现应用程序中的一些通用性操作。比如通过拦截器拦截前端发来的所有请求,判断 Session 中是否存在登录用户的信息:如果存在则放行请求,继续处理业务;如果不存在则拦截请求,拒绝后续处理。 就好比上学时进校门出校门需要带出入证,保安就

By Ne0inhk

ROS 2从入门到精通系列(一):什么是ROS2 - 核心概念和架构

ROS 2从入门到精通系列(一):什么是ROS2 - 核心概念和架构 本文是ROS2系列的第一篇,帮助你快速理解ROS2的核心概念和系统架构。 引言 如果你即将学习ROS2或者对机器人开发感兴趣,首先需要理解:什么是ROS2? ROS(Robot Operating System)是一个灵活的框架,用于编写机器人软件。ROS2是其第二代版本,相比ROS1有重大改进。本文将从零开始,帮你建立起对ROS2的全面认识。 一、什么是ROS2? 1.1 ROS2的定义 ROS2 是一个分布式计算框架,专门为机器人应用设计。它提供了: * 硬件抽象 - 屏蔽各类传感器和执行器的底层差异 * 中间件 - 实现进程间通信(IPC)和跨机器通信 * 工具链 - 调试、可视化、模拟等开发工具 * 库和算法 - 常用机器人算法的参考实现 1.2 为什么是ROS2而不是ROS1?

By Ne0inhk
Flutter 组件 ansi_text 适配鸿蒙 HarmonyOS 实战:终端色彩渲染,构建高性能 ANSI 日志高亮与命令行交互架构

Flutter 组件 ansi_text 适配鸿蒙 HarmonyOS 实战:终端色彩渲染,构建高性能 ANSI 日志高亮与命令行交互架构

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 ansi_text 适配鸿蒙 HarmonyOS 实战:终端色彩渲染,构建高性能 ANSI 日志高亮与命令行交互架构 前言 在鸿蒙(OpenHarmony)生态迈向工业级运维、涉及大量后台守护进程(Daemon)、系统日志审计及开发者工具链(CLI)开发的背景下,如何为枯燥的纯文本终端注入具备视觉层级的色彩与样式,已成为提升调试效率与故障定位速度的“视觉助推器”。在鸿蒙设备这类强调 AOT 极致性能与低级别 shell 交互的环境下,如果应用依然依赖基础的单色字符串输出日志,由于由于信息流极其庞大且缺乏重点,极易由于由于“视觉疲劳”导致关键系统警告或业务异常被淹没在海量数据中。 我们需要一种能够支持 ANSI 转义序列、具备富文本样式(加粗/背景色)且兼容多种终端模拟器的文本渲染方案。 ansi_text 为 Flutter 开发者引入了基于标准

By Ne0inhk