用 10% GPU 跑通万亿参数 RL！马骁腾拆解万亿参数大模型的后训练实战

Ne0inhk

15 Mar 2026 — 6 min read

整理 | 梦依丹

出品 | ZEEKLOG（ID：ZEEKLOGnews）

左手是提示词的工程化约束，右手是 Context Learning 的自我进化。

在 OpenAI 新发布的《Prompt guidance for GPT-5.4》中，反复提到了 Prompt Contracts（提示词合约）。要求开发者像编写代码一样，严谨地定义 Agent 的输入边界、输出格式与工具调用逻辑，进而换取 AI 行为的确定性。

但在现实操作中，谁又能日复一日地去维护那些冗长、脆弱的“提示词代码”？

真正的 Agent，不应只靠阅读 Context Engineering，更应该具备 Context Learning 的能力。

为此，在 4 月 17-18 日的 2026 奇点智能技术大会上，我们诚邀 Macaron AI 首席科学家、Mind Lab Director 马骁腾带来一场直击 Agent 进化本质的深度分享，让 Agent 从“听指令”进化到“涨经验”。

马骁腾是谁？

提到马骁腾，笔者脑海首先闪现的是强化学习、Agent、1500+……

作为清华大学自动化系的博士、博士后，马骁腾在产业界和学术界有着扎实的底蕴。他在强化学习相关领域发表了 30 余篇顶会论文，谷歌学术引用超过 1500 次。

现在，他是 Macaron AI 首席科学家，也是 Mind Lab 的掌舵人。

他带队研发了面向万亿参数模型的 LoRA-RL 训练底座—— MinT，成功实现了端到端的万亿参数推理强化学习。

以万亿参数模型（如 Kimi K2）为例，该系统所需的 GPU 数量仅为传统全参数 RL 的约 10%。这彻底改变了大模型后训练的经济学，使 RL 能够大规模落地到更多产品和团队中。（核心解读：https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus）

从 Context Engineering 到 Context Learning：万亿参数大模型的后训练实战

在 2026 奇点智能技术大会上，马骁腾将带来《迈向经验智能：从 Context Engineering 到 Context Learning》的深度分享，直击当前 AI Agent 开发与落地的核心痛点。

痛点：Prompt 工程的“边际效应递减”

当前的 Agent 开发，陷入了一个“堆砌上下文”的怪圈。

为了让 Agent 应对动态环境（比如操作一个不断更新的 App 界面），工程师们不得不编写越来越长、越来越复杂的 Prompt。但这带来了两个无法回避的问题：

扩展性受限：人工编排永远赶不上环境的变化速度；
经验无法复用： Agent 每次任务都是“从零开始”，上一次的成功或失败经验，无法沉淀为模型的能力。

解法：Context Learning（在交互中学习）

马骁腾提出的 Context Learning，核心在于“经验的内化”。

通过强化学习，让模型在真实的交互数据中自主试错、积累经验，并将这些经验刻进模型参数里。

实战干货：MinT 底座与 Macaron AI 案例

为了证明这条路走得通，马骁腾将在现场拆解 Mind Lab 的工程实践：

MinT 面向万亿参数模型的 LoRA-RL 训练底座：支撑高吞吐、低成本的强化学习快速迭代。并以 Macaron AI 模型训练为案例，展示如何利用 Context Learning 教会模型操作 Dynamic UI，将交互经验沉淀为可复用的模型能力与训练管线。
Macaron AI 模型案例：用 Context Learning 训练 Dynamic UI 交互能力

对于参会者而言，这场分享的直接价值在于：

获得可落地的 RL Infra 建设思路：了解如何搭建一个像 MinT 这样，能够支撑大模型低成本、高吞吐强化学习迭代的基础设施；
将 Context Learning 从理念变为工程现实的前提；
理解可靠性与适应性的平衡术：明白在什么场景下仍需依赖 Context Engineering 确保可靠，又在什么场景下可以放手让模型通过 Context Learning 自主进化，从而设计出更健壮、更灵活的 Agent 系统。

2026 奇点智能技术大会

马骁腾的 Context Learning，只是 2026 奇点智能技术大会众多硬核议题中的一环。

面对“未来没有全栈，只有 Agent 工程师”的行业剧变，我们需要的不只是几场演讲，而是一份可被验证的、成体系的工程经验。

4 月 17-18 日，由 ZEEKLOG 与奇点智能研究院联合主办的「2026 奇点智能技术大会」将在上海环球港凯悦酒店隆重召开。

顶尖阵容：汇聚 50+ 位站在变革最前沿的技术领袖，来自微软、BAT、京东、快手等一线大厂；
硬核议题：覆盖 Agent 系统、世界模型、AI 原生研发、AI Infra 等 12 大前沿专题。

这里没有空泛的预测，只有扎实的复盘与当下的解法与前沿的探索。

与此同时，2026 奇点智能技术大会同步开放多种合作形式：

技术生态合作伙伴
企业专场共建
行业解决方案联合展示
……

我们期待与更多长期主义者一起，为 AI 时代留下可被验证、可被复用的工程经验。

扫码下方二维码

「提前预约 2026 奇点智能技术大会全套 PPT 资料」

官方网站：www.ml-summit.org

购票热线：400-821-5876

购票咨询：[email protected]

企业合作：[email protected]

演讲申请：[email protected]

媒体联系：[email protected]

↓↓ 点击「阅读原文」，了解「2026 奇点智能技术大会」更多信息！

爬虫工程师必备：用Selenium+Python自动获取登录态Cookie的3种实战方案

爬虫工程师的“钥匙串”：三种高可用Selenium Cookie获取方案深度实战做爬虫，尤其是需要处理用户登录态的爬虫，最让人头疼的往往不是解析页面，而是如何稳定、优雅地拿到那把“钥匙”——身份认证凭证。无论是传统的Cookie，还是现代应用偏爱的Token、Session，获取它们的过程，常常是项目从“玩具级”迈向“生产级”的第一道坎。很多开发者止步于简单的driver.get_cookies()，却在面对复杂登录流程、动态令牌或反爬策略时束手无策。今天，我们不谈那些手动复制粘贴的“玩具”方法，而是聚焦于如何用Selenium构建一套健壮的、可自动化的身份凭证获取体系。这不仅仅是调用一个API，更是一场关于浏览器自动化、网络协议理解与工程化思维的实战。 1. 基础与进阶：超越 get_cookies() 的API获取方案绝大多数Selenium教程都会告诉你，获取Cookie只需一行代码：cookies = driver.get_cookies()。这没错，但如果你只停留在这一步，可能会错过一半的风景，并踩进无数的坑。

【SpringBoot】一篇文章讲清楚拦截器所有知识

🎬 那我掉的头发算什么：个人主页 🔥 个人专栏: 《javaSE》《数据结构》《数据库》《javaEE》 ⛺️待到苦尽甘来日文章目录 * 拦截器 * 快速入门 * 定义拦截器 * 注册配置拦截器 * 拦截器详解 * 拦截路径 * 拦截器执行流程 * 登录校验 * 定义注册拦截器 * DispatcherServlet 源码分析 * 适配器模式拦截器快速入门拦截器是 Spring 框架提供的核心功能之一，主要用来拦截用户的请求，在指定方法执行的前后，根据业务需要执行预先设定的代码。也就是说，拦截器允许开发人员提前定义一些通用逻辑，在用户的请求被处理前、响应返回后执行；也可以在用户请求处理前直接阻止其执行。在拦截器中，开发人员可以实现应用程序中的一些通用性操作。比如通过拦截器拦截前端发来的所有请求，判断 Session 中是否存在登录用户的信息：如果存在则放行请求，继续处理业务；如果不存在则拦截请求，拒绝后续处理。就好比上学时进校门出校门需要带出入证，保安就

ROS 2从入门到精通系列（一）：什么是ROS2 - 核心概念和架构

ROS 2从入门到精通系列（一）：什么是ROS2 - 核心概念和架构本文是ROS2系列的第一篇，帮助你快速理解ROS2的核心概念和系统架构。引言如果你即将学习ROS2或者对机器人开发感兴趣，首先需要理解：什么是ROS2？ ROS（Robot Operating System）是一个灵活的框架，用于编写机器人软件。ROS2是其第二代版本，相比ROS1有重大改进。本文将从零开始，帮你建立起对ROS2的全面认识。一、什么是ROS2？ 1.1 ROS2的定义 ROS2 是一个分布式计算框架，专门为机器人应用设计。它提供了： * 硬件抽象 - 屏蔽各类传感器和执行器的底层差异 * 中间件 - 实现进程间通信（IPC）和跨机器通信 * 工具链 - 调试、可视化、模拟等开发工具 * 库和算法 - 常用机器人算法的参考实现 1.2 为什么是ROS2而不是ROS1？

Flutter 组件 ansi_text 适配鸿蒙 HarmonyOS 实战：终端色彩渲染，构建高性能 ANSI 日志高亮与命令行交互架构

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 ansi_text 适配鸿蒙 HarmonyOS 实战：终端色彩渲染，构建高性能 ANSI 日志高亮与命令行交互架构前言在鸿蒙（OpenHarmony）生态迈向工业级运维、涉及大量后台守护进程（Daemon）、系统日志审计及开发者工具链（CLI）开发的背景下，如何为枯燥的纯文本终端注入具备视觉层级的色彩与样式，已成为提升调试效率与故障定位速度的“视觉助推器”。在鸿蒙设备这类强调 AOT 极致性能与低级别 shell 交互的环境下，如果应用依然依赖基础的单色字符串输出日志，由于由于信息流极其庞大且缺乏重点，极易由于由于“视觉疲劳”导致关键系统警告或业务异常被淹没在海量数据中。我们需要一种能够支持 ANSI 转义序列、具备富文本样式（加粗/背景色）且兼容多种终端模拟器的文本渲染方案。 ansi_text 为 Flutter 开发者引入了基于标准

Read more

爬虫工程师必备：用Selenium+Python自动获取登录态Cookie的3种实战方案

【SpringBoot】一篇文章讲清楚拦截器所有知识

ROS 2从入门到精通系列（一）：什么是ROS2 - 核心概念和架构

Flutter 组件 ansi_text 适配鸿蒙 HarmonyOS 实战：终端色彩渲染，构建高性能 ANSI 日志高亮与命令行交互架构