用 10% GPU 跑通万亿参数 RL！马骁腾拆解万亿参数大模型的后训练实战

Ne0inhk

15 Mar 2026 — 6 min read

整理 | 梦依丹

出品 | ZEEKLOG（ID：ZEEKLOGnews）

左手是提示词的工程化约束，右手是 Context Learning 的自我进化。

在 OpenAI 新发布的《Prompt guidance for GPT-5.4》中，反复提到了 Prompt Contracts（提示词合约）。要求开发者像编写代码一样，严谨地定义 Agent 的输入边界、输出格式与工具调用逻辑，进而换取 AI 行为的确定性。

但在现实操作中，谁又能日复一日地去维护那些冗长、脆弱的“提示词代码”？

真正的 Agent，不应只靠阅读 Context Engineering，更应该具备 Context Learning 的能力。

为此，在 4 月 17-18 日的 2026 奇点智能技术大会上，我们诚邀 Macaron AI 首席科学家、Mind Lab Director 马骁腾带来一场直击 Agent 进化本质的深度分享，让 Agent 从“听指令”进化到“涨经验”。

马骁腾是谁？

提到马骁腾，笔者脑海首先闪现的是强化学习、Agent、1500+……

作为清华大学自动化系的博士、博士后，马骁腾在产业界和学术界有着扎实的底蕴。他在强化学习相关领域发表了 30 余篇顶会论文，谷歌学术引用超过 1500 次。

现在，他是 Macaron AI 首席科学家，也是 Mind Lab 的掌舵人。

他带队研发了面向万亿参数模型的 LoRA-RL 训练底座—— MinT，成功实现了端到端的万亿参数推理强化学习。

以万亿参数模型（如 Kimi K2）为例，该系统所需的 GPU 数量仅为传统全参数 RL 的约 10%。这彻底改变了大模型后训练的经济学，使 RL 能够大规模落地到更多产品和团队中。（核心解读：https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus）

从 Context Engineering 到 Context Learning：万亿参数大模型的后训练实战

在 2026 奇点智能技术大会上，马骁腾将带来《迈向经验智能：从 Context Engineering 到 Context Learning》的深度分享，直击当前 AI Agent 开发与落地的核心痛点。

痛点：Prompt 工程的“边际效应递减”

当前的 Agent 开发，陷入了一个“堆砌上下文”的怪圈。

为了让 Agent 应对动态环境（比如操作一个不断更新的 App 界面），工程师们不得不编写越来越长、越来越复杂的 Prompt。但这带来了两个无法回避的问题：

扩展性受限：人工编排永远赶不上环境的变化速度；
经验无法复用： Agent 每次任务都是“从零开始”，上一次的成功或失败经验，无法沉淀为模型的能力。

解法：Context Learning（在交互中学习）

马骁腾提出的 Context Learning，核心在于“经验的内化”。

通过强化学习，让模型在真实的交互数据中自主试错、积累经验，并将这些经验刻进模型参数里。

实战干货：MinT 底座与 Macaron AI 案例

为了证明这条路走得通，马骁腾将在现场拆解 Mind Lab 的工程实践：

MinT 面向万亿参数模型的 LoRA-RL 训练底座：支撑高吞吐、低成本的强化学习快速迭代。并以 Macaron AI 模型训练为案例，展示如何利用 Context Learning 教会模型操作 Dynamic UI，将交互经验沉淀为可复用的模型能力与训练管线。
Macaron AI 模型案例：用 Context Learning 训练 Dynamic UI 交互能力

对于参会者而言，这场分享的直接价值在于：

获得可落地的 RL Infra 建设思路：了解如何搭建一个像 MinT 这样，能够支撑大模型低成本、高吞吐强化学习迭代的基础设施；
将 Context Learning 从理念变为工程现实的前提；
理解可靠性与适应性的平衡术：明白在什么场景下仍需依赖 Context Engineering 确保可靠，又在什么场景下可以放手让模型通过 Context Learning 自主进化，从而设计出更健壮、更灵活的 Agent 系统。

2026 奇点智能技术大会

马骁腾的 Context Learning，只是 2026 奇点智能技术大会众多硬核议题中的一环。

面对“未来没有全栈，只有 Agent 工程师”的行业剧变，我们需要的不只是几场演讲，而是一份可被验证的、成体系的工程经验。

4 月 17-18 日，由 ZEEKLOG 与奇点智能研究院联合主办的「2026 奇点智能技术大会」将在上海环球港凯悦酒店隆重召开。

顶尖阵容：汇聚 50+ 位站在变革最前沿的技术领袖，来自微软、BAT、京东、快手等一线大厂；
硬核议题：覆盖 Agent 系统、世界模型、AI 原生研发、AI Infra 等 12 大前沿专题。

这里没有空泛的预测，只有扎实的复盘与当下的解法与前沿的探索。

与此同时，2026 奇点智能技术大会同步开放多种合作形式：

技术生态合作伙伴
企业专场共建
行业解决方案联合展示
……

我们期待与更多长期主义者一起，为 AI 时代留下可被验证、可被复用的工程经验。

扫码下方二维码

「提前预约 2026 奇点智能技术大会全套 PPT 资料」

官方网站：www.ml-summit.org

购票热线：400-821-5876

购票咨询：[email protected]

企业合作：[email protected]

演讲申请：[email protected]

媒体联系：[email protected]

↓↓ 点击「阅读原文」，了解「2026 奇点智能技术大会」更多信息！

不止“996”！曝硅谷AI创业圈「极限工作制」：每天16小时、凌晨3点下班、周末也在写代码

编译 | 郑丽媛出品 | ZEEKLOG（ID：ZEEKLOGnews） “如果你周日去旧金山的咖啡馆，会发现几乎每个人都在工作。” 这是 AI 创业公司 Mythril 联合创始人 Sanju Lokuhitige 最近最直观的感受。去年 11 月，他特地搬到旧金山，只为了更接近 AI 创业浪潮的中心。但很快，他也被卷入了这股浪潮带来的另一面——一种越来越极端的工作文化。 Lokuhitige 坦言，他现在几乎每天工作 12 小时，每周 7 天。除了每周少数几场刻意安排的社交活动（主要是为了和创业者们建立联系），其余时间几乎都在写代码、做产品。 “有时候我整整一天都在编程，”他说，“我基本没有什么工作与生活的平衡。”而这样的生活，在如今的 AI 创业圈里并不算罕见。旧金山 AI 创业圈的真实日常一位在旧金山一家 AI

黄仁勋公开发文：传统软件开发模式终结，参与AI不必非得拥有计算机博士学位

AI 究竟是什么？在 NVIDIA CEO 黄仁勋看来，它早已不只是聊天机器人或某个大模型，而是一种正在迅速成形的“新型基础设施”。近日，黄仁勋在英伟达官网发布了一篇长文，提出一个颇具形象的比喻——AI 就像一块“五层蛋糕”。从最底层的能源，到芯片、基础设施、模型，再到最上层的应用，人工智能正在形成一整套完整的产业技术栈，并像电力和互联网一样，逐渐成为现代社会的底层能力。这也是黄仁勋自 2016 年以来公开发表的第七篇长文。在这篇文章中，他从计算机发展史与第一性原理出发，试图解释 AI 技术栈为何会演化成如今的形态，以及为什么全球正在掀起一场规模空前的 AI 基础设施建设。在他看来，过去几十年的软件大多是预先编写好的程序：人类设计好算法，计算机按指令执行，数据被结构化存储在数据库中，通过精确查询调用。而 AI 的出现打破了这一模式——计算机开始能够理解图像、文本和声音，并根据上下文实时生成答案、推理结果甚至新的内容。正因为智能不再是预先写好的代码，而是实时生成的能力，支撑它运行的整个计算体系也必须被重新设计。

猛裁1.6万人后，网站再崩6小时、一周4次重大事故！官方“紧急复盘”：跟裁员无关，也不是AI写代码的锅

整理 | 郑丽媛出品 | ZEEKLOG（ID：ZEEKLOGnews）过去几年里，科技公司几乎都在同一件事上加速：让 AI 参与写代码。从自动补全、自动生成函数，到直接修改系统配置，生成式 AI 已经逐渐走进真实生产环境。但最近发生在亚马逊的一连串事故，却给整个行业泼了一盆冷水——当 AI 开始真正参与生产环境开发时，事情可能远比想象复杂。最近，多家媒体披露，本周二亚马逊内部紧急召开了一场工程“深度复盘（deep dive）”会议，专门讨论最近频繁出现的系统故障——其中，一个被反复提及的关键词是：AI 辅助代码。一周 4 次严重事故，亚马逊内部紧急复盘事情的起点，是最近一段时间亚马逊系统稳定性明显下降。负责亚马逊网站技术架构的高级副总裁 Dave Treadwell 在一封内部邮件中坦言：“各位，正如大家可能已经知道的，最近网站及相关基础设施的可用性确实不太理想。” 为此，公司决定把原本每周例行举行的技术会议

这回真的“装”到了！来OpenClaw全国纵深行，你只需要带一台电脑……

AI Agent 的风，已经从 GitHub 吹到了线下。过去几个月，越来越多开发者开始讨论一个问题：当 AI 不再只是聊天，而是可以执行任务，软件会变成什么样？在这股浪潮中，一个开源项目迅速进入开发者视野——OpenClaw，在 GitHub 上获得大量关注，相关教程、实践案例不断出现。有人用它自动整理资料，有人用它管理开发流程，还有人尝试让它执行复杂的工作流。很多开发者第一次意识到： AI 不只是工具，它可能成为“执行者”。不过，在技术社区之外，大多数人对 Agent 的理解仍停留在概念层面。 * AI Agent 到底是什么？ * 如何在自己的电脑上运行？ * 普通开发者能否真正用起来？带着这些问题，一场围绕 OpenClaw 的开发者城市行动正在展开。 ZEEKLOG 发起的OpenClaw 全国纵深行将走进 20 个城市，用最直接的方式回答一个问题——如果

Read more

不止“996”！曝硅谷AI创业圈「极限工作制」：每天16小时、凌晨3点下班、周末也在写代码

黄仁勋公开发文：传统软件开发模式终结，参与AI不必非得拥有计算机博士学位

猛裁1.6万人后，网站再崩6小时、一周4次重大事故！官方“紧急复盘”：跟裁员无关，也不是AI写代码的锅

这回真的“装”到了！来OpenClaw全国纵深行，你只需要带一台电脑……