用 10% GPU 跑通万亿参数 RL!马骁腾拆解万亿参数大模型的后训练实战

用 10% GPU 跑通万亿参数 RL!马骁腾拆解万亿参数大模型的后训练实战

整理 | 梦依丹

出品 | ZEEKLOG(ID:ZEEKLOGnews)

左手是提示词的工程化约束,右手是 Context Learning 的自我进化。

在 OpenAI 新发布的《Prompt guidance for GPT-5.4》中,反复提到了 Prompt Contracts(提示词合约)。要求开发者像编写代码一样,严谨地定义 Agent 的输入边界、输出格式与工具调用逻辑,进而换取 AI 行为的确定性。

但在现实操作中,谁又能日复一日地去维护那些冗长、脆弱的“提示词代码”?

真正的 Agent,不应只靠阅读 Context Engineering,更应该具备 Context Learning 的能力。

为此,在 4 月 17-18 日的 2026 奇点智能技术大会上,我们诚邀 Macaron AI 首席科学家、Mind Lab Director 马骁腾带来一场直击 Agent 进化本质的深度分享,让 Agent 从“听指令”进化到“涨经验”。

马骁腾是谁?

提到马骁腾,笔者脑海首先闪现的是强化学习、Agent、1500+……

作为清华大学自动化系的博士、博士后,马骁腾在产业界和学术界有着扎实的底蕴。他在强化学习相关领域发表了 30 余篇顶会论文,谷歌学术引用超过 1500 次。

现在,他是 Macaron AI 首席科学家,也是 Mind Lab 的掌舵人。

他带队研发了面向万亿参数模型的 LoRA-RL 训练底座—— MinT,成功实现了端到端的万亿参数推理强化学习。

以万亿参数模型(如 Kimi K2)为例,该系统所需的 GPU 数量仅为传统全参数 RL 的约 10%。这彻底改变了大模型后训练的经济学,使 RL 能够大规模落地到更多产品和团队中。(核心解读:https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus)

从 Context Engineering 到 Context Learning:万亿参数大模型的后训练实战

在 2026 奇点智能技术大会上,马骁腾将带来 《迈向经验智能:从 Context Engineering 到 Context Learning》 的深度分享,直击当前 AI Agent 开发与落地的核心痛点。

痛点:Prompt 工程的“边际效应递减”

当前的 Agent 开发,陷入了一个“堆砌上下文”的怪圈。

为了让 Agent 应对动态环境(比如操作一个不断更新的 App 界面),工程师们不得不编写越来越长、越来越复杂的 Prompt。但这带来了两个无法回避的问题:

  • 扩展性受限: 人工编排永远赶不上环境的变化速度;
  • 经验无法复用: Agent 每次任务都是“从零开始”,上一次的成功或失败经验,无法沉淀为模型的能力。

解法:Context Learning(在交互中学习)

马骁腾提出的 Context Learning,核心在于“经验的内化”。

通过强化学习,让模型在真实的交互数据中自主试错、积累经验,并将这些经验刻进模型参数里。

实战干货:MinT 底座与 Macaron AI 案例

为了证明这条路走得通,马骁腾将在现场拆解 Mind Lab 的工程实践:

  • MinT 面向万亿参数模型的 LoRA-RL 训练底座:支撑高吞吐、低成本的强化学习快速迭代。并以 Macaron AI 模型训练为案例,展示如何利用 Context Learning 教会模型操作 Dynamic UI,将交互经验沉淀为可复用的模型能力与训练管线。
  • Macaron AI 模型案例:用 Context Learning 训练 Dynamic UI 交互能力

对于参会者而言,这场分享的直接价值在于:

  • 获得可落地的 RL Infra 建设思路:了解如何搭建一个像 MinT 这样,能够支撑大模型低成本、高吞吐强化学习迭代的基础设施;
  • 将 Context Learning 从理念变为工程现实的前提;
  • 理解可靠性与适应性的平衡术:明白在什么场景下仍需依赖 Context Engineering 确保可靠,又在什么场景下可以放手让模型通过 Context Learning 自主进化,从而设计出更健壮、更灵活的 Agent 系统。

2026 奇点智能技术大会

马骁腾的 Context Learning,只是 2026 奇点智能技术大会众多硬核议题中的一环。

面对“未来没有全栈,只有 Agent 工程师”的行业剧变,我们需要的不只是几场演讲,而是一份可被验证的、成体系的工程经验。

4 月 17-18 日,由 ZEEKLOG 与 奇点智能研究院联合主办的「2026 奇点智能技术大会」 将在上海环球港凯悦酒店隆重召开。

  • 顶尖阵容: 汇聚 50+ 位站在变革最前沿的技术领袖,来自 微软、BAT、京东、快手等一线大厂;
  • 硬核议题: 覆盖 Agent 系统、世界模型、AI 原生研发、AI Infra 等 12 大前沿专题。

这里没有空泛的预测,只有扎实的复盘与当下的解法与前沿的探索。

与此同时,2026 奇点智能技术大会同步开放多种合作形式:

  • 技术生态合作伙伴
  • 企业专场共建
  • 行业解决方案联合展示
  • ……

我们期待与更多长期主义者一起,为 AI 时代留下可被验证、可被复用的工程经验。

图片

扫码下方二维码

提前预约 2026 奇点智能技术大会全套 PPT 资料

图片

官方网站:www.ml-summit.org

购票热线:400-821-5876

购票咨询:[email protected]

企业合作:[email protected]

演讲申请:[email protected]

媒体联系:[email protected]

↓↓ 点击「阅读原文」,了解「2026  奇点智能技术大会」更多信息!

Read more

不止“996”!曝硅谷AI创业圈「极限工作制」:每天16小时、凌晨3点下班、周末也在写代码

不止“996”!曝硅谷AI创业圈「极限工作制」:每天16小时、凌晨3点下班、周末也在写代码

编译 | 郑丽媛 出品 | ZEEKLOG(ID:ZEEKLOGnews) “如果你周日去旧金山的咖啡馆,会发现几乎每个人都在工作。” 这是 AI 创业公司 Mythril 联合创始人 Sanju Lokuhitige 最近最直观的感受。去年 11 月,他特地搬到旧金山,只为了更接近 AI 创业浪潮的中心。但很快,他也被卷入了这股浪潮带来的另一面——一种越来越极端的工作文化。 Lokuhitige 坦言,他现在几乎每天工作 12 小时,每周 7 天。除了每周少数几场刻意安排的社交活动(主要是为了和创业者们建立联系),其余时间几乎都在写代码、做产品。 “有时候我整整一天都在编程,”他说,“我基本没有什么工作与生活的平衡。”而这样的生活,在如今的 AI 创业圈里并不算罕见。 旧金山 AI 创业圈的真实日常 一位在旧金山一家 AI

By Ne0inhk
黄仁勋公开发文:传统软件开发模式终结,参与AI不必非得拥有计算机博士学位

黄仁勋公开发文:传统软件开发模式终结,参与AI不必非得拥有计算机博士学位

AI 究竟是什么?在 NVIDIA CEO 黄仁勋看来,它早已不只是聊天机器人或某个大模型,而是一种正在迅速成形的“新型基础设施”。 近日,黄仁勋在英伟达官网发布了一篇长文,提出一个颇具形象的比喻——AI 就像一块“五层蛋糕”。从最底层的能源,到芯片、基础设施、模型,再到最上层的应用,人工智能正在形成一整套完整的产业技术栈,并像电力和互联网一样,逐渐成为现代社会的底层能力。 这也是黄仁勋自 2016 年以来公开发表的第七篇长文。在这篇文章中,他从计算机发展史与第一性原理出发,试图解释 AI 技术栈为何会演化成如今的形态,以及为什么全球正在掀起一场规模空前的 AI 基础设施建设。 在他看来,过去几十年的软件大多是预先编写好的程序:人类设计好算法,计算机按指令执行,数据被结构化存储在数据库中,通过精确查询调用。而 AI 的出现打破了这一模式——计算机开始能够理解图像、文本和声音,并根据上下文实时生成答案、推理结果甚至新的内容。 正因为智能不再是预先写好的代码,而是实时生成的能力,支撑它运行的整个计算体系也必须被重新设计。

By Ne0inhk
猛裁1.6万人后,网站再崩6小时、一周4次重大事故!官方“紧急复盘”:跟裁员无关,也不是AI写代码的锅

猛裁1.6万人后,网站再崩6小时、一周4次重大事故!官方“紧急复盘”:跟裁员无关,也不是AI写代码的锅

整理 | 郑丽媛 出品 | ZEEKLOG(ID:ZEEKLOGnews) 过去几年里,科技公司几乎都在同一件事上加速:让 AI 参与写代码。 从自动补全、自动生成函数,到直接修改系统配置,生成式 AI 已经逐渐走进真实生产环境。但最近发生在亚马逊的一连串事故,却给整个行业泼了一盆冷水——当 AI 开始真正参与生产环境开发时,事情可能远比想象复杂。 最近,多家媒体披露,本周二亚马逊内部紧急召开了一场工程“深度复盘(deep dive)”会议,专门讨论最近频繁出现的系统故障——其中,一个被反复提及的关键词是:AI 辅助代码。 一周 4 次严重事故,亚马逊内部紧急复盘 事情的起点,是最近一段时间亚马逊系统稳定性明显下降。 负责亚马逊网站技术架构的高级副总裁 Dave Treadwell 在一封内部邮件中坦言:“各位,正如大家可能已经知道的,最近网站及相关基础设施的可用性确实不太理想。” 为此,公司决定把原本每周例行举行的技术会议

By Ne0inhk
这回真的“装”到了!来OpenClaw全国纵深行,你只需要带一台电脑……

这回真的“装”到了!来OpenClaw全国纵深行,你只需要带一台电脑……

AI Agent 的风,已经从 GitHub 吹到了线下。 过去几个月,越来越多开发者开始讨论一个问题: 当 AI 不再只是聊天,而是可以执行任务,软件会变成什么样? 在这股浪潮中,一个开源项目迅速进入开发者视野——OpenClaw,在 GitHub 上获得大量关注,相关教程、实践案例不断出现。有人用它自动整理资料,有人用它管理开发流程,还有人尝试让它执行复杂的工作流。 很多开发者第一次意识到: AI 不只是工具,它可能成为“执行者”。 不过,在技术社区之外,大多数人对 Agent 的理解仍停留在概念层面。 * AI Agent 到底是什么? * 如何在自己的电脑上运行? * 普通开发者能否真正用起来? 带着这些问题,一场围绕 OpenClaw 的开发者城市行动正在展开。 ZEEKLOG 发起的OpenClaw 全国纵深行将走进 20 个城市,用最直接的方式回答一个问题——如果

By Ne0inhk