用 10% GPU 跑通万亿参数 RL!马骁腾拆解万亿参数大模型的后训练实战

用 10% GPU 跑通万亿参数 RL!马骁腾拆解万亿参数大模型的后训练实战

整理 | 梦依丹

出品 | ZEEKLOG(ID:ZEEKLOGnews)

左手是提示词的工程化约束,右手是 Context Learning 的自我进化。

在 OpenAI 新发布的《Prompt guidance for GPT-5.4》中,反复提到了 Prompt Contracts(提示词合约)。要求开发者像编写代码一样,严谨地定义 Agent 的输入边界、输出格式与工具调用逻辑,进而换取 AI 行为的确定性。

但在现实操作中,谁又能日复一日地去维护那些冗长、脆弱的“提示词代码”?

真正的 Agent,不应只靠阅读 Context Engineering,更应该具备 Context Learning 的能力。

为此,在 4 月 17-18 日的 2026 奇点智能技术大会上,我们诚邀 Macaron AI 首席科学家、Mind Lab Director 马骁腾带来一场直击 Agent 进化本质的深度分享,让 Agent 从“听指令”进化到“涨经验”。

马骁腾是谁?

提到马骁腾,笔者脑海首先闪现的是强化学习、Agent、1500+……

作为清华大学自动化系的博士、博士后,马骁腾在产业界和学术界有着扎实的底蕴。他在强化学习相关领域发表了 30 余篇顶会论文,谷歌学术引用超过 1500 次。

现在,他是 Macaron AI 首席科学家,也是 Mind Lab 的掌舵人。

他带队研发了面向万亿参数模型的 LoRA-RL 训练底座—— MinT,成功实现了端到端的万亿参数推理强化学习。

以万亿参数模型(如 Kimi K2)为例,该系统所需的 GPU 数量仅为传统全参数 RL 的约 10%。这彻底改变了大模型后训练的经济学,使 RL 能够大规模落地到更多产品和团队中。(核心解读:https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus)

从 Context Engineering 到 Context Learning:万亿参数大模型的后训练实战

在 2026 奇点智能技术大会上,马骁腾将带来 《迈向经验智能:从 Context Engineering 到 Context Learning》 的深度分享,直击当前 AI Agent 开发与落地的核心痛点。

痛点:Prompt 工程的“边际效应递减”

当前的 Agent 开发,陷入了一个“堆砌上下文”的怪圈。

为了让 Agent 应对动态环境(比如操作一个不断更新的 App 界面),工程师们不得不编写越来越长、越来越复杂的 Prompt。但这带来了两个无法回避的问题:

  • 扩展性受限: 人工编排永远赶不上环境的变化速度;
  • 经验无法复用: Agent 每次任务都是“从零开始”,上一次的成功或失败经验,无法沉淀为模型的能力。

解法:Context Learning(在交互中学习)

马骁腾提出的 Context Learning,核心在于“经验的内化”。

通过强化学习,让模型在真实的交互数据中自主试错、积累经验,并将这些经验刻进模型参数里。

实战干货:MinT 底座与 Macaron AI 案例

为了证明这条路走得通,马骁腾将在现场拆解 Mind Lab 的工程实践:

  • MinT 面向万亿参数模型的 LoRA-RL 训练底座:支撑高吞吐、低成本的强化学习快速迭代。并以 Macaron AI 模型训练为案例,展示如何利用 Context Learning 教会模型操作 Dynamic UI,将交互经验沉淀为可复用的模型能力与训练管线。
  • Macaron AI 模型案例:用 Context Learning 训练 Dynamic UI 交互能力

对于参会者而言,这场分享的直接价值在于:

  • 获得可落地的 RL Infra 建设思路:了解如何搭建一个像 MinT 这样,能够支撑大模型低成本、高吞吐强化学习迭代的基础设施;
  • 将 Context Learning 从理念变为工程现实的前提;
  • 理解可靠性与适应性的平衡术:明白在什么场景下仍需依赖 Context Engineering 确保可靠,又在什么场景下可以放手让模型通过 Context Learning 自主进化,从而设计出更健壮、更灵活的 Agent 系统。

2026 奇点智能技术大会

马骁腾的 Context Learning,只是 2026 奇点智能技术大会众多硬核议题中的一环。

面对“未来没有全栈,只有 Agent 工程师”的行业剧变,我们需要的不只是几场演讲,而是一份可被验证的、成体系的工程经验。

4 月 17-18 日,由 ZEEKLOG 与 奇点智能研究院联合主办的「2026 奇点智能技术大会」 将在上海环球港凯悦酒店隆重召开。

  • 顶尖阵容: 汇聚 50+ 位站在变革最前沿的技术领袖,来自 微软、BAT、京东、快手等一线大厂;
  • 硬核议题: 覆盖 Agent 系统、世界模型、AI 原生研发、AI Infra 等 12 大前沿专题。

这里没有空泛的预测,只有扎实的复盘与当下的解法与前沿的探索。

与此同时,2026 奇点智能技术大会同步开放多种合作形式:

  • 技术生态合作伙伴
  • 企业专场共建
  • 行业解决方案联合展示
  • ……

我们期待与更多长期主义者一起,为 AI 时代留下可被验证、可被复用的工程经验。

图片

扫码下方二维码

提前预约 2026 奇点智能技术大会全套 PPT 资料

图片

官方网站:www.ml-summit.org

购票热线:400-821-5876

购票咨询:[email protected]

企业合作:[email protected]

演讲申请:[email protected]

媒体联系:[email protected]

↓↓ 点击「阅读原文」,了解「2026  奇点智能技术大会」更多信息!

Read more

用 10% GPU 跑通万亿参数 RL!马骁腾拆解万亿参数大模型的后训练实战

用 10% GPU 跑通万亿参数 RL!马骁腾拆解万亿参数大模型的后训练实战

整理 | 梦依丹 出品 | ZEEKLOG(ID:ZEEKLOGnews) 左手是提示词的工程化约束,右手是 Context Learning 的自我进化。 在 OpenAI 新发布的《Prompt guidance for GPT-5.4》中,反复提到了 Prompt Contracts(提示词合约)。要求开发者像编写代码一样,严谨地定义 Agent 的输入边界、输出格式与工具调用逻辑,进而换取 AI 行为的确定性。 但在现实操作中,谁又能日复一日地去维护那些冗长、脆弱的“提示词代码”? 真正的 Agent,不应只靠阅读 Context Engineering,更应该具备 Context Learning 的能力。 为此,在 4 月 17-18

By Ne0inhk
当OpenClaw引爆全网,谁来解决企业AI Agent的“落地焦虑”?

当OpenClaw引爆全网,谁来解决企业AI Agent的“落地焦虑”?

2026 年 3 月,开源 AI Agent 框架 OpenClaw 在 GitHub 上的星标突破28万,并一度超越 React,成为 GitHub 最受关注的软件项目之一。短时间内,开发者利用它构建了大量实验性应用:从全栈开发辅助,到自动化营销脚本,再到桌面操作自动化,AI Agent 的能力边界正在迅速被拓展。 这股热潮也带动了另一个趋势——本地部署与算力硬件需求的快速增长。越来越多开发者尝试在个人设备或企业服务器上运行 Agent 系统,以获得更高的控制权和数据安全性。 从表面上看,AI Agent 似乎正从“概念验证”走向更广泛的开发实践。但在企业环境中,情况却没有想象中乐观。当企业负责人开始追问—— “它能直接解决我的业务问题吗?” 很多演示级产品仍难以给出令人满意的答案。 如何让 Agent 真正融入企业既有系统、适配复杂业务流程,正成为大模型产业落地必须跨越的一道门槛。 与此同时,中国不同城市的产业结构差异明显:互联网、

By Ne0inhk
二手平台出现OpenClaw卸载服务,299元可上门“帮卸”;2026年春招AI人才身价暴涨:平均月薪超6万;Meta辟谣亚历山大·王离职 | 极客头条

二手平台出现OpenClaw卸载服务,299元可上门“帮卸”;2026年春招AI人才身价暴涨:平均月薪超6万;Meta辟谣亚历山大·王离职 | 极客头条

「极客头条」—— 技术人员的新闻圈! ZEEKLOG 的读者朋友们好,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。(投稿或寻求报道:[email protected]) 整理 | 苏宓 出品 | ZEEKLOG(ID:ZEEKLOGnews) 一分钟速览新闻点! * 微信员工辟谣“小龙虾可自动发红包”:不要以讹传讹 * 蚂蚁集团启动春招,超 70% 为 AI 相关岗位 * 受贿 208 万!拼多多一员工被抓 * 2026 年春招 AI 人才身价暴涨: 平均月薪超 6 万元 * 二手平台出现 OpenClaw 上门卸载服务 * 权限太高,国家互联网应急中心发布 OpenClaw 安全应用的风险提示 * 字节豆包内测 AI 电商功能:无需跳转抖音,日活用户数超

By Ne0inhk
遭“美国政府封杀”后,Anthropic正式提起诉讼!

遭“美国政府封杀”后,Anthropic正式提起诉讼!

整理 | 苏宓 出品 | ZEEKLOG(ID:ZEEKLOGnews) 据路透社报道,当地时间周一,AI 初创公司 Anthropic 正式对美国国防部及特朗普政府提起诉讼,抗议五角大楼将其列为“国家安全供应链风险”主体的决定。 Anthropic 在向美国加州北区地方法院提交的诉讼文件中表示,这一认定“史无前例且非法”,已对公司造成“不可挽回的损害”。公司希望法院撤销该决定,并指示联邦机构停止执行相关认定。 划定 AI 应用红线,双方观点不一 正如我们此前报道,这场争端的核心在于 Anthropic 为其核心 AI 模型 Claude 设定的两条技术使用红线,与美国国防部的使用需求发生根本冲突。 此前,Anthropic 曾与五角大楼签署一份价值最高可达 2 亿美元的合作合同,Claude 也成为少数被纳入美国机密网络环境进行测试的 AI 系统之一。 对此,Anthropic 一直坚持两条底线: * Claude 等技术不得被用于对美国民众的大规模国内监控;

By Ne0inhk