用 10% GPU 跑通万亿参数 RL！马骁腾拆解万亿参数大模型的后训练实战

Ne0inhk

15 Mar 2026 — 6 min read

整理 | 梦依丹

出品 | ZEEKLOG（ID：ZEEKLOGnews）

左手是提示词的工程化约束，右手是 Context Learning 的自我进化。

在 OpenAI 新发布的《Prompt guidance for GPT-5.4》中，反复提到了 Prompt Contracts（提示词合约）。要求开发者像编写代码一样，严谨地定义 Agent 的输入边界、输出格式与工具调用逻辑，进而换取 AI 行为的确定性。

但在现实操作中，谁又能日复一日地去维护那些冗长、脆弱的“提示词代码”？

真正的 Agent，不应只靠阅读 Context Engineering，更应该具备 Context Learning 的能力。

为此，在 4 月 17-18 日的 2026 奇点智能技术大会上，我们诚邀 Macaron AI 首席科学家、Mind Lab Director 马骁腾带来一场直击 Agent 进化本质的深度分享，让 Agent 从“听指令”进化到“涨经验”。

马骁腾是谁？

提到马骁腾，笔者脑海首先闪现的是强化学习、Agent、1500+……

作为清华大学自动化系的博士、博士后，马骁腾在产业界和学术界有着扎实的底蕴。他在强化学习相关领域发表了 30 余篇顶会论文，谷歌学术引用超过 1500 次。

现在，他是 Macaron AI 首席科学家，也是 Mind Lab 的掌舵人。

他带队研发了面向万亿参数模型的 LoRA-RL 训练底座—— MinT，成功实现了端到端的万亿参数推理强化学习。

以万亿参数模型（如 Kimi K2）为例，该系统所需的 GPU 数量仅为传统全参数 RL 的约 10%。这彻底改变了大模型后训练的经济学，使 RL 能够大规模落地到更多产品和团队中。（核心解读：https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus）

从 Context Engineering 到 Context Learning：万亿参数大模型的后训练实战

在 2026 奇点智能技术大会上，马骁腾将带来《迈向经验智能：从 Context Engineering 到 Context Learning》的深度分享，直击当前 AI Agent 开发与落地的核心痛点。

痛点：Prompt 工程的“边际效应递减”

当前的 Agent 开发，陷入了一个“堆砌上下文”的怪圈。

为了让 Agent 应对动态环境（比如操作一个不断更新的 App 界面），工程师们不得不编写越来越长、越来越复杂的 Prompt。但这带来了两个无法回避的问题：

扩展性受限：人工编排永远赶不上环境的变化速度；
经验无法复用： Agent 每次任务都是“从零开始”，上一次的成功或失败经验，无法沉淀为模型的能力。

解法：Context Learning（在交互中学习）

马骁腾提出的 Context Learning，核心在于“经验的内化”。

通过强化学习，让模型在真实的交互数据中自主试错、积累经验，并将这些经验刻进模型参数里。

实战干货：MinT 底座与 Macaron AI 案例

为了证明这条路走得通，马骁腾将在现场拆解 Mind Lab 的工程实践：

MinT 面向万亿参数模型的 LoRA-RL 训练底座：支撑高吞吐、低成本的强化学习快速迭代。并以 Macaron AI 模型训练为案例，展示如何利用 Context Learning 教会模型操作 Dynamic UI，将交互经验沉淀为可复用的模型能力与训练管线。
Macaron AI 模型案例：用 Context Learning 训练 Dynamic UI 交互能力

对于参会者而言，这场分享的直接价值在于：

获得可落地的 RL Infra 建设思路：了解如何搭建一个像 MinT 这样，能够支撑大模型低成本、高吞吐强化学习迭代的基础设施；
将 Context Learning 从理念变为工程现实的前提；
理解可靠性与适应性的平衡术：明白在什么场景下仍需依赖 Context Engineering 确保可靠，又在什么场景下可以放手让模型通过 Context Learning 自主进化，从而设计出更健壮、更灵活的 Agent 系统。

2026 奇点智能技术大会

马骁腾的 Context Learning，只是 2026 奇点智能技术大会众多硬核议题中的一环。

面对“未来没有全栈，只有 Agent 工程师”的行业剧变，我们需要的不只是几场演讲，而是一份可被验证的、成体系的工程经验。

4 月 17-18 日，由 ZEEKLOG 与奇点智能研究院联合主办的「2026 奇点智能技术大会」将在上海环球港凯悦酒店隆重召开。

顶尖阵容：汇聚 50+ 位站在变革最前沿的技术领袖，来自微软、BAT、京东、快手等一线大厂；
硬核议题：覆盖 Agent 系统、世界模型、AI 原生研发、AI Infra 等 12 大前沿专题。

这里没有空泛的预测，只有扎实的复盘与当下的解法与前沿的探索。

与此同时，2026 奇点智能技术大会同步开放多种合作形式：

技术生态合作伙伴
企业专场共建
行业解决方案联合展示
……

我们期待与更多长期主义者一起，为 AI 时代留下可被验证、可被复用的工程经验。

扫码下方二维码

「提前预约 2026 奇点智能技术大会全套 PPT 资料」

官方网站：www.ml-summit.org

购票热线：400-821-5876

购票咨询：[email protected]

企业合作：[email protected]

演讲申请：[email protected]

媒体联系：[email protected]

↓↓ 点击「阅读原文」，了解「2026 奇点智能技术大会」更多信息！

蓝耘科技上线DeepSeek满血版：500万Tokens专享，解锁AI推理新体验

蓝耘科技：智算云平台的创新者作为专注于高性能AI基础设施的科技企业，蓝耘科技于2024年11月正式发布元生代智算云平台，整合了智算算力调度、AI应用市场和协作开发三大模块。该平台通过裸金属调度和容器化技术，为用户提供灵活高效的算力资源管理，同时支持团队协作开发，大幅提升AI模型训练与推理效率。 DeepSeek-R1满血版：技术突破与实战优势此次上线的DeepSeek-R1满血版，基于MoE（Mixture of Experts）架构优化，在32K上下文窗口下实现了动态稀疏激活： * 数学推理：通过RLHF+DPO混合训练策略，在MATH数据集上准确率达到68.3%（GPT-4为74.9%），但推理成本降低97%。 * 代码生成：集成代码检索增强技术（RAG），支持Python/Java/C++等12种语言，HumanEval pass@1得分82.1%。 * 长文本理解：采用滑动窗口注意力机制（SWA），在16K tokens文本摘要任务中ROUGE-L得分提升15%。开发者可通过量化压缩技术（支持FP16/INT8）灵活控制显存占用，在单卡RTX 4090上

Flutter 三方库 tiktoken 鸿蒙端侧 AI 重载计算环境适配指南：极尽压榨设备级 BPE 分词器吞吐量边界，打造工业级精控的大模型高昂运算成本阀门-适配鸿蒙 HarmonyOS ohos

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 tiktoken 鸿蒙端侧 AI 重载计算环境适配指南：极尽压榨设备级 BPE 分词器吞吐量边界，打造工业级精控的大模型高昂运算成本阀门防线在开发鸿蒙平台的生成式 AI 应用（如大模型助手、智能写作或 Rerank 逻辑）时，如何精确预估 Prompt 的消耗？如何实现窗口精度的截断？tiktoken 提供了一套完整的 OpenAI BPE（字节对编码）分词算法实现。本文将详解该库在 OpenHarmony 上的适配要点。前言什么是 tiktoken？它是 OpenAI 为其 GPT 系列模型推出的高性能 BPE 分词器。不同于常规的字符计数，Token 是模型处理文本的最小单位。在鸿蒙操作系统强调的“

如何用AI加速Simulink建模与仿真

快速体验 1. 打开 InsCode(快马)平台 https://www.inscode.net 2. 点击'项目生成'按钮，等待项目生成完整后预览效果输入框内输入如下内容：使用快马平台生成一个Simulink模型代码，用于模拟一个PID控制器系统。要求包含输入信号生成模块、PID控制器模块、被控对象模块和输出显示模块。系统应能自动调整PID参数以达到最佳控制效果，并生成相应的仿真结果图表。最近在研究控制系统设计时，发现Simulink建模虽然强大，但手动搭建复杂模型相当耗时。尤其像PID控制器这类需要反复调试的系统，光是参数优化就能让人抓狂。于是尝试用AI工具来辅助开发，效果出乎意料的好，这里分享一下具体操作和心得。 1. 明确建模目标首先需要明确要实现的系统功能：构建一个完整的PID控制闭环，包含信号输入、控制器、被控对象和结果可视化四个核心模块。传统手动建模至少要经历模块拖拽、连线、参数设置、仿真验证等十余个步骤。 2. 参数智能优化最惊喜的是AI能根据被控对象特性推荐初始PID参数。比如当模型包含惯性环节时，会自动给出较大的微分时间常

重磅！TRAE 中国版 SOLO 全量免费开放，AI 驱动开发迎来全民时代

2026 年开年伊始，AI 编程领域就迎来了一枚重磅炸弹——TRAE 中国版 SOLO 模式正式宣布全量免费开放！从此前的白名单排队、权限受限，到如今更新最新版 IDE 即可直接启用，这场免费策略的转变，不仅彻底降低了开发者接触顶尖 AI 编程工具的门槛，更标志着 AI 驱动开发正式迈入全民普及的新阶段。作为长期关注 AI 编程生态以及长期深度使用SOLO的技术博主，今天就带大家深度拆解这次开放的核心价值、SOLO 模式的独特优势，以及它将如何重塑我们的开发流程。先搞懂：TRAE SOLO 到底是什么？可能还有部分开发者对 SOLO 模式不太熟悉，简单来说，它绝非传统的代码补全工具，而是一个以 AI 为主导的全流程开发中枢。如果说普通的 AI 编程插件是“辅助打工者”，那 SOLO 模式就是“全能项目经理 + 执行团队”的结合体。回顾

Read more

蓝耘科技上线DeepSeek满血版：500万Tokens专享，解锁AI推理新体验

Flutter 三方库 tiktoken 鸿蒙端侧 AI 重载计算环境适配指南：极尽压榨设备级 BPE 分词器吞吐量边界，打造工业级精控的大模型高昂运算成本阀门-适配鸿蒙 HarmonyOS ohos

如何用AI加速Simulink建模与仿真

重磅！TRAE 中国版 SOLO 全量免费开放，AI 驱动开发迎来全民时代