用 10% GPU 跑通万亿参数 RL！马骁腾拆解万亿参数大模型的后训练实战

Ne0inhk

16 Mar 2026 — 6 min read

整理 | 梦依丹

出品 | ZEEKLOG（ID：ZEEKLOGnews）

左手是提示词的工程化约束，右手是 Context Learning 的自我进化。

在 OpenAI 新发布的《Prompt guidance for GPT-5.4》中，反复提到了 Prompt Contracts（提示词合约）。要求开发者像编写代码一样，严谨地定义 Agent 的输入边界、输出格式与工具调用逻辑，进而换取 AI 行为的确定性。

但在现实操作中，谁又能日复一日地去维护那些冗长、脆弱的“提示词代码”？

真正的 Agent，不应只靠阅读 Context Engineering，更应该具备 Context Learning 的能力。

为此，在 4 月 17-18 日的 2026 奇点智能技术大会上，我们诚邀 Macaron AI 首席科学家、Mind Lab Director 马骁腾带来一场直击 Agent 进化本质的深度分享，让 Agent 从“听指令”进化到“涨经验”。

马骁腾是谁？

提到马骁腾，笔者脑海首先闪现的是强化学习、Agent、1500+……

作为清华大学自动化系的博士、博士后，马骁腾在产业界和学术界有着扎实的底蕴。他在强化学习相关领域发表了 30 余篇顶会论文，谷歌学术引用超过 1500 次。

现在，他是 Macaron AI 首席科学家，也是 Mind Lab 的掌舵人。

他带队研发了面向万亿参数模型的 LoRA-RL 训练底座—— MinT，成功实现了端到端的万亿参数推理强化学习。

以万亿参数模型（如 Kimi K2）为例，该系统所需的 GPU 数量仅为传统全参数 RL 的约 10%。这彻底改变了大模型后训练的经济学，使 RL 能够大规模落地到更多产品和团队中。（核心解读：https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus）

从 Context Engineering 到 Context Learning：万亿参数大模型的后训练实战

在 2026 奇点智能技术大会上，马骁腾将带来《迈向经验智能：从 Context Engineering 到 Context Learning》的深度分享，直击当前 AI Agent 开发与落地的核心痛点。

痛点：Prompt 工程的“边际效应递减”

当前的 Agent 开发，陷入了一个“堆砌上下文”的怪圈。

为了让 Agent 应对动态环境（比如操作一个不断更新的 App 界面），工程师们不得不编写越来越长、越来越复杂的 Prompt。但这带来了两个无法回避的问题：

扩展性受限：人工编排永远赶不上环境的变化速度；
经验无法复用： Agent 每次任务都是“从零开始”，上一次的成功或失败经验，无法沉淀为模型的能力。

解法：Context Learning（在交互中学习）

马骁腾提出的 Context Learning，核心在于“经验的内化”。

通过强化学习，让模型在真实的交互数据中自主试错、积累经验，并将这些经验刻进模型参数里。

实战干货：MinT 底座与 Macaron AI 案例

为了证明这条路走得通，马骁腾将在现场拆解 Mind Lab 的工程实践：

MinT 面向万亿参数模型的 LoRA-RL 训练底座：支撑高吞吐、低成本的强化学习快速迭代。并以 Macaron AI 模型训练为案例，展示如何利用 Context Learning 教会模型操作 Dynamic UI，将交互经验沉淀为可复用的模型能力与训练管线。
Macaron AI 模型案例：用 Context Learning 训练 Dynamic UI 交互能力

对于参会者而言，这场分享的直接价值在于：

获得可落地的 RL Infra 建设思路：了解如何搭建一个像 MinT 这样，能够支撑大模型低成本、高吞吐强化学习迭代的基础设施；
将 Context Learning 从理念变为工程现实的前提；
理解可靠性与适应性的平衡术：明白在什么场景下仍需依赖 Context Engineering 确保可靠，又在什么场景下可以放手让模型通过 Context Learning 自主进化，从而设计出更健壮、更灵活的 Agent 系统。

2026 奇点智能技术大会

马骁腾的 Context Learning，只是 2026 奇点智能技术大会众多硬核议题中的一环。

面对“未来没有全栈，只有 Agent 工程师”的行业剧变，我们需要的不只是几场演讲，而是一份可被验证的、成体系的工程经验。

4 月 17-18 日，由 ZEEKLOG 与奇点智能研究院联合主办的「2026 奇点智能技术大会」将在上海环球港凯悦酒店隆重召开。

顶尖阵容：汇聚 50+ 位站在变革最前沿的技术领袖，来自微软、BAT、京东、快手等一线大厂；
硬核议题：覆盖 Agent 系统、世界模型、AI 原生研发、AI Infra 等 12 大前沿专题。

这里没有空泛的预测，只有扎实的复盘与当下的解法与前沿的探索。

与此同时，2026 奇点智能技术大会同步开放多种合作形式：

技术生态合作伙伴
企业专场共建
行业解决方案联合展示
……

我们期待与更多长期主义者一起，为 AI 时代留下可被验证、可被复用的工程经验。

扫码下方二维码

「提前预约 2026 奇点智能技术大会全套 PPT 资料」

官方网站：www.ml-summit.org

购票热线：400-821-5876

购票咨询：[email protected]

企业合作：[email protected]

演讲申请：[email protected]

媒体联系：[email protected]

↓↓ 点击「阅读原文」，了解「2026 奇点智能技术大会」更多信息！

基于java Web 生产设备综合效率管理信息系统设计与实现

博主介绍：翰文编程专注于Java（springboot ssm 等开发框架） vue .net php phython node.js uniapp 微信小程序等诸多技术领域和课设项目实战、企业信息化系统建设，从业十八余年开发设计教学工作 ☆☆☆ 精彩专栏推荐订阅☆☆☆☆☆不然下次找不到哟我的博客空间发布了2000+题目解决方法案例方便大家学习使用感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文末下方有源码获取地址第4章总体设计 4.1 系统总体模块图生产设备综合效率管理系统主要设计了用户管理、设备故那里、OEE管理、故障管理、OEE分析等功能，满足用户在网站上面进行设备生产效率的信息浏览与查看，具体功能模块图如4.1所示：图4.1 系统总体模块图 4.2 数据库层的设计 4.2.1 概念模型设计

自go-zero走进微服务

在我最初看来，go-zero 最核心的价值体现在两点： 1、使用 .api 定义接口协议（Contract First） 2、使用 goctl 自动生成工程骨架，让开发者专注于业务逻辑在使用中，我发现 go-zero 的核心并不止于脚手架，而是一整套围绕“可维护性、可扩展性”的工程化约束体系。后来真正进入项目后，我才逐渐意识到： RPC（zrpc + etcd）才是 go-zero 支撑微服务架构的第二个关键支点。而中间件、熔断、限流、链路最终，是第三个核心支点。参考：go-zero文档配置环境安装 goctl（go-zero 的脚手架） go install github.com/zeromicro/go-zero/tools/goctl@

Android实时语音通话实战：基于WebRTC与AI降噪的优化方案

快速体验在开始今天关于 Android实时语音通话实战：基于WebRTC与AI降噪的优化方案的探讨之前，我想先分享一个最近让我觉得很有意思的全栈技术挑战。我们常说 AI 是未来，但作为开发者，如何将大模型（LLM）真正落地为一个低延迟、可交互的实时系统，而不仅仅是调个 API？这里有一个非常硬核的动手实验：基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说，这是个绝佳的练手项目。从0到1构建生产级别应用，脱离Demo，点击打开从0打造个人豆包实时通话AI动手实验 Android实时语音通话实战：基于WebRTC与AI降噪的优化方案最近在开发一款社交应用时，遇到了Android实时语音通话的质量问题。用户反馈中频繁出现"听不清"、"有回音"、"

Qwen3-VL-WEBUI进阶教程：MRoPE位置嵌入解析

Qwen3-VL-WEBUI进阶教程：MRoPE位置嵌入解析 1. 引言 1.1 Qwen3-VL-WEBUI 简介 Qwen3-VL-WEBUI 是基于阿里云最新开源多模态大模型 Qwen3-VL-4B-Instruct 构建的可视化交互界面，专为开发者、研究人员和AI爱好者设计，提供开箱即用的视觉-语言推理能力。该工具不仅集成了Qwen3系列最前沿的技术特性，还通过简洁直观的Web界面降低了使用门槛，支持图像理解、视频分析、GUI代理操作、代码生成等多种高阶功能。作为Qwen系列迄今为止最强的视觉语言模型（Vision-Language Model, VLM），Qwen3-VL在文本生成、视觉感知、上下文长度、空间推理与多模态融合等方面实现了全面升级。其内置的 MRoPE（Multi-Rotation Position Embedding）机制是支撑其长序列建模与跨模态对齐的核心技术之一，尤其在处理256K原生上下文乃至扩展至1M token的极端场景中表现卓越。本教程将深入解析 MRoPE的位置嵌入原理，并结合 Qwen3-VL-WEBUI 的实际部署与应用，帮

Read more

基于java Web 生产设备综合效率管理信息系统设计与实现

自go-zero走进微服务

Android实时语音通话实战：基于WebRTC与AI降噪的优化方案

Qwen3-VL-WEBUI进阶教程：MRoPE位置嵌入解析