用 10% GPU 跑通万亿参数 RL！马骁腾拆解万亿参数大模型的后训练实战

Ne0inhk

15 Mar 2026 — 6 min read

整理 | 梦依丹

出品 | ZEEKLOG（ID：ZEEKLOGnews）

左手是提示词的工程化约束，右手是 Context Learning 的自我进化。

在 OpenAI 新发布的《Prompt guidance for GPT-5.4》中，反复提到了 Prompt Contracts（提示词合约）。要求开发者像编写代码一样，严谨地定义 Agent 的输入边界、输出格式与工具调用逻辑，进而换取 AI 行为的确定性。

但在现实操作中，谁又能日复一日地去维护那些冗长、脆弱的“提示词代码”？

真正的 Agent，不应只靠阅读 Context Engineering，更应该具备 Context Learning 的能力。

为此，在 4 月 17-18 日的 2026 奇点智能技术大会上，我们诚邀 Macaron AI 首席科学家、Mind Lab Director 马骁腾带来一场直击 Agent 进化本质的深度分享，让 Agent 从“听指令”进化到“涨经验”。

马骁腾是谁？

提到马骁腾，笔者脑海首先闪现的是强化学习、Agent、1500+……

作为清华大学自动化系的博士、博士后，马骁腾在产业界和学术界有着扎实的底蕴。他在强化学习相关领域发表了 30 余篇顶会论文，谷歌学术引用超过 1500 次。

现在，他是 Macaron AI 首席科学家，也是 Mind Lab 的掌舵人。

他带队研发了面向万亿参数模型的 LoRA-RL 训练底座—— MinT，成功实现了端到端的万亿参数推理强化学习。

以万亿参数模型（如 Kimi K2）为例，该系统所需的 GPU 数量仅为传统全参数 RL 的约 10%。这彻底改变了大模型后训练的经济学，使 RL 能够大规模落地到更多产品和团队中。（核心解读：https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus）

从 Context Engineering 到 Context Learning：万亿参数大模型的后训练实战

在 2026 奇点智能技术大会上，马骁腾将带来《迈向经验智能：从 Context Engineering 到 Context Learning》的深度分享，直击当前 AI Agent 开发与落地的核心痛点。

痛点：Prompt 工程的“边际效应递减”

当前的 Agent 开发，陷入了一个“堆砌上下文”的怪圈。

为了让 Agent 应对动态环境（比如操作一个不断更新的 App 界面），工程师们不得不编写越来越长、越来越复杂的 Prompt。但这带来了两个无法回避的问题：

扩展性受限：人工编排永远赶不上环境的变化速度；
经验无法复用： Agent 每次任务都是“从零开始”，上一次的成功或失败经验，无法沉淀为模型的能力。

解法：Context Learning（在交互中学习）

马骁腾提出的 Context Learning，核心在于“经验的内化”。

通过强化学习，让模型在真实的交互数据中自主试错、积累经验，并将这些经验刻进模型参数里。

实战干货：MinT 底座与 Macaron AI 案例

为了证明这条路走得通，马骁腾将在现场拆解 Mind Lab 的工程实践：

MinT 面向万亿参数模型的 LoRA-RL 训练底座：支撑高吞吐、低成本的强化学习快速迭代。并以 Macaron AI 模型训练为案例，展示如何利用 Context Learning 教会模型操作 Dynamic UI，将交互经验沉淀为可复用的模型能力与训练管线。
Macaron AI 模型案例：用 Context Learning 训练 Dynamic UI 交互能力

对于参会者而言，这场分享的直接价值在于：

获得可落地的 RL Infra 建设思路：了解如何搭建一个像 MinT 这样，能够支撑大模型低成本、高吞吐强化学习迭代的基础设施；
将 Context Learning 从理念变为工程现实的前提；
理解可靠性与适应性的平衡术：明白在什么场景下仍需依赖 Context Engineering 确保可靠，又在什么场景下可以放手让模型通过 Context Learning 自主进化，从而设计出更健壮、更灵活的 Agent 系统。

2026 奇点智能技术大会

马骁腾的 Context Learning，只是 2026 奇点智能技术大会众多硬核议题中的一环。

面对“未来没有全栈，只有 Agent 工程师”的行业剧变，我们需要的不只是几场演讲，而是一份可被验证的、成体系的工程经验。

4 月 17-18 日，由 ZEEKLOG 与奇点智能研究院联合主办的「2026 奇点智能技术大会」将在上海环球港凯悦酒店隆重召开。

顶尖阵容：汇聚 50+ 位站在变革最前沿的技术领袖，来自微软、BAT、京东、快手等一线大厂；
硬核议题：覆盖 Agent 系统、世界模型、AI 原生研发、AI Infra 等 12 大前沿专题。

这里没有空泛的预测，只有扎实的复盘与当下的解法与前沿的探索。

与此同时，2026 奇点智能技术大会同步开放多种合作形式：

技术生态合作伙伴
企业专场共建
行业解决方案联合展示
……

我们期待与更多长期主义者一起，为 AI 时代留下可被验证、可被复用的工程经验。

扫码下方二维码

「提前预约 2026 奇点智能技术大会全套 PPT 资料」

官方网站：www.ml-summit.org

购票热线：400-821-5876

购票咨询：[email protected]

企业合作：[email protected]

演讲申请：[email protected]

媒体联系：[email protected]

↓↓ 点击「阅读原文」，了解「2026 奇点智能技术大会」更多信息！

人工智能：大语言模型（LLM）原理与应用实战

人工智能：大语言模型（LLM）原理与应用实战 1.1 本章学习目标与重点 💡 学习目标：掌握大语言模型的核心原理、训练流程与微调方法，学会基于开源大语言模型完成定制化对话与文本生成任务。 💡 学习重点：理解大语言模型的Transformer decoder-only架构，掌握指令微调与RLHF技术，能够使用LoRA高效微调开源LLM。 1.2 大语言模型的核心概念与发展历程 1.2.1 什么是大语言模型 💡 大语言模型（Large Language Model, LLM）是参数量达到十亿级甚至万亿级的Transformer-based模型。它通过在海量文本数据上进行预训练，学习语言的语法、语义、常识和推理能力。 LLM的核心能力包括文本生成、理解、翻译、摘要、问答等。它可以处理复杂的自然语言任务，无需针对每个任务单独设计模型结构。 LLM与传统NLP模型的核心区别： * 参数量级：传统模型参数量通常在千万级，LLM参数量可达十亿到万亿级。 * 训练数据：传统模型依赖标注数据，LLM使用海量无标注文本进行预训练。 * 能力边界：传统模型只能处理单一任务，LL

构建基于 Rust 与 GLM-5 的高性能 AI 翻译 CLI 工具：从环境搭建到核心实现全解析

前言随着大语言模型（LLM）能力的飞速提升，将 AI 能力集成到终端命令行工具（CLI）中已成为提升开发效率的重要手段。Rust 语言凭借其内存安全、零成本抽象以及极其高效的异步运行时，成为构建此类高性能网络 IO 密集型应用的首选。本文将深度剖析如何使用 Rust 语言，结合智谱 AI 的 GLM-5 模型，从零构建一个支持流式输出、多语言切换及文件批处理的 AI 翻译引擎。本文将涵盖环境配置、依赖管理、异步网络编程、流式数据处理（SSE）、命令行参数解析以及最终的二进制发布优化。第一部分：Rust 开发环境的系统级构建在涉足 Rust 编程之前，必须确保底层操作系统具备必要的构建工具链。Rust 虽然拥有独立的包管理器，但在链接阶段依赖于系统的 C 语言编译器和链接器，尤其是在涉及网络库（如 reqwest 依赖的 OpenSSL）

AI+Decodo：构建智能电商价格监控系统的完整实战指南

在现代电商环境中，价格监控已成为商家和消费者的刚需。然而传统的网页爬虫面临着反爬虫机制越来越严格、网页结构复杂多变、IP被封禁等诸多挑战。本文将详细介绍如何结合AI智能分析与高质量代理池，构建一个既稳定又智能的电商价格监控系统。一、技术背景与挑战分析 1.1 传统爬虫的痛点现代电商网站的反爬虫机制日趋完善，传统爬虫面临以下核心挑战： * 网络访问层面的严格限制：IP 频繁访问被封禁、User-Agent 识别与拦截，导致数据获取困难。 * 页面结构的动态复杂性：动态 JavaScript 渲染内容、页面结构频繁变更，传统静态解析方式已无法适应。 * 数据提取的多样性挑战：价格格式千变万化、库存状态表达不统一，不同平台数据呈现差异大，需更智能的识别能力。不同平台的数据呈现方式差异巨大，需要更智能的识别和解析能力。 1.2 解决方案架构为了解决这些问题，我们设计了一个"AI + 代理池"的智能抓取架构： [目标网站] ← [高质量代理池] ← [智能请求管理] ← [AI内容分析] ← [结构化输出] 核心设计思路： * 代理池负责网络身份管理，

在家玩 AI 绘图还能远程协作？ComfyUI+Flux.1结合cpolar的实用技巧

文章目录 * 前言 * 1. 本地部署ComfyUI * 2. 下载 Flux.1 模型 * 3. 下载CLIP模型 * 4. 下载 VAE 模型 * 5. 演示文生图 * 6. 公网使用 Flux.1 大模型 * 6.1 创建远程连接公网地址 * 7. 固定远程访问公网地址前言 ComfyUI 是一款灵活的 AI 绘图工具，搭配 Flux.1 模型能实现文本生成图像的功能，适合设计师、创作者用来制作图片素材。它的优点是可以通过节点拖拽搭建绘图流程，能精细控制生成效果，而且开源免费，适合需要自定义绘图过程的用户。使用时感觉 Flux.1 模型的生成效果不错，尤其是色彩和场景合理性方面表现较好。不过要注意，不同版本的模型对电脑配置要求不同，比如有些版本需要较大显存，

Read more

人工智能：大语言模型（LLM）原理与应用实战

构建基于 Rust 与 GLM-5 的高性能 AI 翻译 CLI 工具：从环境搭建到核心实现全解析

AI+Decodo：构建智能电商价格监控系统的完整实战指南

在家玩 AI 绘图还能远程协作？ComfyUI+Flux.1结合cpolar的实用技巧