阿里开源通义DeepResearch:智能体训练全流程揭秘

阿里开源通义DeepResearch:智能体训练全流程揭秘

2025年9月16日,阿里通义实验室发布了DeepResearch,宣称这是一款针对科研场景设计的开源“智能体”模型系统。它不再是简单的对话机器人,而是能像研究人员一样,围绕一个问题构建完整的“研究闭环”:深度检索、跨源交叉、结构化归纳、报告生成,最终输出有引用、可复现的调研报告与决策建议。通义团队通过创新的技术架构和训练方法,使DeepResearch在多个极高难度的信息检索和推理任务中取得了最先进的(SOTA)成绩:

●Humanity’s Last Exam (HLE):32.9

●BrowseComp‑EN:43.4

●BrowseComp‑ZH:46.7

●xBench‑DeepSearch:75.0

全面超越了目前所有的闭源及开源 Deep Research 智能体(Agent)。不仅如此,通义团队还完整分享了一套可落地的高水平Agent构建方法论,详细介绍了从数据合成、Agentic 增量预训练(CPT)、有监督微调(SFT)冷启动,到强化学习(RL)的全套流程。

数据合成策略:为训练提供海量“燃料”

通义 DeepResearch 独创了全自动合成数据管道,彻底摆脱昂贵人工标注的瓶颈。团队设计了一个名为 AgentFounder 的系统,持续从文档、网络爬取数据、知识图谱、工具调用记录等多源采集信息,构建“实体锚定的开放世界知识记忆”。基于采样得到的实体和相关知识,自动生成多种风格的问题–答案对,为预训练和后续微调提供海量基础训练样本。可以把这些过程想象成给模型构建了一个“知识宫殿”和“练习题库”,让它不断积累各种知识和场景下的问答能力。

此外,团队还进行动作(行为)合成:基于历史交互轨迹和题目,生成推理与决策过程数据。例如,将原始步骤重构为多步规划决策任务,形成多阶段解决方案序列。这些合成轨迹模拟模型在真实 Web 环境中的查询、点击、推理步骤,极大丰富了智能体对不同操作序列的认识,甚至无需额外调用真实 API 就能离线模拟各种复杂推理动作。所有这些数据合成策略形成了一个“数据飞轮”:预训练产生的数据不断供给后续阶段,又反过来促进更多样本的生成。

Agentic 增量预训练 (CPT):夯实模型基础

Agentic CPT 相当于给智能体做“扎实的理论学习”。团队首先用合成好的大规模数据对基础语言模型进行增量预训练。在这个阶段,模型并非仅仅背诵静态文本,而是学习一系列模拟“研究过程”的轨迹:比如根据一个查询逐步提取文档信息、调用工具、形成答案。这通过掩码语言建模的方式,让模型隐式学会规划和工具使用的技能。在类比上,就像让学徒阅读大量专业书籍和案例解析,同时练习整理信息和提出问题,为后续的实践操作打下坚实基础。Agentic CPT 的创新在于其AgentFounder 数据方案:利用前述数据合成产生的丰富问答对与推理过程,实现了可扩展的大规模训练。

有监督微调 (SFT) 冷启动:模拟专家示范

在增量预训练后,通义 DeepResearch 会让模型通过有监督微调 (SFT) 进行“专家示范”训练,快速进入任务状态。此阶段使用合成的高质量问答和轨迹数据,让模型学习规范的思考–行动–观察循环。具体做法是用两种风格的示例训练模型:一是经典的 ReAct 形式(“思考→行动→观察”循环),让模型学会结构化答题;二是团队提出的 IterResearch 形式,即在多轮推理时每轮重新聚焦关键内容,避免上下文信息过多造成干扰。可以把 SFT 阶段比作导师带着学生做练习题:模型在“老师示范”下,把之前打好的理论知识用于具体问答和多轮推理场景。通过这样的冷启动,模型迅速掌握从结构化思考到生成连贯行动的能力,为后续自我优化打下良好基础。

强化学习 (RL):在模拟环境中自我演练

最后进入强化学习阶段,让智能体在安全可控的模拟环境中“自行试错”,持续优化决策策略。通义团队采用定制的GRPO(Group Relative Policy Optimization)算法,严格遵循on-policy训练范式,确保奖励信号与模型当前能力匹配。在训练目标上,使用了基于Token级别的策略梯度损失,并引入留一法(leave-one-out)来降低方差,同时有选择地剔除过长未完成的负样本,避免模型陷入“格式崩溃”。训练时还通过增大批次和并行实例来稳定学习。类似于模拟战场练习,智能体不断在仿真网页环境中进行查询、点击和推理,每一次成功完成任务都会得到奖励,模型的策略随着奖励(reward)持续上升,探索度(policy entropy)保持高位。这一切都依托稳定的环境和数据支持:团队构建了离线维基百科+自制工具的沙盒模拟环境,并实时自动管理生成数据,以保证训练过程高效且鲁棒。

阶段协同与闭环:不断迭代的训练循环

通义 DeepResearch 的成功还在于各阶段环环相扣、形成闭环。从CPT阶段打基础,到SFT阶段冷启动,最后到RL阶段自我进化,每一步都为下一步提供素材和启发。CPT和SFT产生的合成数据反过来可用于强化学习训练,RL训练新得的轨迹也可反馈到数据管道中,持续丰富训练样本。可谓是一个不断“自己喂养自己”的训练循环。正如通义团队所总结的:“从基础模型开始,先进行了 Agentic 持续预训练以初始化工具使用技能,然后使用类似专家的数据进行监督微调以实现冷启动,最后进行基于策略的强化学习,使模型进行自我进化”。这一全栈式方案相当于教会一个学习者:先在课堂上学习知识、再在实验室跟随导师练习,最后独立做项目,实现技能的真实落地。

整体来看,通义 DeepResearch 的训练流程兼顾了规模化合成数据精细化算法设计。通过高质量数据合成不断为模型提供“训练燃料”,并在各阶段采用面向智能体特性的训练目标和策略,最终培养出能够自主规划、多步推理的开源智能体。这一创新方法论为开源社区提供了完整可复现的方案,揭示了从“聊天机器人”到“自主研究者”转型的路径

应用场景

DeepResearch已在实际产品中得到应用。阿里表示,它已赋能高德地图和“通义法睿”等内部项目。例如,在高德地图中,DeepResearch被用作智能出行Agent:集成专用地图API、实时天气和交通监测等工具,可根据当前情况规划最优路线。通义团队提供Deep Research模型 + 高德团队提供工具和 Agent 链路”,打造了高德 App 中助手「小高老师」的复杂查询体验,在地图行业内打出影响力。

在法律领域,DeepResearch驱动的“通义法睿”智能体能自动检索法律法规、案例和裁判文书,并进行深度归纳分析,在“法条引用相关性”和“案例引用相关性”两项指标上超过了OpenAI和Claude等国际顶尖模型,为法律从业者提供了准确可靠的检索和分析支持。

开源链接

●Homepage:

https://tongyi-agent.github.io/

●Blog:

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

●Github:

https://github.com/Alibaba-NLP/DeepResearch

●Hugging Face:

https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

●Model Scope:

https://modelscope.cn/models/ii

Read more

Zotero论文阅读标记颜色框架

Zotero论文阅读颜色标记体系总览表 颜色维度名称与用途回顾价值典型示例🟨 黄核心价值核心创新点 / 论点 论文的根本问题与核心解决方案。一分钟回忆起“这篇文章是做什么的”。提出新的稀疏矩阵乘法编码;发现Transformer的访存瓶颈。🟩 绿核心价值关键结果 / 性能指标 最有说服力的量化数据(PPA、准确率等)。验证其声称的成果是否坚实可靠。Speedup 1.5x over SOTA;内存占用减少40%;TFLOPS/W数据。🟥 红核心价值缺陷 / 局限性 / 强假设 作者承认的不足或你发现的逻辑漏洞、不合理设置。决定是否复用该方法,或作为自己研究的切入点。硬件开销过大;实验负载太简单;依赖特定编译器支持。🟦 蓝技术细节方法论 / 架构设计 / 实现细节 具体的硬件设计、算法流程、数据流、内存层次细节。需要复现代码或借鉴具体设计时查阅。Systolic Array的具体尺寸;Cache一致性协议;CUDA kernel优化技巧。🟪 紫技术细节重要公式 / 定义 核心数学推导、模型或特定术语的明确定义。

By Ne0inhk
Moon VR Video Player中文版下载地址及使用教程:支持8K/12K+多音轨外挂字幕 Moon VR Video Player中文版、Moon VR播放器下载、VR视频播放器推荐、Ste

Moon VR Video Player中文版下载地址及使用教程:支持8K/12K+多音轨外挂字幕 Moon VR Video Player中文版、Moon VR播放器下载、VR视频播放器推荐、Ste

Moon VR Video Player中文版下载地址及使用教程:支持8K/12K+多音轨外挂字幕 关键词:Moon VR Video Player中文版、Moon VR播放器下载、VR视频播放器推荐、SteamVR播放器、多音轨外挂字幕播放器、8K 12K VR播放 作为一个长期折腾的开发者,这段时间一直在找一款真正稳定、格式兼容性强、支持多音轨和外挂字幕的VR播放器。市面上不少播放器要么格式支持有限,要么在8K以上直接卡顿,更别说复杂场景下的字幕和音轨切换。 这次测试的是 Moon VR Video Player(月亮播放器)v835 + 2.8.18 中文版,整体体验确实比很多常见播放器更完整。下面做一次系统梳理,方便需要的朋友参考。 下载地址 链接:https://pan.quark.cn/s/7c80590579cf 一、

By Ne0inhk
GCC编译(6)静态库工具AR

GCC编译(6)静态库工具AR

GCC编译(6)静态库工具AR Author: Once Day Date: 2026年2月20日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文章可参考专栏: 编译构建工具链_Once-Day的博客-ZEEKLOG博客 参考文章:ar(1) - Linux manual page【Linux】ar命令:用于创建、修改和提取静态库(archive)-ZEEKLOG博客Linux命令学习手册-ar - 知乎Linux ar命令介绍 和常用示例 - Link_Z - 博客园 文章目录 * GCC编译(6)静态库工具AR * 1. AR工具概述 * 1.1 背景介绍 * 1.2 基础使用

By Ne0inhk
【MySQL#2】:数据库表的三部曲(数据操作 + 类型解析 + 约束规则)

【MySQL#2】:数据库表的三部曲(数据操作 + 类型解析 + 约束规则)

📃个人主页:island1314 ⛺️ 欢迎关注:👍点赞 👂🏽留言 😍收藏 💞 💞 💞 * 生活总是不会一帆风顺,前进的道路也不会永远一马平川,如何面对挫折影响人生走向 – 《人民日报》 🔥 目录 * 一、表的操作 * 1. 创建表 * 2. 查看表 * 3. 修改表 * 4. 删除表 * 5. 案例 * 二、数据类型 * 1. 数据类型分类 * 2. 数值类型 * 2.1 tiny 类型 * 2.2 bit 类型 * 2.3 浮点数类型 * 2.3.1 float * 2.3.2 decimal * 3. 字符串类型

By Ne0inhk