通义 DeepResearch 智能体训练全流程解析

通义实验室发布开源智能体模型系统 DeepResearch，具备深度检索、跨源交叉及报告生成能力。其训练流程包含全自动合成数据管道、Agentic 增量预训练、有监督微调冷启动及强化学习阶段。通过 AgentFounder 系统构建知识记忆与推理轨迹，利用 GRPO 算法在模拟环境中优化策略。该方案已在高德地图及法律领域应用，提供可复现的 Agent 构建方法论。

樱花落尽发布于 2026/3/23更新于 2026/6/198.2K 浏览

通义 DeepResearch 智能体训练全流程解析

2024 年，阿里通义实验室发布了 DeepResearch，这是一款针对科研场景设计的开源'智能体'模型系统。它不再是简单的对话机器人，而是能像研究人员一样，围绕一个问题构建完整的'研究闭环'：深度检索、跨源交叉、结构化归纳、报告生成，最终输出有引用、可复现的调研报告与决策建议。通义团队通过创新的技术架构和训练方法，使 DeepResearch 在多个极高难度的信息检索和推理任务中取得了最先进的成绩。

数据合成策略：为训练提供海量'燃料'

通义 DeepResearch 独创了全自动合成数据管道，彻底摆脱昂贵人工标注的瓶颈。团队设计了一个名为 AgentFounder 的系统，持续从文档、网络爬取数据、知识图谱、工具调用记录等多源采集信息，构建'实体锚定的开放世界知识记忆'。基于采样得到的实体和相关知识，自动生成多种风格的问题–答案对，为预训练和后续微调提供海量基础训练样本。

此外，团队还进行动作（行为）合成：基于历史交互轨迹和题目，生成推理与决策过程数据。例如，将原始步骤重构为多步规划决策任务，形成多阶段解决方案序列。这些合成轨迹模拟模型在真实 Web 环境中的查询、点击、推理步骤，极大丰富了智能体对不同操作序列的认识，甚至无需额外调用真实 API 就能离线模拟各种复杂推理动作。所有这些数据合成策略形成了一个'数据飞轮'：预训练产生的数据不断供给后续阶段，又反过来促进更多样本的生成。

Agentic 增量预训练 (CPT)：夯实模型基础

Agentic CPT 相当于给智能体做'扎实的理论学习'。团队首先用合成好的大规模数据对基础语言模型进行增量预训练。在这个阶段，模型并非仅仅背诵静态文本，而是学习一系列模拟'研究过程'的轨迹：比如根据一个查询逐步提取文档信息、调用工具、形成答案。这通过掩码语言建模的方式，让模型隐式学会规划和工具使用的技能。

Agentic CPT 的创新在于其 AgentFounder 数据方案：利用前述数据合成产生的丰富问答对与推理过程，实现了可扩展的大规模训练。

有监督微调 (SFT) 冷启动：模拟专家示范

在增量预训练后，DeepResearch 会让模型通过有监督微调 (SFT) 进行'专家示范'训练，快速进入任务状态。此阶段使用合成的高质量问答和轨迹数据，让模型学习规范的思考–行动–观察循环。具体做法是用两种风格的示例训练模型：一是经典的 ReAct 形式（'思考→行动→观察'循环），让模型学会结构化答题；二是团队提出的 IterResearch 形式，即在多轮推理时每轮重新聚焦关键内容，避免上下文信息过多造成干扰。

通过这样的冷启动，模型迅速掌握从结构化思考到生成连贯行动的能力，为后续自我优化打下良好基础。

强化学习 (RL)：在模拟环境中自我演练

最后进入强化学习阶段，让智能体在安全可控的模拟环境中'自行试错'，持续优化决策策略。通义团队采用定制的 GRPO（Group Relative Policy Optimization）算法，严格遵循 on-policy 训练范式，确保奖励信号与模型当前能力匹配。在训练目标上，使用了基于 Token 级别的策略梯度损失，并引入留一法（leave-one-out）来降低方差，同时有选择地剔除过长未完成的负样本，避免模型陷入'格式崩溃'。

训练时还通过增大批次和并行实例来稳定学习。类似于模拟战场练习，智能体不断在仿真网页环境中进行查询、点击和推理，每一次成功完成任务都会得到奖励，模型的策略随着奖励持续上升，探索度保持高位。这一切都依托稳定的环境和数据支持：团队构建了离线维基百科 + 自制工具的沙盒模拟环境，并实时自动管理生成数据，以保证训练过程高效且鲁棒。

阶段协同与闭环：不断迭代的训练循环

DeepResearch 的成功还在于各阶段环环相扣、形成闭环。从 CPT 阶段打基础，到 SFT 阶段冷启动，最后到 RL 阶段自我进化，每一步都为下一步提供素材和启发。CPT 和 SFT 产生的合成数据反过来可用于强化学习训练，RL 训练新得的轨迹也可反馈到数据管道中，持续丰富训练样本。可谓是一个不断'自己喂养自己'的训练循环。

这一全栈式方案相当于教会一个学习者：先在课堂上学习知识、再在实验室跟随导师练习，最后独立做项目，实现技能的真实落地。

应用场景

DeepResearch 已在实际产品中得到应用。在高德地图中，DeepResearch 被用作智能出行 Agent：集成专用地图 API、实时天气和交通监测等工具，可根据当前情况规划最优路线。在法律领域，DeepResearch 驱动的'通义法睿'智能体能自动检索法律法规、案例和裁判文书，并进行深度归纳分析，在'法条引用相关性'和'案例引用相关性'两项指标上超过了国际顶尖模型，为法律从业者提供了准确可靠的检索和分析支持。

开源链接

GitHub: https://github.com/Alibaba-NLP/DeepResearch
Hugging Face: https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

通义 DeepResearch 智能体训练全流程解析

通义 DeepResearch 智能体训练全流程解析

数据合成策略：为训练提供海量'燃料'

Agentic 增量预训练 (CPT)：夯实模型基础

有监督微调 (SFT) 冷启动：模拟专家示范

强化学习 (RL)：在模拟环境中自我演练

阶段协同与闭环：不断迭代的训练循环

应用场景

开源链接

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

通义 DeepResearch 智能体训练全流程解析

通义 DeepResearch 智能体训练全流程解析

数据合成策略：为训练提供海量'燃料'

Agentic 增量预训练 (CPT)：夯实模型基础

有监督微调 (SFT) 冷启动：模拟专家示范

强化学习 (RL)：在模拟环境中自我演练

阶段协同与闭环：不断迭代的训练循环

应用场景

开源链接

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具