通义 DeepResearch 开源：轻量级 AI 代理性能对标 OpenAI

最近，阿里云通义实验室正式开源了通义 DeepResearch。这款轻量级 AI 代理在信息检索和推理领域展现出强劲实力，实现了与 OpenAI 深度研究工具的性能比肩。为了让 AI 真正具备'做研究'的能力，团队围绕数据、Agent 范式、训练及基础设施开展了系统性创新。

轻量级参数设计实现高性能突破

通义 DeepResearch 在参数配置上颇具亮点，整体参数规模达 300 亿，而实际激活参数为 30 亿。这种轻量化的设计不仅在资源占用上更具优势，还能实现出色性能，打破了高参数与高性能必然绑定的固有认知，让更多开发者能够轻松部署和使用先进的 AI 研究工具。

权威基准测试验证技术实力

在权威基准测试中，通义 DeepResearch 的表现同样可圈可点。以 Humanity's Last Exam 测试为例，该 AI 代理获得了 32.9 分的优异成绩。这一分数充分证明了其在复杂任务处理、知识掌握与运用等方面的卓越能力，对于需要可靠 AI 研究助手的用户来说，这样的测试成绩无疑是重要的参考依据。

系统性技术创新：打造 AI 研究能力核心支撑

1. 全流程合成数据方案

团队自研行业领先的全流程合成数据方案，无需任何人类干预即可构造超越人类水平的数据集，为智能体能力提升奠定基础。

增量预训练数据（Agentic CPT）：首次提出在 Agent 模型训练中加入智能体增量预训练阶段，支持大规模扩展的预训练数据合成方案 AgentFounder，与后训练过程中产生的数据形成'数据飞轮'。
后训练数据合成：从 WebWalker 的网页点击轨迹逆向合成 QA 对，到 WebSailor 的图结构复杂问题合成，在保证数据高质量的同时实现可扩展性。
PhD-Level 学科合成数据自动化生成：基于百万级多学科知识库，经预处理、种子生成、迭代式复杂度升级流程，形成难度持续提升的良性循环。

2. 多模态 Agent 推理范式

团队对深度研究型智能体的推理范式展开广泛探索，最终模型支持多种推理形式，满足不同研究需求。

ReAct 模式：遵循'思考 - 行动 - 观察'循环，依托 128K 上下文长度处理大量交互轮次，实现环境交互可扩展性。
深度模式（Iterative Deep-Research Paradigm）：提出以'综合与重构'动态循环取代单一膨胀上下文，将复杂研究任务解构为多个'研究回合'，推出 Research-Synthesis 框架提升答案准确性与研究路径覆盖率。

3. Agent 模型训练流程优化

团队重新设计 Agent 模型训练流程，构建'Agentic CPT→Agentic SFT→Agentic RL'端到端循环，其中强化学习（RL）环节对行为与高阶目标一致性至关重要。

RL 算法优化：基于 GRPO 进行定制，采用 on-policy 训练范式确保学习信号与模型能力匹配，通过留一法降低优势估计方差。
关键认知：数据质量和训练环境稳定性比算法更关键，合成数据分布更一致，人工标注数据噪声多、规模有限。

4. 高稳定基础设施（Infra）

针对工具训练智能体的需求，构建高度稳定高效的基础设施体系：

仿真训练环境：用离线维基百科数据库和自定义工具套件替代实时 Web API，降低开发成本、提升速度与一致性。
稳定高效工具沙盒：开发统一沙盒，通过结果缓存、失败重试、饱和式响应处理并发与故障。
自动数据管理：结合训练动态实时优化数据，形成'数据生成 - 模型训练'正向循环。

超长上下文支持拓展应用边界

通义 DeepResearch 支持 128K 超长上下文，使其在应对复杂任务时游刃有余。无论是多日行程规划，还是法律文档分析，这款 AI 代理都能高效处理，为用户提供了精准、全面的解决方案。

实际应用落地：赋能多领域生产力提升

目前通义 DeepResearch 已赋能多个阿里巴巴内部应用，成为提升效率、创造价值的'生产力引擎'：

通义 DeepResearch 开源：轻量级 AI 代理性能对标 OpenAI