通义 DeepResearch 开源:轻量级 AI 代理性能对标 OpenAI
最近,阿里云通义实验室正式开源了通义 DeepResearch。这款轻量级 AI 代理在信息检索和推理领域展现出强劲实力,实现了与 OpenAI 深度研究工具的性能比肩。为了让 AI 真正具备'做研究'的能力,团队围绕数据、Agent 范式、训练及基础设施开展了系统性创新。
轻量级参数设计实现高性能突破
通义 DeepResearch 在参数配置上颇具亮点,整体参数规模达 300 亿,而实际激活参数为 30 亿。这种轻量化的设计不仅在资源占用上更具优势,还能实现出色性能,打破了高参数与高性能必然绑定的固有认知,让更多开发者能够轻松部署和使用先进的 AI 研究工具。
权威基准测试验证技术实力
在权威基准测试中,通义 DeepResearch 的表现同样可圈可点。以 Humanity's Last Exam 测试为例,该 AI 代理获得了 32.9 分的优异成绩。这一分数充分证明了其在复杂任务处理、知识掌握与运用等方面的卓越能力,对于需要可靠 AI 研究助手的用户来说,这样的测试成绩无疑是重要的参考依据。
系统性技术创新:打造 AI 研究能力核心支撑
1. 全流程合成数据方案
团队自研行业领先的全流程合成数据方案,无需任何人类干预即可构造超越人类水平的数据集,为智能体能力提升奠定基础。
- 增量预训练数据(Agentic CPT):首次提出在 Agent 模型训练中加入智能体增量预训练阶段,支持大规模扩展的预训练数据合成方案 AgentFounder,与后训练过程中产生的数据形成'数据飞轮'。
- 后训练数据合成:从 WebWalker 的网页点击轨迹逆向合成 QA 对,到 WebSailor 的图结构复杂问题合成,在保证数据高质量的同时实现可扩展性。
- PhD-Level 学科合成数据自动化生成:基于百万级多学科知识库,经预处理、种子生成、迭代式复杂度升级流程,形成难度持续提升的良性循环。
2. 多模态 Agent 推理范式
团队对深度研究型智能体的推理范式展开广泛探索,最终模型支持多种推理形式,满足不同研究需求。
- ReAct 模式:遵循'思考 - 行动 - 观察'循环,依托 128K 上下文长度处理大量交互轮次,实现环境交互可扩展性。
- 深度模式(Iterative Deep-Research Paradigm):提出以'综合与重构'动态循环取代单一膨胀上下文,将复杂研究任务解构为多个'研究回合',推出 Research-Synthesis 框架提升答案准确性与研究路径覆盖率。
3. Agent 模型训练流程优化
团队重新设计 Agent 模型训练流程,构建'Agentic CPT→Agentic SFT→Agentic RL'端到端循环,其中强化学习(RL)环节对行为与高阶目标一致性至关重要。
- RL 算法优化:基于 GRPO 进行定制,采用 on-policy 训练范式确保学习信号与模型能力匹配,通过留一法降低优势估计方差。
- 关键认知:数据质量和训练环境稳定性比算法更关键,合成数据分布更一致,人工标注数据噪声多、规模有限。
4. 高稳定基础设施(Infra)
针对工具训练智能体的需求,构建高度稳定高效的基础设施体系:
- 仿真训练环境:用离线维基百科数据库和自定义工具套件替代实时 Web API,降低开发成本、提升速度与一致性。
- 稳定高效工具沙盒:开发统一沙盒,通过结果缓存、失败重试、饱和式响应处理并发与故障。
- 自动数据管理:结合训练动态实时优化数据,形成'数据生成 - 模型训练'正向循环。
超长上下文支持拓展应用边界
通义 DeepResearch 支持 128K 超长上下文,使其在应对复杂任务时游刃有余。无论是多日行程规划,还是法律文档分析,这款 AI 代理都能高效处理,为用户提供了精准、全面的解决方案。
实际应用落地:赋能多领域生产力提升
目前通义 DeepResearch 已赋能多个阿里巴巴内部应用,成为提升效率、创造价值的'生产力引擎':
- :预置专属地图 API、实时天气查询、交通状况监测工具,可结合实时场景提供精准建议。


