Kimi K2.5 开源：智能体集群加速复杂任务，效率最高提升 4.5 倍

月之暗面开源 Kimi K2.5 模型，主打智能体集群架构，支持自动调度最多 100 个子智能体并行处理复杂任务，效率最高提升 4.5 倍。模型融合 15 万亿视觉 + 文本数据，在多模态理解、代码生成及文档处理上表现优异，在 SWE-Bench 等多项基准测试中排名第一。提供快速、思考、Agent 及 Agent 集群四种模式，API 定价清晰，并配套开源编程工具 Kimi Code，旨在将复杂知识工作流程自动化，提升研发与办公效率。

王者发布于 2026/3/30更新于 2026/5/2432 浏览

月之暗面（Moonshot AI）开源了新模型 Kimi K2.5。这是 Kimi 迄今最强的模型版本：在处理复杂任务时，K2.5 可以自动组建并调度最多 100 个子智能体组成的'集群'，并行完成最高 1500 次工具调用；相较单智能体执行，整体任务效率最高提升约 4.5 倍。整个集群的创建与协作由模型自动完成，不需要预先定义角色或手工搭建工作流。

要点速览

从'单智能体'升级到'智能体集群'：模型能自动拆任务、分工、并行推进，适配更长链路、更复杂的工作流。
并行上限更高：最多 100 个子智能体、1500 次工具调用，重点解决'复杂任务耗时长、步骤多、容易中断'的痛点。
多模态预训练继续加码：训练中融合约 15 万亿个视觉 + 文本混合数据单元，面向文档理解、视觉推理、图文转代码等场景更友好。
基准测试覆盖三类核心能力：Agent（推理/浏览/搜索）、Coding（SWE-Bench）、Multimodal（文档理解）均拿到领先成绩。
产品形态更明确：快速/思考/Agent/Agent 集群四模式，把'聊天、推理、用工具、并行协作'四种需求拆清楚。

工作流程

用户提交复杂需求
K2.5 规划/拆解
自动创建子智能体集群（<=100）
并行工具调用（<=1500）
汇总/去重/校验/整合
交付物：答案/表格/文档/网页/代码
遇到失败/限流/超时？重试/退避/切换路径/降级

技术架构

在技术层面，K2.5 延续 Kimi K2 的基础架构，并在此之上持续进行预训练优化。训练过程中融合了约 15 万亿个'视觉 + 文本' 混合形式的数据单元，使其在多模态理解、推理与任务执行上进一步增强。

这里的'视觉 + 文本'混合预训练价值在于：模型不仅学会'看懂图片里有什么'，也更容易学会把视觉信息转为可操作的结构化输出（例如表格字段、页面布局、代码组件），并能在后续任务中把视觉线索与文本指令对齐，从而减少'看得懂但做不对'的落差。

智能体集群解析

如果把传统 Agent 理解为'一个人拿着工具箱做项目'，那么智能体集群更像是'一个项目组'：一个模型负责总体规划与调度，多个子智能体各自拿到更细的子任务并同时开工，最后再把结果汇总、去重、校验、整合成统一交付物。

在这类架构里，提升并不只来自'同时做很多事'，还来自两点：

任务拆分更细、角色更专门：不同子智能体可以分别专注检索、比对、汇总、排版、生成代码/文档等环节，减少一个智能体在不同技能间频繁切换导致的效率损耗。
降低'关键路径'长度：复杂任务往往被最慢的那一步拖住（例如等待网页信息、反复核对资料）。并行后，多个子智能体同时推进，关键路径缩短，端到端耗时就显著下降。

'最高 1500 次工具调用'可以理解为：在一次任务执行中，模型允许进行大量外部动作（例如检索、浏览、下载、读取文件、写入表格、生成页面等），从而把复杂工作流的每一步都'走完'，而不是停留在文字建议层面。

基准测试表现

在公开基准测试中，K2.5 在多个方向都给出了'屠榜'成绩：

智能体能力：HLE-Full（综合推理）、BrowseComp（浏览交互）、DeepSearchQA（深度搜索问答）三项均排名第一
编码能力：SWE-Bench Verified、SWE-Bench Multilingual 两项均排名第一
多模态能力：文档理解测试 mniDocBench 1.5 得分 88.8，位列第一

此外，在 HLE、BrowseComp、SWE-Verified 等智能体基准上，K2.5 与 GPT-5.2（xhigh）性能接近的同时，成本更低。

这些基准在测什么

HLE-Full（综合推理）：更偏'长链路推理 + 多步决策'，考验模型在复杂约束下能否把推理做完整、把结论讲清楚。
BrowseComp（浏览交互）：更偏'真实上网'的能力，考验模型是否能在网页噪声中抓住关键信息、跨页面整合、并保持步骤可控。