月之暗面(Moonshot AI)开源了新模型 Kimi K2.5。这是 Kimi 迄今最强的模型版本:在处理复杂任务时,K2.5 可以自动组建并调度最多 100 个子智能体组成的'集群',并行完成最高 1500 次工具调用;相较单智能体执行,整体任务效率最高提升约 4.5 倍。整个集群的创建与协作由模型自动完成,不需要预先定义角色或手工搭建工作流。
要点速览
- 从'单智能体'升级到'智能体集群':模型能自动拆任务、分工、并行推进,适配更长链路、更复杂的工作流。
- 并行上限更高:最多 100 个子智能体、1500 次工具调用,重点解决'复杂任务耗时长、步骤多、容易中断'的痛点。
- 多模态预训练继续加码:训练中融合约 15 万亿个视觉 + 文本混合数据单元,面向文档理解、视觉推理、图文转代码等场景更友好。
- 基准测试覆盖三类核心能力:Agent(推理/浏览/搜索)、Coding(SWE-Bench)、Multimodal(文档理解)均拿到领先成绩。
- 产品形态更明确:快速/思考/Agent/Agent 集群四模式,把'聊天、推理、用工具、并行协作'四种需求拆清楚。
工作流程
- 用户提交复杂需求
- K2.5 规划/拆解
- 自动创建子智能体集群(<=100)
- 并行工具调用(<=1500)
- 汇总/去重/校验/整合
- 交付物:答案/表格/文档/网页/代码
- 遇到失败/限流/超时?重试/退避/切换路径/降级
技术架构
在技术层面,K2.5 延续 Kimi K2 的基础架构,并在此之上持续进行预训练优化。训练过程中融合了约 15 万亿个'视觉 + 文本' 混合形式的数据单元,使其在多模态理解、推理与任务执行上进一步增强。
这里的'视觉 + 文本'混合预训练价值在于:模型不仅学会'看懂图片里有什么',也更容易学会把视觉信息转为可操作的结构化输出(例如表格字段、页面布局、代码组件),并能在后续任务中把视觉线索与文本指令对齐,从而减少'看得懂但做不对'的落差。
智能体集群解析
如果把传统 Agent 理解为'一个人拿着工具箱做项目',那么智能体集群更像是'一个项目组':一个模型负责总体规划与调度,多个子智能体各自拿到更细的子任务并同时开工,最后再把结果汇总、去重、校验、整合成统一交付物。
在这类架构里,提升并不只来自'同时做很多事',还来自两点:
- 任务拆分更细、角色更专门:不同子智能体可以分别专注检索、比对、汇总、排版、生成代码/文档等环节,减少一个智能体在不同技能间频繁切换导致的效率损耗。
- 降低'关键路径'长度:复杂任务往往被最慢的那一步拖住(例如等待网页信息、反复核对资料)。并行后,多个子智能体同时推进,关键路径缩短,端到端耗时就显著下降。
'最高 1500 次工具调用'可以理解为:在一次任务执行中,模型允许进行大量外部动作(例如检索、浏览、下载、读取文件、写入表格、生成页面等),从而把复杂工作流的每一步都'走完',而不是停留在文字建议层面。
基准测试表现
在公开基准测试中,K2.5 在多个方向都给出了'屠榜'成绩:
- 智能体能力:HLE-Full(综合推理)、BrowseComp(浏览交互)、DeepSearchQA(深度搜索问答)三项均排名第一
- 编码能力:SWE-Bench Verified、SWE-Bench Multilingual 两项均排名第一
- 多模态能力:文档理解测试 mniDocBench 1.5 得分 88.8,位列第一
此外,在 HLE、BrowseComp、SWE-Verified 等智能体基准上,K2.5 与 GPT-5.2(xhigh)性能接近的同时,成本更低。
这些基准在测什么
- HLE-Full(综合推理):更偏'长链路推理 + 多步决策',考验模型在复杂约束下能否把推理做完整、把结论讲清楚。
- BrowseComp(浏览交互):更偏'真实上网'的能力,考验模型是否能在网页噪声中抓住关键信息、跨页面整合、并保持步骤可控。

