Kimi K2.5 是月之暗面(Moonshot AI)于 2026 年 1 月 27 日发布的开源权重多模态旗舰大模型,定位为'Kimi 迄今最智能、最全能的模型'。核心突破在 Agent 集群、原生多模态与编码能力,并以 MoE 架构实现高效推理。
K2.5 强调文本和视觉的联合优化,通过文本 - 视觉预训练、零视觉 SFT 和联合文本 - 视觉强化学习等技术,提升编码、视觉、推理和智体任务等领域的性能。K2.5 引入了 Agent Swarm 框架,能动态分解复杂任务并并行执行,降低延迟达 4.5 倍,在多个基准测试中表现亮眼,接近国际顶尖闭源模型水平,还支持视觉编程、多模态输入输出等能力,是原生多模态模型的代表之一。
三大核心能力
Agent Swarm(智能体集群,研究预览)
基于 PARL(并行智能体强化学习),动态拆解复杂任务,调度最多 100 个子智能体并行执行,支持 1500 次工具调用。相比单智能体,宽搜场景延迟最高降 4.5 倍,F1 从 72.8% 提升至 79.0%。适用于多公司调研、多页翻译、大型项目研发等并行场景。
原生多模态理解
采用 MoonViT3D 视觉编码器与早期融合策略,统一处理视觉与文本 token。支持图像、视频、图文 PDF 输入,可完成 UI 设计转代码、视频内容分析、图表理解等任务。
四模式推理与强编码
提供 Instant(即时)/Thinking(思考)/Agent(单智能体)/Agent Swarm(集群)四种模式。编码能力对标前沿模型,尤其擅长前端开发,配套 Kimi Code 可集成主流编辑器。
与 K2 的关键差异
K2 为纯文本模型,K2.5 新增原生多模态(图像 / 视频 / PDF)。从'单智能体长程执行'升级为动态并行 Agent 集群,重构强化学习基建。统一架构,支持对话、复杂推理与自动化任务无缝切换。
典型适用场景
- 后端 / 前端开发:API 设计、代码生成 / 调试、UI 稿转代码
- 复杂办公自动化:多文档整合、跨数据源调研、批量翻译
- 多模态内容处理:视频情节分析、图文 PDF 解析、图表生成
- 并行任务调度:需要拆解为子任务并高效并行完成的场景
小结
Kimi K2.5 以 1T MoE+256K 上下文 + 原生多模态为底座。通过 Agent Swarm 将智能体从'单兵作战'升级为'集群协作',是面向复杂知识工作的开源全能模型,兼顾性能与商用友好性。
附录
什么是权重多模态
权重多模态 = 文本和图像/视频等,在模型底层就用同一套权重、同一个编码器一起学习,不是'文本模型 + 视觉模型'拼起来,而是天生就一起长大。
解读
- 单一流架构:文本、图像、视频、音频,都被映射到同一个语义空间
- 共享 Transformer 权重:不是两套模型,而是共享底层权重一起训练
- 真正理解'图文关系':模型不是分别看懂图、看懂字,而是直接理解图文之间的逻辑
比喻
普通多模态(后期拼接):有个语文老师(文本模型),有个美术老师(视觉模型),各自教完,最后再把结果拼在一起→这叫多模态,但不是权重多模态。
权重多模态(原生统一):只有一个老师、一套教材,语文和美术从小一起学,文字、图片、视频在模型内部就是同一套表示、同一套权重→这才是权重多模态。
为什么 Kimi K2.5 强调「权重多模态」
因为它代表:更强的理解(图里的字、表格、图表、UI 都能精准看懂)、更统一的推理(看图写代码、看视频总结、看 PDF 分析,一气呵成)、不是外挂视觉,是原生多模态。
MoE
含义
Mixture of Experts 混合专家。一个大模型里藏着很多'小专家',每次只激活几个干活。
普通大模型(Dense 稠密模型):全班 100 个学生都在,每做一道题,所有人一起算。算力消耗=100 人同时跑。优点:统一;缺点:巨费算力、巨慢、巨贵。
MoE 混合专家模型:全班还是 100 个学生(总参数很大),但老师出题后,只叫 2~4 个最擅长的学生来算,其他人休息、不参与计算。算力消耗=只算激活的那几个人。优点:参数超大、能力强,但速度快、省算力。
模型分成很多个 Expert,每个专家擅长不同领域:代码、数学、语文、逻辑…有一个 Gate(门控 / 路由),它看一眼输入,决定这次激活哪几个专家。前向传播时,只有被选中的专家参与计算,其他参数不动、不占推理算力。

