月之暗面(Moonshot AI)的Kimi K2.5开源权重多模态旗舰大模型

Kimi K2.5是月之暗面(Moonshot AI)于 2026 年 1 月 27 日发布的开源权重多模态旗舰大模型
定位为 “Kimi 迄今最智能、最全能的模型”,核心突破在Agent 集群、原生多模态与编码能力,并以 MoE 架构实现高效推理
K2.5 强调文本和视觉的联合优化,通过文本-视觉预训练、零视觉SFT和联合文本-视觉强化学习等技术,提升编码、视觉、推理和智体任务等领域的性能。
K2.5引入了Agent Swarm框架,能动态分解复杂任务并并行执行,降低延迟达4.5倍,在多个基准测试中表现亮眼,接近国际顶尖闭源模型水平,还支持视觉编程、多模态输入输出等能力,是原生多模态模型的代表之一。

在这里插入图片描述

三大核心能力

Agent Swarm(智能体集群,研究预览)

基于PARL(并行智能体强化学习),动态拆解复杂任务,调度最多 100 个子智能体并行执行,支持1500 次工具调用
相比单智能体,宽搜场景延迟最高降4.5 倍,F1 从 72.8% 提升至 79.0%。适用于多公司调研、多页翻译、大型项目研发等并行场景

原生多模态理解

采用MoonViT3D视觉编码器与早期融合策略,统一处理视觉与文本 token
支持图像、视频、图文 PDF 输入,可完成 UI 设计转代码、视频内容分析、图表理解等任务

四模式推理与强编码

提供Instant(即时)/Thinking(思考)/Agent(单智能体)/Agent Swarm(集群) 四种模式
编码能力对标前沿模型,尤其擅长前端开发,配套Kimi Code可集成主流编辑器

与 K2 的关键差异

K2 为纯文本模型,K2.5 新增原生多模态(图像 / 视频 / PDF)
从 “单智能体长程执行” 升级为动态并行 Agent 集群,重构强化学习基建
统一架构,支持对话、复杂推理与自动化任务无缝切换

典型适用场景

后端 / 前端开发:API 设计、代码生成 / 调试、UI 稿转代码
复杂办公自动化:多文档整合、跨数据源调研、批量翻译
多模态内容处理:视频情节分析、图文 PDF 解析、图表生成
并行任务调度:需要拆解为子任务并高效并行完成的场景

小结

Kimi K2.5 以1T MoE+256K 上下文 + 原生多模态为底座
通过Agent Swarm将智能体从 “单兵作战” 升级为 “集群协作”,是面向复杂知识工作的开源全能模型,兼顾性能与商用友好性

附录

什么是权重多模态

权重多模态 = 文本和图像/视频等,在模型底层就用同一套权重、同一个编码器一起学习
不是 “文本模型 + 视觉模型” 拼起来,而是天生就一起长大

解读

单一流架构:文本、图像、视频、音频,都被映射到同一个语义空间
共享 Transformer 权重:不是两套模型,而是共享底层权重一起训练
真正理解 “图文关系”:模型不是分别看懂图、看懂字,而是直接理解图文之间的逻辑

比喻

普通多模态(后期拼接)
有个语文老师(文本模型),有个美术老师(视觉模型),各自教完,最后再把结果拼在一起→ 这叫多模态,但不是权重多模态
权重多模态(原生统一)
只有一个老师、一套教材,语文和美术从小一起学,文字、图片、视频在模型内部就是同一套表示、同一套权重→ 这才是权重多模态

为什么 Kimi K2.5 强调「权重多模态」

因为它代表:
更强的理解:图里的字、表格、图表、UI 都能精准看懂
更统一的推理:看图写代码、看视频总结、看 PDF 分析,一气呵成
不是外挂视觉,是原生多模态

MoE

含义

Mixture of Experts 混合专家
一个大模型里藏着很多 “小专家”,每次只激活几个干活

普通大模型(Dense 稠密模型)
全班 100 个学生 都在
每做一道题,所有人一起算
算力消耗 = 100 人同时跑
优点:统一
缺点:巨费算力、巨慢、巨贵

MoE 混合专家模型
全班还是 100 个学生(总参数很大)
但老师出题后,只叫 2~4 个最擅长的学生来算
其他人休息、不参与计算
算力消耗 = 只算激活的那几个人
优点:参数超大、能力强,但速度快、省算力

模型分成很多个 Expert
每个专家擅长不同领域:代码、数学、语文、逻辑…
有一个 Gate(门控 / 路由)
它看一眼输入,决定这次激活哪几个专家
前向传播时
只有被选中的专家参与计算
其他参数不动、不占推理算力

MoE 的核心好处

总参数可以做得超大
比如 1 万亿参数,但每次只用到 30B
推理速度几乎不变
参数量翻 10 倍,速度不慢多少
能力更强、成本更低
适合做超长文本、多模态、复杂推理

GPT‑4、Kimi K2、Kimi K2.5、Llama 3 MoE 全都是 MoE 混合专家
它们宣传 1T 参数,不是唬人,是因为 MoE 允许把模型堆很大,又能跑得动

总结

普通稠密模型:人多一起干,又慢又贵
MoE 混合专家:人多但只叫高手干,又强又省算力

Agent 集群

一群 AI 组队干活,不是单打独斗
Agent 集群 = 一个总指挥 + 一群 AI 小助手

并行干活、互相配合、一起解决超级复杂任务

普通 AI Agent(单打独斗)
只有一个员工
所有事:写文案、写代码、查资料、画图、算数据…
全都一个人从头干到尾
任务复杂一点就乱、慢、容易错

Agent 集群(公司团队模式)
有一个 CEO(主智能体):负责拆解任务、分配工作
下面有 10~100 个员工(子智能体)
每个员工只干自己擅长的事:
有的查资料
有的写代码
有的算数学
有的分析表格
有的总结文本
大家并行干活,最后汇总结果
这就是 Agent Swarm / Agent 集群

主 Agent 把复杂问题拆成很多小任务
多 Agent 并行执行:同时派多个子 AI 去做,速度成倍提升
结果汇总:主 Agent 把所有结果整理成最终答案

swarm

swɔːm
n. 一大群(移动中的昆虫);(移动着的)一大群人;(多指发生在火山附近的)地震群;(天文)一大群小型天体同时在空中出现
v.(昆虫)成群飞行;(人)蜂涌,涌动;挤满,云集;成群地包围;爬(梯子等)

F1 分数,AI 回答准不准的核心评分

F1 = 0~100% 的分数,越高越准

AI 做任务(比如抽取信息、分类、回答问题),有两个关键:

  • 查全率(Recall):别漏掉该找的东西
  • 查准率(Precision):别乱编、别错

F1 就是这两个的综合平均分

  • F1 高:又全又准
  • F1 低:要么漏、要么错
    F1 从 72.8% → 79.0%:用了 Agent 集群之后,AI 回答更准、漏得更少、正确率明显提升

PARL 并行 RL

PARL 并行 RL,专门做大规模、分布式、多智能体并行强化学习的核心能力
让成千上万个 Agent 同时跑、同时采数据、同时训练,把 RL 速度从 “蜗牛” 拉到 “火箭”

PARL 并行 RL = 用多机 / 多卡 / 多进程,让 N 个 Agent 同时跟环境交互、同时学策略,训练速度≈N 倍提升

为什么要并行 RL(痛点)
普通 RL 是单 Agent 串行:
一个 Agent → 一步一步试错 → 慢慢攒数据 → 慢慢更新模型
问题:慢、算力浪费、大任务根本跑不动

并行 RL 解决:
数据采集并行:N 个 Agent 同时跑,数据量 N 倍涨
训练并行:多 GPU / 多机一起算梯度、更新模型
结果:训练时间从几天→几小时,甚至几分钟

PARL 并行 RL 的核心架构
PARL 把并行拆成三大块,只要懂这 3 个角色:

  1. 三大核心组件(模块化)
    Model:神经网络(策略 / 价值网络)
    Algorithm:RL 算法(PPO/DQN/DDPG 等),负责更新模型
    Agent:跟环境交互、采数据、把数据传给 Algorithm
  2. 并行模式(PARL 最牛的地方)
    (1)数据并行(最常用)
    每个 Worker 跑一个完整 Agent + 环境
    所有 Worker 采的数据,汇总到中心节点更新模型
    适合:多智能体、游戏、机器人、推荐系统
    (2)异步并行(A3C 风格)
    每个 Worker 独立采数据、独立更新本地模型
    定期把本地梯度同步到全局模型
    优点:无等待、吞吐极高;缺点:梯度可能有延迟
    (3)分布式多机并行
    跨多台服务器,每台跑多个 Worker
    支持上千 Agent 同时训练,工业级规模

Read more

2023第十四届蓝桥杯大赛软件赛国赛C/C++ 大学 B 组(真题&题解)(C++/Java题解)

2023第十四届蓝桥杯大赛软件赛国赛C/C++ 大学 B 组(真题&题解)(C++/Java题解)

本来想刷省赛题呢,结果一不小心刷成国赛了 真是个小迷糊〒▽〒 但,又如何( •̀ ω •́ )✧ 记录刷题的过程、感悟、题解。 希望能帮到,那些与我一同前行的,来自远方的朋友😉 注:感谢@Witton的提示,题目部分已完成修改( •̀ ω •́ )y 大纲: 一、子2023-(题解)-递推or动态规划 二、双子数-(题解)-筛法、类型(unsigned long long)😥 三、班级活动-(题解)-不出所料、贪心+计数 四、合并数列-(题解)-妥妥的前缀和😥,当然双指针也能做 五、数三角-(题解)-这个真的就是算术题了,还要用到各种优化(叉乘、用半径分组) 六、

By Ne0inhk
Java 虚拟机:JVM篇(八股)

Java 虚拟机:JVM篇(八股)

📌JVM篇 1.1 说一下JVM的内存结构?哪些是线程共享的,哪些是线程私有的? ✅ 正确回答思路: 这个问题我从JVM运行时数据区的5个部分来回答,先说整体结构,再说线程共享和私有的区别。 一、JVM运行时数据区的5个部分: JVM运行时数据区 ├── 线程共享区域 │ ├── 堆(Heap) ← 存储对象实例 │ └── 方法区(Method Area) ← 存储类信息、常量、静态变量 │ └── 运行时常量池 │ └── 线程私有区域 ├── 程序计数器(PC Register) ← 记录当前线程执行的字节码行号 ├── 虚拟机栈(VM Stack) ← 存储局部变量、操作数栈、方法出口 └── 本地方法栈(Native Stack) ← 为Native方法服务 详细说每一部分: 1. 堆(Heap)—— 线程共享 * 作用:存放对象实例和数组,几乎所有的对象实例都在这里分配内存 * 结构:分为新生代(Young

By Ne0inhk
【Java】还在死磕算法?懂“堆”与“优先级队列”,代码效率飙升

【Java】还在死磕算法?懂“堆”与“优先级队列”,代码效率飙升

个人主页:喜欢做梦 欢迎 💛点赞  🌟收藏 💫关注 🏆堆 一、🎯什么是堆 堆的概念 堆是一种特殊的完全二叉树,如果有一个关键码的集合K={k0,k1,k2,...,kn-1},把它所有的元素按照完全二叉树的顺序存储方式在一维数组中,并满足:Ki<=K2i+1且Ki<=K2i+2(Ki>=K2i+2)i=0,1,2,3....,则称为小堆。堆有两种类型分别为大根堆和小根堆:小根堆:根节点的值最小,父节点的值小于或等于其孩子节点的值;大根堆:根节点的值最大,父节点的值大于或等于其孩子节点的值; 堆的性质 * 是一个完全二叉树; * 堆的某个节点总是不大于或不小于父节点的值; 二、🀄️堆的创建 大堆 实现过程: 代码:

By Ne0inhk
Java 大视界 -- 5230 台物联网设备时序数据难题破解:Java+Redis+HBase+Kafka 实战全解析(查询延迟 18ms)(438)

Java 大视界 -- 5230 台物联网设备时序数据难题破解:Java+Redis+HBase+Kafka 实战全解析(查询延迟 18ms)(438)

Java 大视界 -- 5230 台物联网设备时序数据难题破解:Java+Redis+HBase+Kafka 实战全解析(查询延迟 18ms)(438) * 引言: * 正文: * 一、技术选型:务实为王,拒绝炫技 * 1.1 核心技术栈选型对比 * 1.2 选型核心原则(10 余年实战经验总结) * 二、架构设计:闭环为王,层层兜底 * 2.1 整体架构图 * 2.2.1 生产设备层(数据源头) * 2.2.2 边缘网关层(数据预处理) * 2.2.3 消息接入层(数据缓冲) * 2.

By Ne0inhk