01|DeepSeek V4 下周发布,万亿参数原生多模态,华为寒武纪联手适配
2 月 28 日,《金融时报》援引两位知情人士消息称,DeepSeek 将于下周发布新一代多模态大模型 V4,原生支持图片、视频和文本生成。这是继去年 1 月 R1 推理模型以来 DeepSeek 首次重大更新,间隔超过一年。据多方信息汇总,V4 采用万亿参数级 MoE 架构,每个 token 仅激活约 320 亿参数,上下文窗口扩展至 100 万 token。2 月 11 日 DeepSeek 已悄悄将网页端和 App 的上下文从 12.8 万升级到 100 万,被业界视为 V4 的预演。

V4 最引人关注的变化是芯片路线。DeepSeek 与华为、寒武纪合作完成了推理端的深度适配优化,未向英伟达提供模型预览,也没有针对英伟达产品做优化。《金融时报》此前曾报道 DeepSeek 尝试在华为硬件上完成预训练但遇到技术困难,V4 的适配进展意味着国产算力在推理侧已取得实质性突破。发布时将附带简要技术说明,详细工程报告约一个月后跟进。
就在本周一,Anthropic 公开指控 DeepSeek、月之暗面和 MiniMax 通过约 2.4 万个虚假账户与 Claude 进行超 1600 万次对话,以「蒸馏」方式提取模型能力。OpenAI 本月也提交了类似指控。回顾去年 1 月 R1 发布当天,纳斯达克跌 3%,英伟达单日蒸发 6000 亿美元市值。华尔街已在为 V4 可能带来的「DeepSeek 2.0 时刻」做准备。
02|DeepSeek 联合北大清华发布推理框架「DualPath」,Agent 吞吐量翻倍
2 月 25 日,DeepSeek 联合北大、清华发布 Agent 推理框架「DualPath」,专门解决多轮对话场景下 KV-Cache 的存储 I/O 瓶颈。核心思路不复杂:Agent 应用中每轮对话超过 95% 的上下文是复用的,传统架构把所有缓存加载任务压在预填充引擎的存储网卡上,带宽瞬间打满;而解码引擎的存储网卡却在闲置。DualPath 开辟第二条路径,先把缓存读到解码引擎,再通过 RDMA 高速网络传给预填充引擎,实现存储带宽的全局池化。

实测基于 DeepSeek V3.2(660B)等三款模型,DualPath 离线推理吞吐提升最高 1.87 倍,在线服务吞吐平均提升 1.96 倍,首 token 延迟显著优化,逐 token 生成速度几乎不受影响。整套改动仅约 5000 行代码,底层依赖 DeepSeek 自研的分布式存储系统 3FS。论文发布时间正好在 V4 前夕,等于提前亮出了 Agent 场景的推理基础设施。
03|阿里开源桌面 Agent 工具「CoPaw」,对标 OpenClaw,钉钉飞书 QQ 全平台接入
2 月 28 日,阿里通义实验室将桌面 Agent 工具 CoPaw 正式开源。CoPaw 对标近期爆火的 OpenClaw(GitHub 23.6 万星),主打「国产平替」路线,原生接入钉钉、飞书、QQ、Discord、iMessage 等聊天平台,三条命令即可本地部署,也支持通过阿里云计算巢一键上云。模型端兼容千问系列云端 API、Ollama、llama.cpp 以及苹果芯片本地推理的 MLX,开发者可自由切换。核心架构做了模块化重构,Prompt、Hooks、Tools、Memory 各组件解耦,二次开发门槛不高。










