综述
2026 年 3 月底,全球 AI 领域迎来密集爆发期。技术层面,DeepSeek-V3 升级引发史上最长宕机,Anthropic Claude Mythos 泄露暴露安全担忧,xAI 创始团队全员离职;国产世界模型 GigaWorld-1 登顶全球榜首,智谱 GLM-5.1 编程能力逼近 Claude。产品层面,微软 VibeVoice 语音 AI 家族开源,腾讯、字节等巨头加速智能体生态布局。这标志着 AI 正从'对话工具'向'自主智能体'范式跃迁。
模型与技术突破
通用大模型 DeepSeek 在 3 月 29 日网页版重大升级后出现长达 11-12 小时的大规模宕机,服务中断始于 21 时 35 分,至 30 日 10 时才全面恢复。升级后模型自我介绍为"DeepSeek-V3 模型或其变体",知识截止日期更新至 2026 年 1 月,图像生成和代码编写能力显著增强。此次宕机被解读为新模型升级的前兆,DeepSeek 近期也加大了人才招聘力度。
Anthropic 因 CMS 配置失误泄露近 3000 份内部文件,曝光最强新模型 Claude Mythos(代号 Capybara),定位为 Opus 之上的全新层级。内部测试显示在编程、学术推理、网络安全三大领域得分全面超越 Claude Opus 4.6,存在'前所未有的网络安全风险'。Anthropic 采取谨慎发布策略,优先提供给网络安全组织,暂不公开发布。同时 Claude 5.0 已开启灰度内测,90 分钟内自主发现 Linux 内核存在 20 年的堆栈缓冲区溢出漏洞,自主挖掘零日漏洞能力引发安全专家担忧。
智谱 AI 正式发布 GLM-5.1 模型,编程能力较 GLM-5 提升近 10 分,与 Claude Opus 4.6 仅差 2.6 分。采用 7440 亿总参数 MoE 架构,完全基于 10 万片华为昇腾 910B 芯片和 MindSpore 框架训练,零英伟达 GPU 参与。GLM Coding Plan 订阅一度售罄,API 定价约为 Claude Opus 4.6 的 1/6 至 1/10。
腾讯宣布即将发布混元 3.0 大模型,目前正在内部业务测试中。激活参数大幅降低,在复杂推理、长记忆、Agent 能力等维度有明显提升。OpenAI 则宣布停止运营 Sora 视频生成平台,网页端及应用将于 2026 年 4 月 26 日停运,技术团队转向机器人、世界模型等基础研究方向。
Google 推出 Gemini 3.1 Flash Live 预览版,大幅提升语音交互延迟和自然度,基于有状态 WebSocket 连接,支持连续音视频流输入。Meta 发布 SAM 3.1 模型,引入对象复用技术提升视频处理效率,内部测试 Avocado 系列模型,包括多模态变体及思考模型。
小米 MiMo-V2-Pro 模型在数学推理任务中获得 84.03 分的高分,在 SuperCLUE 测评中以 60.67 分位列闭源模型前列。字节跳动豆包(Doubao-Seed-2.0-pro)在 SuperCLUE 测评中以 71.53 分拿下国内第一,跻身全球第一梯队。
昆仑万维发布"3+1"AGI 生态架构,Matrix-Game 3.0 游戏世界模型、SkyReels V4 视频大模型、Mureka V9 音乐大模型同步发布。阿里云推出 JVS Claw 2.0,基于 OpenClaw 构建个人 AI 助理,新增语音输入、文件专属空间等功能。
垂直大模型 极佳视界发布新一代具身世界模型 GigaWorld-1,在 WorldArena 评测中登顶全球第一,是唯一综合得分 60+ 的具身世界模型。核心代码与部分数据集已开源,半月内 HuggingFace 下载量突破 16000 次。
讯飞医疗星火医疗大模型已合作超 600 家等级医院。论芯科技推出 AI 赋能的 EDA 解决方案,自动将芯片协议文档转化为验证代码,任务完成速度达到资深工程师的 25 倍。
Suno 推出 v5.5 版本,具有 Voices、Custom Models 功能,Pro 与 Premier 订阅用户可录制人声并经声纹验证后生成专属 AI 歌手音色。
专项技术突破 微软开源 VibeVoice 语音 AI 家族,涵盖 ASR、TTS 和实时能力。GitHub 迅速获得 27K-28K Star。微软亚洲研究院联合剑桥大学、普林斯顿大学推出 MicroCoder 项目,针对新一代代码模型训练动态变化导致旧强化学习方法失效的问题进行升级。
谷歌发布 TurboQuant 压缩技术,能将大语言模型推理时的 KV 缓存内存占用压缩至六分之一,但该技术被苏黎世联邦理工学院高健扬团队指控抄袭其 RaBitQ 算法。
斯坦福大学、英伟达、新加坡国立大学提出基于信息论的自适应视频分词器 InfoTok,已被 ICLR 2026 接收为口头报告。南洋理工大学推出 Kinema4D,20 万条 4D 数据驱动的机器人动作仿真新突破。
视启未来、清华大学、IDEA 研究院提出视觉 - 语言框架 SpatialPoint,将深度信息作为核心输入。北京大学王选计算机研究所发布两篇论文,介绍视频多模态大模型实现'主动交互'的方法和评估标准。
Sakana AI、牛津大学、UBC 推出全自动 AI 科学家系统 The AI Scientist v2,能够自动完成从实验到写作的大部分科研流程,单篇论文成本仅 15 美元。
英伟达发布 AVO 智能体,7 天自动进化超越人类专家的 GPU 优化方案。Naver 利用百万街景图像构建视频世界模型,解决 AI 生成内容中常见的城市结构幻觉问题。
AI 框架 OpenClaw 3.28 版本更新内置 Grok 搜索与 MiniMax 画图,新增高危操作拦截功能。ClawManager 基于 Kubernetes 构建企业级 AI 管控平台,解决权限管理、资源配额等问题。

