一句话总结:2026 年 3 月 20 日 AI 领域呈现全维度爆发式发展,头部企业密集发布通用/垂直大模型与智能体产品,模型向高效推理、自我进化升级,智能体生态快速完善并实现产品化落地,算力硬件向端侧、专用化突破,AI 与汽车、影视、农业等产业深度融合,同时企业融资收购频繁,AI 安全治理、伦理问题成为行业重点关注方向,算力短缺、Token 成本优化也成为行业发展核心议题。
一、模型与技术突破
1.1 通用大模型 (大语言模型与多模态模型)
- 阿里:发布通义千问 3.5-Max-Preview,LM Arena 得分 1464,全球排名第五、中国第一,数学能力全球第三,综合性能全球第六,专家级处理能力跻身全球前十,千问 App 月活超 3 亿,模型在 Hugging Face 累计下载量破 10 亿次。
- 小米:发布 MiMo-V2-Pro 旗舰模型,总参数超 1T(42B 激活),混合注意力架构支持 1M 超长上下文,Artificial Analysis 全球综合排行榜第八、国内第二,在 OpenClaw 等框架中端到端任务完成能力超 Claude Sonnet 4.6,API 定价为 Opus 4.6 的五分之一,此前以 Hunter Alpha 匿名上线 OpenRouter 调用量多天登顶日榜破 1T tokens。
- Cursor:发布 Composer 2 编程模型,CursorBench 得分 61.3、Terminal-Bench 2.0 得分 61.7%,超 Claude Opus 4.6 并追平 GPT-5.4 Thinking,支持 100 万 Token 长上下文,输入每百万 Token0.5 美元、输出 2.5 美元,较 Composer 1.5 降价 86%,摆脱对竞品 API 依赖,建立编辑器到模型底座的完整护城河。
- MiniMax:发布 M2.7 模型,PinchBench OpenClaw 代理基准测试得分 86.2% 排名第五,Kilo Bench 自主编码评估通过率 47% 排名第二,SWE-Pro 得分 56.22% 接近 Opus,MLE Bench Lite 获 9 金 5 银 1 铜奖牌率 66.6%,与 Gemini 3.1 持平,具备自我迭代能力,可协助优化自身框架,输入每百万 Token0.3 美元、输出 1.2 美元,成本优势显著。
- 月之暗面(Kimi):披露 K2.5 技术路线图,含 MuonClip 优化器、Kimi Linear 架构、智能体集群三大创新,核心为注意力残差技术,48B 参数模型上科学推理提升 7.5 分、数学 3.6 分、代码 3.1 分,同等算力性能提升,训练预算减少 20%,算力效率提升 25%,推理延迟增加不到 2%;Kimi 完成 10 亿美元融资,估值达 180 亿美元,三个月估值增长四倍。
- 英伟达:发布 Nemotron-Cascade-2 开源 30B MoE 模型(3B 激活参数),从 Nemotron-3-Nano-30B-A3B-Base 后训练而来,斩获 IMO 与 IOI 双金牌,支持思考和指令模式;发布 Nemotron 3 Super 120A12B 推理大模型,支持百万级上下文和多智能体协作。
- 腾讯:开源 Penguin-VL 多模态模型,从纯文本 LLM 初始化视觉编码器,改造因果注意力为双向注意力、引入 2D-RoPE 处理二维位置信息,2B/8B 参数版本在文档/图表理解、长视频时序定位表现优异,LLM 初始化编码器平均分从 31.3 提升至 34.6,完整配置达 49.3 分。
- 天工 AI(昆仑万维):推出 SkyReels-V4 视频模型,登顶 Artificial Analysis 文转视频全球榜超 Sora 2、Veo 3.1,采用自研对称双流 MMDiT 架构,支持多模态输入、音画同步生成,最多九张关键帧参考,实现 1080p/32FPS/15 秒视频生成,应用于 DramaWave 短剧平台月活破 8000 万,年化流水 4.8 亿美元,API 已开放。
- YuanLab.ai:开源 Yuan3.0 Ultra 万亿级多模态模型,参数精简 33%,为大模型领域提供高效能的开源选择。
- OpenAI:发布 GPT-5.4 mini/nano 小型模型,mini 为高吞吐量设计、性能接近大模型且速度更快,nano 主打轻量低成本;Codex 周活用户超 200 万,年内增长三倍,收购 Astral 后将整合其工具延伸至依赖管理、漏洞修复等全流程。
- Mistral AI:发布 Mistral Small 4 全能型大模型,119B 参数量(6B 激活参数),采用 MoE 架构,推理、多模态、编程能力兼备,延迟优化模式下端到端完成时间缩短 40%,运行效率高。
- CMU&普林斯顿:发布 Mamba-3 架构,15 亿参数规模下平均准确率 57.6%,超 Transformer4%,端到端推理延迟为 Transformer 的 1/7,通过指数梯形离散化、复数值状态空间、MIMO 机制三大改进,用一半状态大小达 Mamba-2 同等性能,团队提出 5:1 混合架构方案弥补检索任务短板。
1.2 垂直大模型
- 小红书:发布 dots.mocr 多模态 OCR 模型,3B 参数,实现多语言文档解析 SOTA,支持将结构化图形(图表、UI 布局等)转为 SVG 代码,核心能力含定位、识别、语义理解、交互式对话,推出 dots.mocr-svg 专用变体。
- 百度:发布 Qianfan-OCR 4B 参数端到端文档智能模型,将文档解析、布局分析、理解统一于视觉语言架构,直接实现图像到 Markdown 转换,支持结构化文档解析、表格提取、文档问答等提示驱动任务。
- 阿里:提出 Video-CoE 视频事件链范式,将视频内容分解为连续时间序列,增强未来事件预测的逻辑推理能力,在视频事件预测基准上实现 SOTA。

