本月概览
2026 年 2 月,AIGC 领域迎来密集更新,涵盖编程、视觉、音频及基础架构多个维度。从阿里通义千问到字节跳动,再到蚂蚁集团,各大厂商在长上下文、多模态协同及端侧量化技术上持续发力。开源生态保持活跃,大量基座模型与专用工具链同步开放。
编程与智能体(Coding & Agents)
阿里 Qwen 系列:通义千问团队发布了 Qwen3.5 系列,包括 Qwen3.5-397B-A17B 等型号,融合语言、视觉与编程能力,支持思考与快速模式。同时推出 Qwen-Coder-Qoder,基于强化学习提升端到端编程体验,在 Windows 系统下终端命令准确率领先。Qwen3-Coder-Next 则专注于本地开发,采用稀疏 MoE 架构降低推理成本。
智谱 GLM-5:智谱 AI 上线并开源 GLM-5,定位为面向复杂系统工程和长程 Agentic 任务的基座模型。参数规模扩展至 744B(激活 40B),集成 DeepSeek Sparse Attention,在 SWE-bench-Verified 中获得开源 SOTA 表现。支持国产算力平台深度适配。
其他编程模型:MiniMax 正式开源 MiniMax-M2.5,总参数 230B,激活 10B。DeepSeek 上线 1M 上下文窗口新模型,响应速度明显提升。BOSS 直聘推出 Nanbeige4.1-3B,探索小型通用模型的推理与 Agent 行为。Cursor 推出新版 Cloud Agents,赋予智能体独立云端虚拟机能力。
视觉与视频生成(Vision & Video)
字节 Seedance 2.0:正式发布视频创作模型 Seedance 2.0,支持文字、图片、音频、视频四种输入混合。具备视频编辑与延长功能,支持 15 秒高质量多镜头音视频输出。在即梦 AI、豆包等平台已上线。
阿里与智谱视觉模型:千问推出 Qwen-Image-2.0 统一图像模型,统一了生成与编辑能力,支持 2K 分辨率输出。智谱发布轻量级专业 OCR 模型 GLM-OCR,在 OmniDocBench V1.5 评测中登顶,支持表格、公式识别。
其他视觉进展:高德地图开源几何一致世界模型 FantasyWorld,单次前向传播即可生成视频与 3D 场景信息。小红书开源 FireRed-Image-Edit 模型,包含指令遵循、文字编辑等核心能力。Waymo 推出 Waymo World Model,用于大规模超真实自动驾驶仿真。
音频与音乐(Audio & Music)
音乐生成:ACE Studio 与 StepFun 联合发布开源音乐模型 ACE-Step 1.5,支持本地运行与商业用途。Google DeepMind 发布 Lyria 3 音乐生成模型,支持文本转音轨及图像/视频转音轨。Soul 推出 SoulX-Singer 歌声合成模型,解决开源 SVS 泛化瓶颈。
语音合成:MOSI.AI 与 OpenMOSS 发布 MOSS-TTS 家族,包含五个生产级模型,支持高保真零样本克隆。蚂蚁集团开源 Ming-omni-tts 音频生成模型,业界首个在单通道内联合生成语音、环境音和音乐的自回归模型。
语音识别:小红书开源工业级一体化 ASR 系统 FireRedASR2S,性能达 SOTA。Mistral AI 开源 Voxtral Mini 4B Realtime 实时语音转录模型。
基础设施与基座模型(Infrastructure & Base Models)
大参数基座:蚂蚁百灵发布 Ling-2.5-1T 模型,总参数 1T,支持最长 1M token 上下文。上海 AI 实验室推出 Intern-S1-Pro,万亿参数 MoE 多模态科学推理模型。OpenBMB 发布 MiniCPM-o 4.5,支持全双工多模态实时交互。
推理与优化:腾讯混元推出 HPC-Ops 推理算子库,基于 CUDA 从零构建。Meta AI 发布 EB-JEPA 开源库,提供 Joint Embedding Predictive Architectures 示例。Prime Intellect 开源 106B 参数 MoE 模型 INTELLECT-3.1。
端侧与量化:腾讯混元发布 HY-1.8B-2Bit 端侧量化模型,内存占用仅 600MB。美团推出 LongCat-Flash-Lite 模型,聚焦 Agent 与代码领域,支持 256K 超长上下文。

