2026 年 2 月 AIGC 行业模型发布与前沿资讯汇总

2026 年 2 月 AIGC 领域迎来密集更新，涵盖编程、视觉、音频及基础架构多个维度。阿里通义千问推出 Qwen3.5 系列及编程专用模型，智谱开源 GLM-5 强化 Agent 能力。字节跳动发布 Seedance 2.0 视频模型与豆包大模型 2.0 系列。蚂蚁集团开源 Ring-2.5-1T 及全模态 Ming 系列。此外，Google DeepMind 发布 Lyria 3 音乐模型，Meta 开源 EB-JEPA 库。整体趋势显示长上下文、多模态协同及端侧量化技术成为核心演进方向，开源生态持续活跃。

修罗发布于 2026/3/29更新于 2026/7/2339 浏览

本月概览

2026 年 2 月，AIGC 领域迎来密集更新，涵盖编程、视觉、音频及基础架构多个维度。从阿里通义千问到字节跳动，再到蚂蚁集团，各大厂商在长上下文、多模态协同及端侧量化技术上持续发力。开源生态保持活跃，大量基座模型与专用工具链同步开放。

编程与智能体（Coding & Agents）

阿里 Qwen 系列：通义千问团队发布了 Qwen3.5 系列，包括 Qwen3.5-397B-A17B 等型号，融合语言、视觉与编程能力，支持思考与快速模式。同时推出 Qwen-Coder-Qoder，基于强化学习提升端到端编程体验，在 Windows 系统下终端命令准确率领先。Qwen3-Coder-Next 则专注于本地开发，采用稀疏 MoE 架构降低推理成本。

智谱 GLM-5：智谱 AI 上线并开源 GLM-5，定位为面向复杂系统工程和长程 Agentic 任务的基座模型。参数规模扩展至 744B（激活 40B），集成 DeepSeek Sparse Attention，在 SWE-bench-Verified 中获得开源 SOTA 表现。支持国产算力平台深度适配。

其他编程模型：MiniMax 正式开源 MiniMax-M2.5，总参数 230B，激活 10B。DeepSeek 上线 1M 上下文窗口新模型，响应速度明显提升。BOSS 直聘推出 Nanbeige4.1-3B，探索小型通用模型的推理与 Agent 行为。Cursor 推出新版 Cloud Agents，赋予智能体独立云端虚拟机能力。

视觉与视频生成（Vision & Video）

字节 Seedance 2.0：正式发布视频创作模型 Seedance 2.0，支持文字、图片、音频、视频四种输入混合。具备视频编辑与延长功能，支持 15 秒高质量多镜头音视频输出。在即梦 AI、豆包等平台已上线。

阿里与智谱视觉模型：千问推出 Qwen-Image-2.0 统一图像模型，统一了生成与编辑能力，支持 2K 分辨率输出。智谱发布轻量级专业 OCR 模型 GLM-OCR，在 OmniDocBench V1.5 评测中登顶，支持表格、公式识别。

其他视觉进展：高德地图开源几何一致世界模型 FantasyWorld，单次前向传播即可生成视频与 3D 场景信息。小红书开源 FireRed-Image-Edit 模型，包含指令遵循、文字编辑等核心能力。Waymo 推出 Waymo World Model，用于大规模超真实自动驾驶仿真。

音频与音乐（Audio & Music）

音乐生成：ACE Studio 与 StepFun 联合发布开源音乐模型 ACE-Step 1.5，支持本地运行与商业用途。Google DeepMind 发布 Lyria 3 音乐生成模型，支持文本转音轨及图像/视频转音轨。Soul 推出 SoulX-Singer 歌声合成模型，解决开源 SVS 泛化瓶颈。

语音合成：MOSI.AI 与 OpenMOSS 发布 MOSS-TTS 家族，包含五个生产级模型，支持高保真零样本克隆。蚂蚁集团开源 Ming-omni-tts 音频生成模型，业界首个在单通道内联合生成语音、环境音和音乐的自回归模型。

语音识别：小红书开源工业级一体化 ASR 系统 FireRedASR2S，性能达 SOTA。Mistral AI 开源 Voxtral Mini 4B Realtime 实时语音转录模型。

基础设施与基座模型（Infrastructure & Base Models）

大参数基座：蚂蚁百灵发布 Ling-2.5-1T 模型，总参数 1T，支持最长 1M token 上下文。上海 AI 实验室推出 Intern-S1-Pro，万亿参数 MoE 多模态科学推理模型。OpenBMB 发布 MiniCPM-o 4.5，支持全双工多模态实时交互。

推理与优化：腾讯混元推出 HPC-Ops 推理算子库，基于 CUDA 从零构建。Meta AI 发布 EB-JEPA 开源库，提供 Joint Embedding Predictive Architectures 示例。Prime Intellect 开源 106B 参数 MoE 模型 INTELLECT-3.1。

端侧与量化：腾讯混元发布 HY-1.8B-2Bit 端侧量化模型，内存占用仅 600MB。美团推出 LongCat-Flash-Lite 模型，聚焦 Agent 与代码领域，支持 256K 超长上下文。

参考资料

Hugging Face - Qwen

2026 年 2 月 AIGC 行业模型发布与前沿资讯汇总

本月概览

编程与智能体（Coding & Agents）

视觉与视频生成（Vision & Video）

音频与音乐（Audio & Music）

基础设施与基座模型（Infrastructure & Base Models）

参考资料

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

2026 年 2 月 AIGC 行业模型发布与前沿资讯汇总

本月概览

编程与智能体（Coding & Agents）

视觉与视频生成（Vision & Video）

音频与音乐（Audio & Music）

基础设施与基座模型（Infrastructure & Base Models）

参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具