2026 年 2 月 AIGC 行业模型发布与前沿技术动态汇总

2026 年 2 月 AIGC 领域迎来密集更新，涵盖多模态、编程 Agent、语音生成及端侧量化等方向。阿里 Qwen 推出 Qwen3.5 系列及编程专用模型，智谱开源 GLM-5 强化长程任务能力，字节跳动发布 Seedance 2.0 视频模型。蚂蚁集团开源 Ring-2.5-1T 万亿参数模型，MiniMax 发布 M2.5。OpenAI 更新 GPT-5.2 提速并推出 Codex-Spark。此外，Meta、Google DeepMind、小米等厂商也在世界模型、音乐生成及端侧推理方面取得进展。梳理了当月主要开源模型与技术框架，为开发者提供技术选型参考。

PentesterX发布于 2026/3/29更新于 2026/7/1938 浏览

编程与 Agent 能力升级

本月在代码生成与智能体领域，阿里 Qwen 团队动作频频。Qwen-Coder-Qoder 正式发布，基于 Qwen-Coder 基座结合 ROLL 训练框架进行强化学习，在 Windows 终端命令准确率上表现突出，显著降低工具异常率。同时，通义千问推出 Qwen3-Coder-Next，采用混合注意力与稀疏 MoE 架构，800 亿参数中仅激活 30 亿，重点强化长程推理与失败恢复能力，SWE-Bench Verified 得分达 70.6%。

智谱 AI 开源 GLM-5，定位为面向复杂工程任务的基座模型，参数量提升至 744B（激活 40B），集成 DeepSeek Sparse Attention 以优化长文本成本。其在 SWE-bench-Verified 获得 77.8 分，支持国产算力平台深度适配。蚂蚁集团开源 Ring-2.5-1T，万亿参数推理模型，通过大规模全异步 Agent 强化学习训练，支持扩展思考过程，在数学竞赛中达到金牌水平。

字节跳动开源 OpenViking，专为 AI Agent 设计的上下文数据库，采用文件系统范式管理记忆与技能。Cursor 推出新版 Cloud Agents，赋予智能体独立云端虚拟机，可直接控制计算机环境构建与测试软件。BOSS 直聘发布 Nanbeige4.1-3B，探索小型通用模型的推理与 Agent 行为对齐能力。

多模态与视频生成

视频生成方面，字节跳动 Seedance 2.0 正式上线，支持图像、视频、音频、文本四种模态输入，可混合输入 9 张图片、3 段视频及 3 段音频，生成长度配置灵活，攻克了物理规律合理性与动作流畅性难题。高德地图开源 FantasyWorld 世界模型，单次前向传播即可从单张图片和相机轨迹同时生成视频与 3D 场景信息，已被 ICLR 2026 收录。

通义千问推出 Qwen-Image-2.0 统一图像模型，统一生成与编辑能力，支持 2K 分辨率输出与 1k token 超长指令输入，文字渲染与真实质感表现优异。小红书开源 FireRed-Image-Edit-1.0，包含指令遵循、文字编辑、创意生成及画质修复四大核心能力，并同步推出 REDEdit-Bench 评测基准。

OpenAI 更新 GPT-5.2 Instant 模型，调整响应风格与质量。xAI 正式发布 Grok Imagine 1.0 视频模型，实现从静态图像到动态高清视频生成的跨越，最长支持 10 秒 720p 视频。Google 发布 Nano Banana 2 图像生成模型，融合高级智能与处理速度，精准文本渲染与主体一致性显著提升。

语音与音乐合成

语音与音乐领域，ACE Studio 与 StepFun 联合发布 ACE-Step 1.5，采用 LM 作为规划器指导 DiT 创作，生成一首完整歌曲快至 2 秒，支持本地运行与商业用途。MOSI.AI 与 OpenMOSS 发布 MOSS-TTS 家族，包含五个生产级模型，覆盖高保真语音克隆、多说话人对话及音效生成，基于统一的 1.6B 参数 Tokenizer。

小米 MiMo 更新 MiMo-V2-Flash-0204，核心围绕 Thinking 模式升级，工具调用准确率跃升至 97.0%。科大讯飞推出讯飞星火 X2，基于全国产算力训练，API 上线并提供免费额度。Soul 推出 SoulX-Singer 歌声合成系统，解决开源 SVS 在稳健性与零样本泛化方面的瓶颈。

端侧量化与基础设施

端侧部署方面，腾讯混元发布 HY-1.8B-2Bit 端侧量化模型，基于产业级 2Bit 量化技术，内存占用仅 600MB，在 Arm SME2 设备上生成速度提升 2 至 3 倍。美团推出 LongCat-Flash-Lite，采用 N-gram 嵌入层与动态激活机制，聚焦 Agent 与代码领域，支持 256K 超长上下文。

Meta AI 发布 EB-JEPA 开源库，提供 Joint Embedding Predictive Architectures 示例，支持 CIFAR-10 自监督学习与视频序列预测。腾讯混元推出 HPC-Ops 推理算子库，基于 CUDA 从零构建，旨在逼近硬件性能峰值。阿里 Qwen 构建 SWE-Universe 训练框架，从 GitHub PRs 自动构建百万级可执行软件工程训练环境。

其他重要模型发布

阶跃星辰发布 Step 3.5 Flash，专为 Agent 场景设计，196B 总参数（激活 11B），开启 Parallel Thinking 后在数学与智能体基准测试中表现领先。优必选开源具身智能大模型 Thinker，定位小参数高性能，为工业人形机器人提供空间感知大脑。上海 AI 实验室推出 Intern-S1-Pro，万亿参数 MoE 多模态科学推理模型，专注 AI4Science 领域。

MiniMax 正式开源 MiniMax-M2.5，总参数 230B，激活 10B，支持主流框架本地部署。智谱发布轻量级 OCR 模型 GLM-OCR，0.9B 参数在 OmniDocBench 登顶，支持表格公式识别。Mistral AI 开源 Voxtral Mini 4B Realtime，低延迟实时语音转录模型。DeepSeek 上线 1M 上下文窗口新模型，长上下文场景表现突出。

此外，OpenBMB 发布 MiniCPM-o 4.5 多模态模型，支持全双工实时交互；蚂蚁集团发布 LLaDA2.1 扩散大语言模型及 Ming-flash-omni 2.0 全模态模型；Google DeepMind 发布 Lyria 3 音乐生成模型；Prime Intellect 开源 106B 参数 MoE 模型 INTELLECT-3.1；Cohere Labs 发布 Tiny Aya 多语言模型家族；京东开源 JoyAI-LLM-Flash 模型；阿里 AIDC-AI 开源 Ovis2.6-30B-A3B 多模态模型；字节跳动研究团队开源 BitDance 多模态模型。

2026 年 2 月 AIGC 行业模型发布与前沿技术动态汇总

编程与 Agent 能力升级

多模态与视频生成

语音与音乐合成

端侧量化与基础设施

其他重要模型发布

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

2026 年 2 月 AIGC 行业模型发布与前沿技术动态汇总

编程与 Agent 能力升级

多模态与视频生成

语音与音乐合成

端侧量化与基础设施

其他重要模型发布

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具