2026 年 2 月 AIGC 行业模型发布及前沿资讯汇总
本月 AI 领域动作频频,从编程 Agent 到多模态生成,再到端侧量化模型,各大厂商密集释放了多款重磅产品。以下是本月值得关注的技术动态与开源项目。
编程与智能体(Agent)
阿里 Qwen 系列持续发力 通义千问团队发布了多个新模型。Qwen3-Coder-Next 专为编程 Agent 设计,基于 Qwen3-Next-80B-A3B-Base,采用混合注意力与稀疏 MoE 架构,在 SWE-Bench Verified 上得分达 70.6%。此外,Qwen3.5 系列也正式发布,包括 Qwen3.5-397B-A17B 原生多模态模型及 Qwen3.5-Flash 等型号,主打'更强智能、更低算力',支持超 26 万 token 上下文。阿里还构建了 SWE-Universe 训练框架,从 GitHub PR 中自动构建百万级可执行软件工程环境,助力模型在真实场景中提升。
智谱 GLM-5 与 Z Code 智谱上线并开源了 GLM-5,定位为面向复杂系统工程和长程 Agentic 任务的基座模型,参数规模扩展至 744B(激活 40B),在 Coding 与 Agent 能力上取得开源 SOTA。同时,智谱正式发布了 AI 编程工具 Z Code,整合了多种 Agent 能力,支持多 Agent 无缝切换与跨设备协作。
其他编程工具更新 Cursor 推出了新版 Cloud Agents,赋予智能体独立云端虚拟机能力,可直接控制计算机进行软件构建。字节跳动开源了 AI Agent 上下文数据库 OpenViking,采用文件系统范式管理记忆与技能。DeepSeek 上线了新模型,上下文窗口提升至 1M token,响应速度有明显提升。
多模态与视觉生成
视频与图像生成 xAI 正式发布 Grok Imagine 1.0 视频模型,支持生成最长 10 秒、720p 分辨率的视频。快手可灵发布 3.0 版本套件,视频生成时长延长至 15 秒,支持原生 2K/4K 输出。字节跳动发布视频创作模型 Seedance 2.0,支持图文音视频四种输入,攻克了物理规律合理性难题。小红书开源了 FireRed-Image-Edit 通用图像编辑模型及 FireRedASR2S 语音识别系统。高德地图正式开源几何一致世界模型 FantasyWorld,单次前向传播即可生成视频与 3D 场景信息。
视觉理解与 OCR 智谱发布轻量级专业 OCR 模型 GLM-OCR,基于 GLM-V 编码器 - 解码器架构,在 OmniDocBench V1.5 评测中登顶。OpenBMB 发布了 9B 参数的多模态大语言模型 MiniCPM-o 4.5,支持全双工多模态实时交互,视觉语言能力超越 GPT-4o。阿里 AIDC-AI 开源多模态大模型 Ovis2.6-30B-A3B,新增"Think with Image"功能,强化 OCR 与文档理解。
科学推理与世界模型 上海 AI 实验室推出万亿参数多模态科学推理模型 Intern-S1-Pro,专注 AI4Science 领域。Waymo 推出 Waymo World Model,基于 Genie 3 构建,用于大规模超真实自动驾驶仿真。Meta AI 发布 EB-JEPA 开源库,提供 Joint Embedding Predictive Architectures 示例。
语音与音频生成
语音合成与识别 蚂蚁集团开源统一音频生成模型 Ming-omni-tts,业界首个在单通道内联合生成语音、环境音和音乐的自回归模型。科大讯飞推出讯飞星火 X2 大模型,API 已在开放平台上线。Mistral AI 开源 40 亿参数实时语音模型 Voxtral Mini 4B Realtime 2602,延迟低于 500 毫秒。Soul 推出 SoulX-Singer 歌声合成模型,解决开源 SVS 在稳健性方面的瓶颈。
音乐生成 Google DeepMind 发布先进音乐生成模型 Lyria 3,支持文本转音轨及图像/视频转音轨。ACE Studio 与 StepFun 联合发布开源音乐模型 ACE-Step 1.5,采用混合架构,生成质量介于 Suno v4.5 与 v5 之间。MOSI.AI 与 OpenMOSS 发布 MOSS-TTS 家族,包含五个生产级模型。
基础模型与架构优化
大参数模型发布 阶跃星辰发布并开源 Step 3.5 Flash,采用 196B 总参数(激活 11B)的稀疏 MoE 架构,专为 Agent 场景设计。蚂蚁百灵发布 Ling-2.5-1T 模型,总参数 1T,支持最长 1M token 上下文。蚂蚁集团发布全模态大模型 Ming-flash-omni 2.0,基于 Ling-2.0 架构。MiniMax 正式开源 MiniMax-M2.5,总参数规模达 230B。
端侧与轻量化 腾讯混元推出 HY-1.8B-2Bit 端侧量化模型,基于产业级 2Bit 端侧量化技术,适配 Arm SME2 技术设备。OpenBMB 发布 MiniCPM-SALA 百万上下文模型,首款大规模混合稀疏与线性注意力架构,在消费级 GPU 上支持 1M 令牌上下文推理。Cohere Labs 发布 Tiny Aya 多语言模型,侧重低资源语言的深度支持。

