编程与 Agent 能力升级
本月在代码生成与智能体领域,阿里 Qwen 团队动作频频。Qwen-Coder-Qoder 正式发布,基于 Qwen-Coder 基座结合 ROLL 训练框架进行强化学习,在 Windows 终端命令准确率上表现突出,显著降低工具异常率。同时,通义千问推出 Qwen3-Coder-Next,采用混合注意力与稀疏 MoE 架构,800 亿参数中仅激活 30 亿,重点强化长程推理与失败恢复能力,SWE-Bench Verified 得分达 70.6%。
智谱 AI 开源 GLM-5,定位为面向复杂工程任务的基座模型,参数量提升至 744B(激活 40B),集成 DeepSeek Sparse Attention 以优化长文本成本。其在 SWE-bench-Verified 获得 77.8 分,支持国产算力平台深度适配。蚂蚁集团开源 Ring-2.5-1T,万亿参数推理模型,通过大规模全异步 Agent 强化学习训练,支持扩展思考过程,在数学竞赛中达到金牌水平。
字节跳动开源 OpenViking,专为 AI Agent 设计的上下文数据库,采用文件系统范式管理记忆与技能。Cursor 推出新版 Cloud Agents,赋予智能体独立云端虚拟机,可直接控制计算机环境构建与测试软件。BOSS 直聘发布 Nanbeige4.1-3B,探索小型通用模型的推理与 Agent 行为对齐能力。
多模态与视频生成
视频生成方面,字节跳动 Seedance 2.0 正式上线,支持图像、视频、音频、文本四种模态输入,可混合输入 9 张图片、3 段视频及 3 段音频,生成长度配置灵活,攻克了物理规律合理性与动作流畅性难题。高德地图开源 FantasyWorld 世界模型,单次前向传播即可从单张图片和相机轨迹同时生成视频与 3D 场景信息,已被 ICLR 2026 收录。
通义千问推出 Qwen-Image-2.0 统一图像模型,统一生成与编辑能力,支持 2K 分辨率输出与 1k token 超长指令输入,文字渲染与真实质感表现优异。小红书开源 FireRed-Image-Edit-1.0,包含指令遵循、文字编辑、创意生成及画质修复四大核心能力,并同步推出 REDEdit-Bench 评测基准。
OpenAI 更新 GPT-5.2 Instant 模型,调整响应风格与质量。xAI 正式发布 Grok Imagine 1.0 视频模型,实现从静态图像到动态高清视频生成的跨越,最长支持 10 秒 720p 视频。Google 发布 Nano Banana 2 图像生成模型,融合高级智能与处理速度,精准文本渲染与主体一致性显著提升。
语音与音乐合成
语音与音乐领域,ACE Studio 与 StepFun 联合发布 ACE-Step 1.5,采用 LM 作为规划器指导 DiT 创作,生成一首完整歌曲快至 2 秒,支持本地运行与商业用途。MOSI.AI 与 OpenMOSS 发布 MOSS-TTS 家族,包含五个生产级模型,覆盖高保真语音克隆、多说话人对话及音效生成,基于统一的 1.6B 参数 Tokenizer。
小米 MiMo 更新 MiMo-V2-Flash-0204,核心围绕 Thinking 模式升级,工具调用准确率跃升至 97.0%。科大讯飞推出讯飞星火 X2,基于全国产算力训练,API 上线并提供免费额度。Soul 推出 SoulX-Singer 歌声合成系统,解决开源 SVS 在稳健性与零样本泛化方面的瓶颈。
端侧量化与基础设施
端侧部署方面,腾讯混元发布 HY-1.8B-2Bit 端侧量化模型,基于产业级 2Bit 量化技术,内存占用仅 600MB,在 Arm SME2 设备上生成速度提升 2 至 3 倍。美团推出 LongCat-Flash-Lite,采用 N-gram 嵌入层与动态激活机制,聚焦 Agent 与代码领域,支持 256K 超长上下文。
Meta AI 发布 EB-JEPA 开源库,提供 Joint Embedding Predictive Architectures 示例,支持 CIFAR-10 自监督学习与视频序列预测。腾讯混元推出 HPC-Ops 推理算子库,基于 CUDA 从零构建,旨在逼近硬件性能峰值。阿里 Qwen 构建 SWE-Universe 训练框架,从 GitHub PRs 自动构建百万级可执行软件工程训练环境。
其他重要模型发布
阶跃星辰发布 Step 3.5 Flash,专为 Agent 场景设计,196B 总参数(激活 11B),开启 Parallel Thinking 后在数学与智能体基准测试中表现领先。优必选开源具身智能大模型 Thinker,定位小参数高性能,为工业人形机器人提供空间感知大脑。上海 AI 实验室推出 Intern-S1-Pro,万亿参数 MoE 多模态科学推理模型,专注 AI4Science 领域。
MiniMax 正式开源 MiniMax-M2.5,总参数 230B,激活 10B,支持主流框架本地部署。智谱发布轻量级 OCR 模型 GLM-OCR,0.9B 参数在 OmniDocBench 登顶,支持表格公式识别。Mistral AI 开源 Voxtral Mini 4B Realtime,低延迟实时语音转录模型。DeepSeek 上线 1M 上下文窗口新模型,长上下文场景表现突出。
此外,OpenBMB 发布 MiniCPM-o 4.5 多模态模型,支持全双工实时交互;蚂蚁集团发布 LLaDA2.1 扩散大语言模型及 Ming-flash-omni 2.0 全模态模型;Google DeepMind 发布 Lyria 3 音乐生成模型;Prime Intellect 开源 106B 参数 MoE 模型 INTELLECT-3.1;Cohere Labs 发布 Tiny Aya 多语言模型家族;京东开源 JoyAI-LLM-Flash 模型;阿里 AIDC-AI 开源 Ovis2.6-30B-A3B 多模态模型;字节跳动研究团队开源 BitDance 多模态模型。

