基础大模型与推理能力
本月多家厂商发布了新一代基座模型,重点在于长上下文处理、Agent 任务执行及端侧部署优化。
阿里 Qwen3.5 系列:通义千问团队发布了 Qwen3.5-397B-A17B 等型号,总参数达 3970 亿,激活 170 亿。该系列融合语言、视觉与编程能力,支持思考与快速模式,原生支持超 26 万 token 上下文,API 版本甚至支持 1M 上下文。此外,Qwen-Coder-Qoder 基于强化学习框架 ROLL 训练,在真实软件工程任务中表现优异,代码留存率提升显著。Qwen-Image-2.0 统一了图像生成与编辑,支持 2K 分辨率输出。
阶跃星辰 Step 3.5 Flash:专为 Agent 场景设计的稀疏 MoE 架构模型,196B 总参数(激活 11B),支持 256K 上下文。开启 Parallel Thinking 后,数学与智能体基准测试表现领先,支持端云协同私有部署,已适配华为昇腾等国产芯片。
智谱 GLM-5:面向复杂系统工程和长程 Agentic 任务的基座模型,参数规模扩展至 744B(激活 40B),预训练数据增至 28.5T tokens。集成 DeepSeek Sparse Attention 降低部署成本,编程与 Agent 能力达到开源 SOTA,支持多种国产算力平台深度适配。
蚂蚁集团多模型发布:百灵团队开源万亿参数推理模型 Ring-2.5-1T,采用混合线性注意力架构,长文本推理效率提升显著;全模态大模型 Ming-flash-omni 2.0 聚焦专家级认知与声学合成;扩散大语言模型 LLaDA2.1 引入 Token-to-Token 编辑机制,支持实时修正生成内容。
其他基座更新:OpenAI 宣布 GPT-5.2 系列提速 40%,并更新 Instant 模型响应风格;DeepSeek 上线 1M 上下文窗口新模型,响应速度明显提升;MiniMax M2.5 正式开源,230B 总参数,激活 10B;BOSS 直聘 Nanbeige4.1-3B 探索小模型同时具备推理与 Agent 行为的能力。
多模态与视觉生成
视频与图像生成领域持续突破,强调一致性、物理规律遵循及高分辨率输出。
字节跳动 Seedance 2.0:正式发布视频创作模型,支持图文音视频四种输入,可混合输入 9 张图片、3 段视频及音频。具备视频编辑与延长功能,支持 15 秒高质量多镜头输出,视听协同性增强,已在即梦 AI、豆包等平台上线。
快手可灵 3.0:视频生成时长延长至 15 秒,支持原生 2K/4K 图像输出。新增主体参考能力,允许用户添加图片或视频锚定主角与场景,全能音画功能支持多语种口型匹配。
Google Nano Banana 2:融合高级智能与 Flash 处理速度,位列 Image Arena 榜首。支持精准文本渲染、翻译及复杂指令遵循,主体一致性显著提升,API 成本较 Pro 版下降约 50%。
小红书 FireRed 系列:开源通用图像编辑模型 FireRed-Image-Edit-1.0,包含指令遵循、文字编辑、创意生成及画质修复四大核心能力;语音识别系统 FireRedASR2S 集成 ASR、VAD 等模块,性能达 SOTA。
高德 FantasyWorld:正式开源几何一致世界模型,单次前向传播即可从单张图片和相机轨迹同时生成视频与 3D 场景信息,已被 ICLR 2026 收录。
其他视觉进展:Meta AI 发布 EB-JEPA 开源库,提供 Joint Embedding Predictive Architectures 示例;阿里 Ovis2.6-30B-A3B 支持 Think with Image 主动调用视觉工具;小米 MiMo-V2-Flash-0204 优化了 Thinking 模式下的代码与指令遵循能力。
语音与音频技术
语音合成与识别模型在保真度、实时性及多语言支持上取得进展。
MOSI-TTS 家族:MOSI.AI 与 OpenMOSS 联合发布开源语音模型家族,包含旗舰 MOSS-TTS、超长对话模型 TTSD v1.0 及实时语音智能体模型。基于统一的 1.6B 参数 Audio Tokenizer,支持高保真零样本克隆。
腾讯混元 HY-1.8B-2Bit:面向消费级硬件的端侧量化模型,基于 2Bit 量化感知训练,内存占用仅 600MB,生成速度提升 2 至 3 倍,完整保留思维链推理能力。
Mistral Voxtral Mini 4B:开源 40 亿参数实时语音转录模型,延迟低于 500 毫秒,针对语音助手及设备端部署优化。
SoulX-Singer:工业级歌声合成系统,解决稳健性与零样本泛化瓶颈,支持 MIDI 或旋律表示的可控生成。
蚂蚁 Ming-omni-tts:业界首个单通道内联合生成语音、环境音和音乐的自回归模型,支持细粒度语音控制及专业文本规范化。

