【AIGC行业前沿】2026年2月AIGC行业模型发布以及主要前沿资讯

Ne0inhk

21 Mar 2026 — 60 min read

阿里Qoder发布Qwen-Coder-Qoder
Kimi与南大发布SimpleSeg赋能模型像素感知
字节研究团队发布ConceptMoE提升AI推理
阶跃星辰发布并开源模型Step 3.5 Flash
智谱发布并开源OCR模型GLM-OCR
xAI正式发布Grok Imagine 1.0视频模型
优必选开源具身智能大模型Thinker
通义千问发布开源编程模型Qwen3-Coder-Next
OpenAI宣布GPT-5.2系列模型提速40%
OpenBMB发布多模态模型MiniCPM-o 4.5
ACE Studio与StepFun联合发布开源音乐模型ACE-Step 1.5
Ai2发布轻量级开源编码模型SERA-14B
上海AI实验室推出万亿参数多模态科学推理模型Intern-S1-Pro
Mistral AI开源40亿参数实时语音模型Voxtral Mini 4B Realtime 2602
快手可灵发布可灵3.0
Meta AI发布EB-JEPA开源库
阿里Qwen构建SWE-Universe训练框架
腾讯混元推出HPC-Ops推理算子库
字节跳动开源AI Agent上下文数据库
美团推出LongCat-Flash-Lite模型
字节跳动发布视频生成模型Seedance 2.0
OpenRouter与Kilo Code上线Pony Alpha模型
Waymo推出Waymo World Model
千问推出Qwen-Image-2.0统一图像模型
MOSI.AI与OpenMOSS发布MOSS-TTS家族
蚂蚁集团发布LLaDA2.1扩散大语言模型
腾讯混元发布HY-1.8B-2Bit端侧量化模型
智谱AI发布并开源GLM-5模型
DeepSeek上线1M上下文窗口新模型
MiniMax上线MiniMax M2.5
OpenAI更新GPT-5.2 Instant模型
蚂蚁集团发布全模态大模型Ming-flash-omni 2.0
科大讯飞推出讯飞星火X2大模型
OpenBMB发布MiniCPM-SALA百万上下文模型
BOSS直聘推出Nanbeige4.1-3B模型
Soul推出SoulX-Singer歌声合成模型
智谱正式发布AI编程工具Z Code
MiniMax正式开源MiniMax-M2.5
OpenAI发布GPT-5.3-Codex-Spark
蚂蚁集团开源Ring-2.5-1T
字节跳动正式发布视频创作模型Seedance 2.0
小米MiMo发布MiMo-V2-Flash-0204
阿里AIDC-AI开源多模态大模型Ovis2.6-30B-A3B
小红书开源FireRed-Image-Edit模型
小红书开源语音识别FireRedASR2S系统
高德地图正式开源FantasyWorld世界模型
字节跳动发布豆包大模型2.0系列
京东开源JoyAI-LLM-Flash模型
阿里千问发布Qwen3.5-397B-A17B模型
蚂蚁百灵发布Ling-2.5-1T模型
蚂蚁集团开源Ming-omni-tts音频生成模型
Cohere Labs发布Tiny Aya多语言模型
字节跳动研究团队开源BitDance多模态模型
Google DeepMind发布Lyria 3音乐生成模型
Prime Intellect开源106B参数MoE模型
阿里千问发布Qwen3.5模型系列多个模型
Cursor推出新版Cloud Agents
Google发布Nano Banana 2图像生成模型

1. 阿里Qoder发布Qwen-Coder-Qoder

阿里AI编程工具Qoder正式发布专为自身平台打造的强化学习模型Qwen-Coder-Qoder。该模型基于Qwen-Coder基座，紧密结合其Agent框架与工具，通过自研的ROLL训练框架进行大规模强化学习，旨在提升端到端的编程体验。

在面向真实软件工程任务的Qoder Bench评测中，该模型的任务解决率已超越Cursor Composer-1，尤其在Windows系统下，其终端命令准确率领先幅度达到50%。在实际线上应用中，该模型已将代码留存率提升了3.85%，工具异常率降低了61.5%，Token消耗下降了14.5%。

Qwen-Coder-Qoder的设计遵循资深开发者思维模式，核心特性包括：严格遵守软件工程规范、具备项目全局感知能力、可高效并行处理无依赖任务，以及持续解决复杂问题的韧性。其研发基于“模型即Agent”的智能进化体系，技术实现依赖三大要素：在真实Agent沙盒环境中学习、引入软件工程最佳实践作为奖励信号并通过“Rewarder - Attacker”对抗机制防止模型作弊，以及利用ROLL框架实现数千卡集群上10倍以上的训练吞吐提升。

目前，Qwen-Coder-Qoder已在产品中正式上线。自发布之日起，Qoder开启为期十五天的限时免费体验活动，所有用户均可参与。由于资源限制，Free用户每日使用量设有上限，所有用户在高峰时段可能需要排队。

https://qoder.com/blog/qwen-coder-qoder

2. Kimi与南大发布SimpleSeg赋能模型像素感知

Kimi Team联合南京大学发布SimpleSeg，通过将图像分割任务重构为序列生成问题，赋予多模态大语言模型（MLLM）原生像素级感知能力。该方法使模型直接在语言空间内预测物体边界的坐标点序列，采用SFT监督微调与基于IoU奖励的强化学习两阶段训练提升轮廓精度。

官方表示，SimpleSeg在标准MLLM架构下无需任何专用模块，性能在多个分割基准测试中达到或超越复杂专用算法。其具备简单性、任务通用性及可解释输出三大核心优势，目前已基于Kimi-VL和Qwen2.5-VL实现模型应用。

https://simpleseg.github.io/

3. 字节研究团队发布ConceptMoE提升AI推理

ByteDance研究团队发布ConceptMoE架构，通过可学习的自适应块化技术，将大语言模型处理从Token级别提升至概念级别。该架构利用可学习的Chunk模块识别最优边界，动态合并语义相似的Token序列为统一概念表示，实现隐式计算分配，对可预测序列进行压缩，对复杂Token则保留精细化计算，从而在不改变模型参数与计算量的前提下显著提升性能。

https://github.com/ZihaoHuang-notabot/ConceptMoE

https://arxiv.org/abs/2601.21420

4. 阶跃星辰发布并开源模型Step 3.5 Flash

阶跃星辰发布新一代开源基座模型Step 3.5 Flash，专为Agent场景设计。该模型采用196B总参数（激活11B）的稀疏MoE架构，支持256K上下文，并利用MTP-3技术在单请求代码任务中实现最高350 TPS的推理速度。

在性能上，该模型在数学推理、代码和智能体任务上逼近顶级闭源模型。官方数据显示，开启Parallel Thinking后，其在AIME、IMOAnswerBench等数学竞赛和BrowseComp等智能体基准测试中表现领先，代码能力则逼近Gemini 3.0 Pro。

核心能力方面，模型具备“Think-and-Act”协同机制，支持大规模工具编排，能通过单Agent循环生成万字研究报告。它还支持端云协同模式，可作为“云端大脑”与本地Step-GUI协作，完成跨App价格对比、操作手机微信等复杂任务。

模型已完成对华为昇腾等六大国产AI芯片的适配，支持在Apple M4 Max等高端个人硬件上私有部署。其训练采用了可扩展的强化学习框架MIS-PO，用于解决长序列训练中的稳定性问题。官方指出模型在生成轨迹长度等方面仍存不足，并已启动下一代Step 4模型的训练。

https://static.stepfun.com/blog/step-3.5-flash/

https://mp.weixin.qq.com/s/XYH-5lZ3z3bw8VOEemyeSQ

https://github.com/stepfun-ai/Step-3.5-Flash

https://huggingface.co/stepfun-ai/Step-3.5-Flash

5. 智谱发布并开源OCR模型GLM-OCR

智谱正式发布轻量级专业OCR模型GLM-OCR，参数规模为0.9B。该模型基于GLM-V编码器-解码器架构构建，在OmniDocBench V1.5评测中以94.62分登顶，并在表格、公式识别及信息提取等主流基准中达到SOTA水平。

在架构上，GLM-OCR采用自研CogViT视觉编码器与GLM-0.5B语言解码器，引入Multi-Token Prediction损失函数和全任务强化学习以提升效率。关于其参数规模，官方文档明确标注为0.9B；据社区讨论认为，其视觉与语言部分总计约1.4B。性能方面，官方数据显示GLM-OCR处理PDF文档的吞吐量达1.86页/秒，其表现优于多款OCR专项模型，性能接近Gemini-3-Pro。

该模型针对复杂表格、代码文档、印章等真实场景优化，支持中、英、法等多种语言的通用文本识别。在输出上，可直接从合并单元格、多层表头等表格解析出HTML代码，或从卡证票据中提取关键字段并输出标准JSON格式，为RAG等应用提供支持。

GLM-OCR已在Hugging Face开源并提供API服务，模型本身遵循MIT License。API输入与输出同价，均为0.2元/百万Tokens。

https://docs.bigmodel.cn/cn/guide/models/vlm/glm-ocr

https://github.com/zai-org/GLM-OCR

https://huggingface.co/zai-org/GLM-OCR

6. xAI正式发布Grok Imagine 1.0视频模型

xAI正式发布Grok Imagine 1.0，实现从静态图像到动态高清视频生成的跨越。新版本支持生成最长10秒、720p分辨率的视频，音频质量与提示词理解能力显著提升。该版本已在Grok应用及API全面上线。

http://grok.com/imagine

7. 优必选开源具身智能大模型Thinker

优必选发布并开源具身智能大模型Thinker，定位“小参数、高性能、全开源”，为工业人形机器人提供精准空间感知与快速响应的“大脑”。截至2026年1月30日，Thinker在10B以下参数规模的9项具身智能基准评测中位列全球第一。

其全链路数据方案通过“精炼提纯-自动化标注-数据驱动训练”，将20B原始数据提纯至10M高质量数据（仅保留约1%），人工参与率降至1%以下，标注成本降低99%，并打通真实场景数据回流机制。基于此，Walker S2机器人在搬运分拣场景作业准确率达99.99%。目前，Thinker模型权重、训练工具链及优化指南已全量开放。

https://mp.weixin.qq.com/s/2pz0JEr5LGPbMKmHmmC8Zw

https://github.com/UBTECH-Robot/Thinker

https://huggingface.co/UBTECH-Robotics/Thinker-4B

8. 通义千问发布开源编程模型Qwen3-Coder-Next

Qwen团队发布开源权重语言模型Qwen3-Coder-Next，专为编程Agent与本地开发设计。该模型基于Qwen3-Next-80B-A3B-Base构建，采用混合注意力与稀疏MoE架构，总计800亿参数，但每个token仅激活30亿参数，旨在显著降低推理成本。

据官方介绍，该模型的核心突破在于“大规模智能体训练”，而非单纯依赖参数扩展。其训练包含持续预训练、监督微调、领域专精的专家训练及能力蒸馏等阶段，利用约80万个可验证任务与可执行环境，让模型从反馈中学习，重点强化了长程推理、工具使用与失败恢复能力。

在性能表现上，官方数据显示，该模型在使用SWE-Agent框架时，在SWE-Bench Verified基准上得分达70.6%，在更具挑战性的SWE-Bench-Pro上得分为44.3%。官方称这一表现可与激活参数量高10到20倍的模型相当，优于DeepSeek-V3.2（671B）和GLM-4.7（358B）等更大模型。

https://mp.weixin.qq.com/s/oBxJiwkqz18lQNNctP4Y1A

https://qwen.ai/blog?id=qwen3-coder-next

https://huggingface.co/collections/Qwen/qwen3-coder-next

https://www.modelscope.cn/collections/Qwen/Qwen3-Coder-Next

9. OpenAI宣布GPT-5.2系列模型提速40%

OpenAI宣布其GPT-5.2与GPT-5.2-Codex模型提速40%。此次更新通过优化推理堆栈实现，已面向所有API客户开放。在不改变模型与权重的前提下，该改进显著降低了请求延迟，提升了开发者体验。

https://x.com/OpenAIDevs/status/2018838297221726482

10. OpenBMB发布多模态模型MiniCPM-o 4.5

OpenBMB发布了9亿（9B）参数的多模态大语言模型MiniCPM-o 4.5。该模型支持全双工多模态实时交互，能够同步处理视觉、语音和文本输入并生成输出。官方数据显示，模型在OpenCompass基准测试中平均得分77.6，其视觉语言能力超越了GPT-4o和Gemini 2.0 Pro，接近Gemini 2.5 Flash水平。

MiniCPM-o 4.5引入全双工多模态直播能力，可端到端并行处理视频、音频输入流与文本、语音输出流，实现流畅的实时对话，并支持基于理解的主动交互。语音方面，它支持中英双语实时对话和语音克隆，官方数据显示其语音性能优于CosyVoice2等工具，中文测试CER为0.86%，英文WER为2.38%。

视觉理解方面，模型在MathVista和MMBench英文版测试中得分分别为80.1和87.6，能高效处理高达180万像素的图像与高帧率视频，并在OmniDocBench文档解析任务中取得最佳性能。文本能力上，模型在多项基准中平均得分82.1，数学解题（GSM8K）得分94.5。

该模型基于SigLip-2、Whisper-medium、Qwen3-8B等构建，采用Apache-2.0许可证开源。模型支持通过llama.cpp、Ollama等框架在本地设备部署。

https://github.com/OpenBMB/MiniCPM-o

https://huggingface.co/openbmb/MiniCPM-o-4_5

https://minicpm-omni.openbmb.cn/

11. ACE Studio与StepFun联合发布开源音乐模型ACE-Step 1.5

ACE Studio与StepFun联合团队发布了开源音乐生成基础模型ACE-Step 1.5。该模型采用MIT许可证，支持本地运行与商业用途。

官方数据显示，该模型在A100上生成一首完整歌曲快至2秒，在RTX 3090上快至10秒，运行VRAM少于4GB。其核心为一种新颖的混合架构，语言模型(LM)作为“全能规划器”，通过思维链(Chain-of-Thought)生成完整歌曲蓝图以指导Diffusion Transformer(DiT)进行音乐创作。据官方博客，其生成质量超越多数商业模型，介于Suno v4.5与v5之间。

ACE-Step 1.5功能全面，支持10秒至10分钟的灵活时长生成、参考音频引导、翻唱、音频编辑、音轨分离及多轨生成，并兼容50多种语言歌词与千余种乐器风格。用户可利用内置的LoRA技术，仅需几首歌曲即可训练个人风格。模型能根据GPU VRAM容量自动选择最优LM模型。

https://github.com/ace-step/ACE-Step-1.5

12. Ai2发布轻量级开源编码模型SERA-14B

艾伦人工智能研究院(Ai2)发布140亿参数开源编码模型SERA-14B，在SWE-bench Verified基准测试中获41.7%得分(±0.5%)。模型基于Qwen 3-14B，采用GLM-4.6为教师模型，通过Soft Verified Generation方法在32K上下文、25000条合成轨迹上训练，数据源自121个Python代码库。训练数据集已更新为通用格式并新增验证阈值和元数据。模型采用Apache 2.0许可证在Hugging Face开源。

https://huggingface.co/allenai/SERA-14B

13. 上海AI实验室推出万亿参数多模态科学推理模型Intern-S1-Pro

上海AI实验室发布Intern-S1-Pro，一个1万亿参数MoE多模态科学推理模型（512专家，激活22B），专注AI4Science领域。模型在化学、材料、生命科学等基准测试中达到领先水平，可媲美国际闭源模型。

技术架构采用STE路由、分组路由机制及Fourier Position Encoding，支持10^0至106点的长异构时间序列。模型兼容OpenAI API，具备Tool Calling能力，thinking模式可动态配置。支持LMDeploy、vLLM、SGLang框架部署。权重已上传Hugging Face，代码和技术报告（arXiv:2508.15763）同步发布。

https://huggingface.co/internlm/Intern-S1-Pro

https://chat.intern-ai.org.cn/

14. Mistral AI开源40亿参数实时语音模型Voxtral Mini 4B Realtime 2602

Mistral AI发布了名为Voxtral Mini 4B Realtime 2602的多语言实时语音转录模型，该模型以低于500毫秒的延迟实现了接近离线系统的转录准确率，并采用Apache 2.0许可证开源。这个拥有40亿参数的模型采用原生流式架构，针对语音助手、实时字幕等场景及设备端部署进行了优化。

此外，Mistral AI还介绍了用于批量转录的Voxtral Transcribe 2模型系列。据官方说明，该模型在FLEURS数据集上实现了4%的WER，定价为每分钟0.003美元，并具备说话人日志、上下文偏置等功能。

https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602

https://mistral.ai/news/voxtral-transcribe-2

15. 快手可灵发布可灵3.0

快手可灵正式发布3.0版本产品套件，包含视频3.0、图片3.0及其对应的Omni增强版。核心升级包括视频生成时长延长至15秒、强化主体一致性、支持原生2K/4K图像输出，旨在覆盖从生成到编辑的全链路创作流程。目前该版本为黑金会员提供网页端抢先体验，后续将全量开放。

视频3.0系列支持3至15秒的灵活时长。其智能分镜功能可深度理解剧本，自动调度景别与机位以生成电影感叙事。在图生视频基础上新增的主体参考能力，允许用户添加图片或视频，二次锚定主角、道具与场景。全能音画功能支持中、英、日、韩、西等多语种及地道方言，实现多语混合对话时的口型与神态匹配。增强版视频3.0 Omni的全能主体3.0分为两部分：一是支持上传3至8秒角色视频创建主体，二是支持“多图+音频”为角色绑定专属声线。分镜叙事3.0则新增了原生自定义分镜能力与像素级画面修改。

图片3.0 Omni版聚焦专业级视觉输出。深度叙事功能可解构提示词中的视听元素，生成包含特定光影、色调的影视级画面。组图创作支持批量生成系列组图，并可统一优化风格或根据单张图片预测剧情生成分镜。原生超清功能允许直接输出2K或4K图像。标准版图片3.0的强化主要围绕一致性与编辑灵活性，支持用户使用最多10张参考图锁定核心元素与色调，并整合多来源参考能力于同一界面，提升了人像真实感和电影级色调。

https://mp.weixin.qq.com/s/eX_H8JICU8RyjpFtLc4lVQ

16. Meta AI发布EB-JEPA开源库

Meta AI Research发布EB-JEPA开源库，为社区提供Joint Embedding Predictive Architectures示例。库包含三个核心模块：Image JEPA用于CIFAR-10图像自监督学习，Video JEPA预测视频序列下一帧表示，Action-Conditioned Video JEPA支持动作条件世界建模与规划。

配套论文显示，CIFAR-10探测准确率达91%，Two Rooms导航任务规划成功率97%。库支持单GPU训练，集成Weights & Biases跟踪实验，使用uv包管理，需用autoflake、isort和black格式化代码。项目采用Apache-2.0许可证，论文作者包括Yann LeCun等。

https://github.com/facebookresearch/eb_jepa

17. 阿里Qwen构建SWE-Universe训练框架

阿里巴巴Qwen团队与浙江大学合作提出SWE-Universe框架，旨在从GitHub Pull Requests (PRs)中自动构建百万级可执行的软件工程训练环境，以解决AI编程助手训练数据缺乏真实可验证场景的问题。

该框架通过构建智能体实现自动化，已成功构建807,693个环境，并助力Qwen3-Max-Thinking模型在SWE-Bench Verified测试集上达到75.3%的准确率。

18. 腾讯混元推出HPC-Ops推理算子库

腾讯混元AI Infra团队推出开源生产级高性能LLM推理核心算子库HPC-Ops。该算子库基于CUDA和CuTe从零构建，通过微架构深度适配与指令级优化，旨在降低开发门槛并逼近硬件性能峰值。

HPC-Ops包含FusedMoE、Attention等核心融合算子，已在腾讯大规模生产环境验证，提供API以无缝对接vLLM、SGLang等主流框架，并原生支持BF16、FP8等多精度方案。项目已在GitHub开源。

https://github.com/Tencent/hpc-ops

https://mp.weixin.qq.com/s/zyDXLiRJWhol-Uvq72efOQ

19. 字节跳动开源AI Agent上下文数据库

字节跳动火山引擎Viking团队开源OpenViking，一个专为AI Agent设计的上下文数据库。该项目摒弃传统RAG平铺式向量存储，创新采用“文件系统范式”，将Agent的记忆、资源与技能统一组织在viking://虚拟文件系统中，通过ls、find等指令管理。

核心特性包括：L0摘要/L1概述/L2详情三层结构实现按需加载，降低Token成本；目录递归检索融合意图分析与递归下探，提升检索全局性与准确性；提供可视化轨迹与自动会话管理实现上下文自迭代。项目采用Apache License 2.0协议。

20. 美团推出LongCat-Flash-Lite模型

美团龙猫团队推出LongCat-Flash-Lite大模型，这是一款采用全新嵌入扩展范式的轻量化MoE模型。该模型总参数量为685亿，通过动态激活机制，每次推理仅需激活29亿至45亿参数。LongCat-Flash-Lite聚焦于Agent与代码领域，支持基于YARN技术的256K超长上下文处理，目前已开放模型权重、推理引擎部分源代码及API接入服务。

在架构设计上，该模型创新性地引入了N-gram嵌入层，将31.4亿参数（约占46%）投入到嵌入扩展中。该设计通过哈希函数将token序列映射为整体嵌入向量，并采用子表分解等技术降低哈希冲突。同时，模型引入嵌入放大技术，确保信号在深层网络中有效传递。

系统级优化方面，团队实现了从模型结构到运行时的垂直加速。针对N-gram嵌入层特性，设计了专用的GPU缓存机制以降低延迟。在算子层面，开发了定制CUDA内核并进行内核融合，同时支持3步投机推理。在输入4K、输出1K的典型负载下，其API生成速度可达500-700 token/s。

性能评估显示，LongCat-Flash-Lite在多项基准测试中表现优异。在智能体任务τ²-Bench中取得高分，代码任务SWE-Bench准确率为54.4%。通用能力方面，MMLU得分85.52，中文理解C-Eval为86.55分，数学能力MATH500准确率达96.80%。

目前，LongCat-Flash-Lite模型权重已在Hugging Face与Modelscope开放下载，推理引擎部分功能与算子在GitHub开源。开发者可通过API平台申请接入，现阶段提供不限额试用，后续将维持每日5000万tokens的免费额度。

https://mp.weixin.qq.com/s/-MCo9-FV7afO3ydqmAHY9Q

https://huggingface.co/meituan-longcat/LongCat-Flash-Lite

https://github.com/meituan-longcat/SGLang-FluentLLM

21. 字节跳动发布视频生成模型Seedance 2.0

Seedance 2.0正式上线，推出支持图像、视频、音频、文本四种模态输入的视频生成功能。其核心特性「参考能力」允许用户上传参考图像以还原画面构图与角色细节，或通过参考视频复刻镜头语言、动作节奏与创意特效。系统支持对生成视频进行平滑延长、衔接以及角色更替、内容增删等编辑操作，生成长度可在4至15秒间自由配置。

在输入限制方面，系统规定混合输入总上限为12个文件，包括不超过9张图像、总时长不超过15秒的3个视频，以及总时长不超过15秒的3个MP3格式音频文件。文本输入则采用自然语言描述，输出视频默认自带音效与配乐。

系统提供「首尾帧」与「全能参考」两种交互入口。「首尾帧」适用于仅需上传首帧图结合提示词的简单场景；「全能参考」则支持四类素材的任意组合输入。在「全能参考」模式下，用户可通过@素材名语法指定素材用途，或通过参数工具栏的@图标唤起选单。需要注意的是，智能多帧与主体参考功能在当前版本不可用。

在能力提升方面，Seedance 2.0攻克了物理规律合理性、动作自然流畅性、指令理解精准度及风格稳定性等难题，能稳定完成复杂动作与连续运动生成任务，并在人脸、服装、字体及场景细节一致性上实现了显著提升。

https://bytedance.larkoffice.com/wiki/A5RHwWhoBiOnjukIIw6cu5ybnXQ

22. OpenRouter与Kilo Code上线Pony Alpha模型

OpenRouter与Kilo Code同步上线了stealth模型Pony Alpha，定位为支持coding、agentic workflows与reasoning的下一代基础模型。该模型提供200K tokens上下文窗口与131K tokens最大输出，通过两家平台以零费率提供。

模型来源暂未正式披露，Kilo Code将其描述为来自“global lab”的“beloved open-source models”的specialized evolution。对此，部分讨论认为该模型或为智谱（zAI）即将发布的GLM-5，但此说法未经官方证实。

https://openrouter.ai/openrouter/pony-alpha

https://blog.kilo.ai/p/announcing-a-deep-thinking-new-stealth

23. Waymo推出Waymo World Model

Waymo推出Waymo World Model，基于Google DeepMind的Genie 3构建，用于大规模超真实自动驾驶仿真。该系统生成高保真、多传感器输出，同步包含camera图像与lidar点云，支持通过自然语言、驾驶输入及场景布局调整进行精细控制。

Waymo Driver已积累近2亿英里全自动驾驶里程，并在此模型驱动的虚拟世界中完成数十亿英里训练，以在实际道路遭遇前掌握复杂罕见场景。

https://waymo.com/blog/2026/02/the-waymo-world-model-a-new-frontier-for-autonomous-driving-simulation

24. 千问推出Qwen-Image-2.0统一图像模型

千问大模型团队推出新一代图像生成基础模型Qwen-Image-2.0。该模型统一了图像生成与编辑能力，支持2K分辨率输出与1k token超长指令输入。目前已在阿里云百炼平台开放API，并可通过Qwen Chat免费体验。

Qwen-Image-2.0的核心能力集中在专业文字渲染、真实质感表现与语义遵循。文字渲染方面，可精准处理中英双语信息图，并支持1k token复杂指令。模型原生支持2048×2048分辨率，可刻画超23种绿色植被的材质与光影，并在多介质上维持文字真实感。同时，模型可生成多子图漫画，保持角色一致性。

作为统一的Omni模型，其编辑功能支持在图片上添加书法题词、生成九宫格多姿势组图与双人自然合成，还可在保持真实照片主体的前提下添加卡通形象，并支持指定等效镜头与光圈等参数。

技术架构上，Qwen-Image-2.0由8B Qwen3-VL编码器与7B扩散解码器组成，体积较前代20B模型显著减小，推理更快。团队通过提升VAE重构能力与增强密集小字建模，解决了文字渲染崩坏问题，而生图与编辑的训练也相互促进。

据AI Arena盲测基准，Qwen-Image-2.0文生图得分1029排名第三，图片编辑得分1034排名第二。对比测试显示，其在长指令遵循与文字渲染上优于部分竞品，但在超现实场景的真实感上略逊一筹。

模型当前仅通过API提供，权重未开源，有传言称或于春节后开源。

https://qwen.ai/blog?id=qwen-image-2.0

https://chat.qwen.ai

https://mp.weixin.qq.com/s/D8nwRYxQp7wv9yzfk8FL9A

25. MOSI.AI与OpenMOSS发布MOSS-TTS家族

MOSI.AI与OpenMOSS团队将于2026年2月10日发布开源语音与声音生成模型家族MOSS-TTS，采用Apache-2.0许可证。该家族设计面向高保真、高表现力及复杂真实世界场景，包含五个可独立或组合使用的生产级模型。

该家族由五大核心模型构成：旗舰MOSS-TTS提供MossTTSDelay（8B参数，侧重长上下文稳定与速度）和MossTTSLocal（1.7B参数，侧重轻量化）两种架构，支持高保真零样本克隆与长文本生成；MOSS-TTSD v1.0专用于生成高表现力的多说话人超长连续对话；MOSS-VoiceGenerator可直接从文本指令生成多样化音色；MOSS-TTS-Realtime是为实时语音智能体设计的多轮上下文感知模型；MOSS-SoundEffect则专用于内容创作的可控音效生成。

整个家族的性能基于统一的1.6B参数MOSS-Audio-Tokenizer。该组件基于Cat架构，在300万小时音频数据上训练，能将24kHz音频高效压缩至12.5Hz，其重建质量在可比较比特率范围内据评测领先于其他开源方案。

性能方面，在开源基准Seed-TTS-eval上，MossTTSLocal的英文词错误率（WER）与中文相似度（SIM）分别为1.85%和78.82%。MOSS-TTSD v1.0的中文说话人相似度（SIM）达0.7949，切换准确率（ACC）为0.9587，主观评测中其综合表现优于Doubao及Gemini 2.5-pro等部分闭源模型。

https://github.com/OpenMOSS/MOSS-TTS

https://huggingface.co/collections/OpenMOSS-Team/moss-tts

https://mosi.cn/models/moss-tts

26. 蚂蚁集团发布LLaDA2.1扩散大语言模型

蚂蚁集团推出名为LLaDA2.1的扩散大语言模型，提供16B参数的Mini和100B参数的Flash两个版本。该模型核心是集成Error-Correcting Editable (ECE)引擎的Token-to-Token编辑机制，区别于传统自回归方式。该机制允许模型在生成中实时修正token。

LLaDA2.1-Flash为100B参数的语言扩散MoE模型，根据官方信息，这是首个应用于100B参数量级扩散模型的大规模强化学习(RL)框架。性能方面，在复杂编码任务中，LLaDA2.1-Flash推理速度可达892 tokens/sec。

目前，LLaDA2.1的模型权重、技术报告与源代码已发布在HuggingFace和GitHub上。

https://github.com/inclusionAI/LLaDA2.X

https://huggingface.co/collections/inclusionAI/llada21

27. 腾讯混元发布HY-1.8B-2Bit端侧量化模型

腾讯混元推出面向消费级硬件的HY-1.8B-2Bit模型，该方案基于产业级2Bit端侧量化技术。模型通过对Hunyuan-1.8B-Instruct进行量化感知训练（QAT）产出，等效参数量为0.3B，内存占用600MB，文件大小仅300MB。在真实端侧设备上，其生成速度相较原始精度模型提升2至3倍，并完整保留了其全思维链推理能力及Dual-CoT策略。该模型目前已开源，适配支持Arm SME2技术的计算平台。

技术上，为避免传统后量化（PTQ）在低比特量化下的严重精度损失，混元团队采用了量化感知训练（QAT），并结合数据优化、弹性拉伸量化及训练策略创新提升模型能力。基准测试显示，与全精度1.8B教师模型相比，HY-1.8B-2Bit在八个主流数据集上的平均性能下降3.97%；与INT4量化版本相比，准确率差距仅0.13%。在与空间相当的0.5B模型对比中，该模型在GSM8K和LiveCodeBench数据集上分别高出22.29%和20.62%。

在真实设备测试中，HY-1.8B-2Bit在MacBook M4上，对比fp16及Q4格式，首字时延实现3至8倍加速，生成速度稳定提升超2倍。在天玑9500芯片上，对比Q4格式，首字时延与生成速度均实现约1.5倍的加速。

该模型当前部署存在明确限制，仅支持配备Arm SME2技术的设备，如Apple M4、vivo x300等，其依赖于llama.cpp的特定分支运行。模型能力亦受限于其监督微调（SFT）的训练流程与基础模型自身性能。项目代码及权重已开源，采用License for AngelSlim。未来团队将重点发展强化学习与模型蒸馏，以缩小低比特模型与全精度模型的能力差距。

https://huggingface.co/AngelSlim/HY-1.8B-2Bit

https://mp.weixin.qq.com/s/m3Sr4fRLAvc7C6MV1RR-ew

28. 智谱AI发布并开源GLM-5模型

智谱上线并开源GLM-5，定位为面向复杂系统工程和长程Agentic任务的基座模型，在Coding与Agent能力上取得开源SOTA表现，依据在Artificial Analysis的榜单，GLM-5位居全球第四、开源第一。

GLM-5的基座模型扩展了参数规模，从GLM-4.5的355B（激活32B）提升至744B（激活40B），预训练数据从23T增加到28.5T tokens。模型集成了DeepSeek Sparse Attention（DSA），以在维持长文本能力的同时降低部署成本。上下文长度为200K，最大输出为128K。GLM-5开发了名为slime的异步强化学习框架，通过异步智能体强化学习算法使模型能从长程交互中学习，提升强化学习后训练流程效率。

在编程能力方面，GLM-5在SWE-bench-Verified中获得77.8分，在Terminal Bench 2.0中获得56.2分，均为开源模型SOTA。在内部Claude Code评估集合中，GLM-5在前端、后端、长程任务等编程开发任务上超越GLM-4.7平均超过20%。

Agent能力上，GLM-5在BrowseComp（联网检索与信息理解）、MCP-Atlas（工具调用和多步骤任务执行）和τ²-Bench（复杂多工具场景下的规划和执行）均取得开源模型最佳表现。

GLM-5支持华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配，通过底层算子优化与硬件加速实现高吞吐、低延迟的稳定运行。GLM-5在本地部署支持vLLM、SGLang和xLLM推理框架。模型提供BF16和FP8两个精度版本。

GLM-5权重在Hugging Face与ModelScope平台同步开源，遵循MIT License。模型在智谱Max用户套餐中已可用，Pro用户套餐计划在5天内支持，后续也会为Lite用户提供支持。

GLM Coding Plan同步升级提供GLM-5相关功能：官方适配OpenClaw，可快速配置Agent工作流；Pro和Max用户限量赠送AutoGLM-OpenClaw，支持将云端个人AI助手接入飞书；新增GLM in Excel权益，提供原生适配Excel环境的AI插件，Beta期仅Max用户可享套餐抵扣。

https://mp.weixin.qq.com/s/ICm2VgHSWEpraXH-K0o2sQ

https://z.ai/blog/glm-5

https://github.com/zai-org/GLM-5

https://huggingface.co/zai-org/GLM-5

29. DeepSeek上线1M上下文窗口新模型

DeepSeek在其最新App与网页端上线了一款新模型。该模型核心升级包括：上下文窗口上限提升至1M token，长上下文场景下的表现突出；整体响应速度有明显提升；知识库截止日期显示为2025年5月。新模型仍为纯文本模型，不支持多模态输入。目前官方尚未对该模型发布正式公告。

根据社交媒体上流传的非官方消息，该模型是一个总参数约200B的模型，或将命名为V4 Lite，使用了Muon优化器和mHC，但没有使用Engram，相关消息还指出，DeepSeek还有一个总参数超过1T的模型在训练中，但可能不会在2月发布。

https://mp.weixin.qq.com/s/CBUOufrgiQ8LAM6fS_8ivA

https://x.com/yifan_zhang_/status/2021574517089321284

30. MiniMax上线MiniMax M2.5

MiniMax上线了其最新旗舰模型MiniMax M2.5，现已开放访问。用户可通过Web端和桌面端的MiniMax Agent调用该模型。据官方相关人员Skyler Miao说明，M2.5在研发过程中加大了训练计算量的投入，其模型性能随算力规模的增加而持续提升，将在后续正式发布。

https://agent.minimax.io/

31. OpenAI更新GPT-5.2 Instant模型

OpenAI已更新GPT-5.2 Instant模型，调整ChatGPT与API端的响应风格与质量。OpenAI CEO称此次更新非重大版本迭代。

https://x.com/sama/status/2021452911511998557

32. 蚂蚁集团发布全模态大模型Ming-flash-omni 2.0

蚂蚁集团发布全模态大模型Ming-flash-omni 2.0，基于Ling-2.0架构（100B-A6B MoE），聚焦专家级多模态认知、统一声学合成与高动态图像处理。模型已在Hugging Face、ModelScope、GitHub开源，可通过Ling Studio体验。

该模型可精准识别动植物、地标与文物；音频生成首创统一语音/音效/音乐，支持自然语言控制百余种音色；图像处理集成生成、编辑、分割及氛围重构。

技术上采用亿级数据+知识图谱、自研12.5Hz音频Tokenizer、原生单流视觉架构。基准测试在HallusionBench、MMvet、ChartQA等多指标超越Gemini 2.5 Pro，STEM表现优于Qwen3-Omini，语音识别生成准确率领先。

当前局限包括知识准确性、IP内容识别与英文音色克隆，未来将优化视频理解、图像编辑与长音频实时性。

https://huggingface.co/inclusionAI/Ming-flash-omni-2.0

https://github.com/inclusionAI/Ming

https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-2.0

33. 科大讯飞推出讯飞星火X2大模型

科大讯飞推出基于全国产算力训练的讯飞星火X2大模型，采用293B MoE稀疏架构。据官方表述，其整体能力对标国际顶尖模型，多语言能力提升。讯飞星火X2的API已在讯飞开放平台上线，新注册开发者可获百万Tokens免费额度。

面向用户的星火APP更新至5.2.0版本，新增科研与求职助手，后者支持虚拟人1:1还原面试场景。讯飞星火X2现已在网页版和APP提供体验。

https://mp.weixin.qq.com/s/C8pezir4IRX46OSy29p_Sg?scene=1&click_id=38

34. OpenBMB发布MiniCPM-SALA百万上下文模型

OpenBMB发布MiniCPM-SALA模型，首款大规模混合稀疏与线性注意力架构，在消费级GPU（A6000D/RTX 5090）上支持1M令牌上下文推理。该9B参数模型采用SALA机制（25%层用InfLLM-V2，75%用Lightning Attention），结合HyPE位置编码与HALO优化技术，在256K序列下推理速度达Qwen3-8B的3.5倍。

通过Transformer-to-Hybrid继续训练，训练成本降低约75%，同时保持通用能力相当并在长文本基准测试中表现更优。模型已在Hugging Face开源，兼容SGLang框架部署。

https://huggingface.co/openbmb/MiniCPM-SALA

35. BOSS直聘推出Nanbeige4.1-3B模型

BOSS直聘Nanbeige LLM Lab发布开源模型Nanbeige4.1-3B，探索单一小型通用模型能否同时具备强大推理能力、稳健偏好对齐与原生Agent行为。该3B参数模型在LiveCodeBench-Pro、IMO-Answer-Bench、AIME 2026 I等推理基准测试中表现显著；偏好对齐测试Arena-Hard-v2与Multi-Challenge分别获得73.2和52.21分；在xBench-DeepSearch及GAIA任务中展现深度搜索Agent能力。

支持最长256k tokens上下文，使其能在深度搜索场景中处理数百次工具调用，并对复杂问题执行单次超10万tokens的持续连贯推理。模型权重已在Hugging Face平台提供下载，详细技术报告即将发布。

https://huggingface.co/Nanbeige/Nanbeige4.1-3B

36. Soul推出SoulX-Singer歌声合成模型

Soul旗下的Soul-AILab推出SoulX-Singer，这是一款面向工业级部署的高质量开源歌声合成（Singing Voice Synthesis, SVS）系统。该系统旨在解决开源SVS在稳健性与零样本（Zero-Shot）泛化能力方面的瓶颈，支持在未见过的歌手音色上生成高保真的逼真歌声。

SoulX-Singer引入了基于MIDI或旋律表示的可控生成机制，目前已在GitHub开源其代码，并在Hugging Face提供模型权重。

https://arxiv.org/abs/2602.07803

https://github.com/Soul-AILab/SoulX-Singer.git

https://huggingface.co/Soul-AILab/SoulX-Singer

37. 智谱正式发布AI编程工具Z Code

智谱正式发布AI编程工具Z Code，整合Claude Code、Gemini CLI与Codex等工具，支持多Agent无缝切换。

Z Code同时发布更新。新增内置浏览器支持网页访问、HTML预览，并可将页面元素发送给Agent。手机端远程控制功能允许用户通过二维码连接设备，实现跨设备协作。Multi-Agent Framework支持用户在项目内于Claude、Gemini和Codex等不同Agent间无缝切换。此外，产品还支持OpenAI、Anthropic、Google、DeepSeek、Bigmodel等多个提供商。

https://zcode-ai.com/

38. MiniMax正式开源MiniMax-M2.5

MiniMax正式开源其最新基础模型MiniMax-M2.5，模型权重现已上线Hugging Face和ModelScope平台。该模型总参数规模达230B，激活参数为10B，许可协议采用Modified-MIT。用户可利用SGLang、vLLM等多种主流框架实现模型的本地部署。

https://huggingface.co/MiniMaxAI/MiniMax-M2.5

https://github.com/MiniMax-AI/MiniMax-M2.5

https://modelscope.cn/models/MiniMax/MiniMax-M2.5

39. OpenAI发布GPT-5.3-Codex-Spark

OpenAI与Cerebras合作推出首个成果——实时编码模型GPT-5.3-Codex-Spark，以研究预览形式向ChatGPT Pro用户开放。该模型运行于Cerebras超低延迟硬件，旨在提供超千token/秒（>1000 tokens/s）的生成速度，支持用户进行实时协作编码。其设计为交互式工作，支持用户中断与重定向，并以近瞬时响应实现快速迭代。工作风格默认为轻量级、有针对性的编辑，与擅长长时自主运行的GPT-5.3-Codex形成互补，专注于处理日常编码任务。

在性能基准测试中：GPT-5.3-Codex-Spark在SWE-Bench Pro上达到51%准确率需时2.3分钟；GPT-5.3-Codex达到同水平需时3分钟，达到57%则需时16分钟。在Terminal-Bench 2.0中：GPT-5.3-Codex-Spark得分58.4%；GPT-5.3-Codex得分77.3%；其上代小模型得分为46.1%。

目前，GPT-5.3-Codex-Spark作为研究预览在Codex应用、CLI及VS Code扩展内面向ChatGPT Pro用户开放。该模型仅支持文本输入，拥有128k上下文窗口，在独立速率限制下运行。

官方规划显示，此模型是迈向融合长时深度推理与实时迭代双模式Codex的第一步。未来计划引入更大模型、更长上下文及多模态输入。

https://openai.com/index/introducing-gpt-5-3-codex-spark/

40. 蚂蚁集团开源Ring-2.5-1T

蚂蚁集团百灵团队发布了开源的万亿参数推理模型Ring-2.5-1T，该模型基于混合线性注意力架构，旨在提升长上下文推理效率。通过架构升级，其在超过32K token的序列推理中实现了超10倍的内存访问开销降低和超3倍的生成吞吐量提升。此次调整后，模型的激活参数增至63B，上下文长度通过YaRN技术从128K扩展到256K。

在多个基准测试中，该模型表现突出。据团队自测结果，它在国际数学奥林匹克竞赛（IMO 2025）中获得35⁄42的得分，在中国数学奥林匹克竞赛（CMO 2025）中获得105⁄126的得分，均达金牌水平。此外，在LiveCodeBench和SWE-Bench Verified等代码与Agent任务上，该模型取得了开源领先成绩，并支持扩展思考过程的“重度思考模式”。

为增强长周期任务执行能力，Ring-2.5-1T通过大规模全异步Agent强化学习（ASystem引擎）进行训练。目前模型在token效率和指令遵循等方面仍有不足，训练仍在进行中。该模型采用MIT许可证开源，计划后续提供API服务与聊天体验页面。

https://huggingface.co/inclusionAI/Ring-2.5-1T

https://modelscope.cn/models/inclusionAI/Ring-2.5-1T

https://x.com/AntLingAGI/status/2021974501660274924

41. 字节跳动正式发布视频创作模型Seedance 2.0

字节跳动Seed团队发布视频创作模型Seedance 2.0，采用多模态音视频联合架构，支持文字、图片、音频、视频四种输入，可混合输入9张图片、3段视频、3段音频及指令。模型具备视频编辑与延长功能，支持15秒高质量多镜头音视频输出及双声道立体声音频。在即梦AI、豆包、火山方舟等平台已上线。

技术上，模型基于海量世界知识、稀疏架构及多模态联合训练。评测显示其在运动稳定性、指令遵循、画面美感及多模态参考理解方面表现突出，音频层次丰富，视听协同性增强。

当前局限包括：视频细节稳定性、拟真度待提升；音频多人口型匹配偶现失真；多主体一致性、复杂编辑效果需优化。使用真人形象需本人验证或授权。豆包平台暂不支持上传真人图片作为主体参考，生成时长为5秒或10秒。

https://seed.bytedance.com/zh/blog/seedance-2-0-%E6%AD%A3%E5%BC%8F%E5%8F%91%E5%B8%83

https://mp.weixin.qq.com/s/vFV_RdnjvmuT5jhNgUTgQw

42. 小米MiMo发布MiMo-V2-Flash-0204

Xiaomi MiMo更新了MiMo-V2-Flash模型至0204版本，核心围绕Thinking模式进行性能和效率升级。在代码能力上，模型于SWE-Bench Verified基准的评分提升至78.6。工具调用准确率从64%大幅跃升至97.0%，解决了稳定性问题。指令遵循与抗幻觉能力也得到加强，AA-Omniscience基准下的非幻觉率提升至52%，而Arena-Hard (Hard Prompt)评分提升至60.6。

此次更新通过优化思维链策略降低了Token消耗。在AIME25、HMMT等基准测试中，平均生成长度缩减了13%至30%，旨在保持模型效果的同时控制使用成本。

https://platform.xiaomimimo.com/#/docs/news/news20260212

43. 阿里AIDC-AI开源多模态大模型Ovis2.6-30B-A3B

阿里国际AI团队（AIDC-AI）发布并开源多模态大模型Ovis2.6-30B-A3B，总参数30B，推理仅激活3B，支持64K上下文窗口与2880×2880图像分辨率。新功能“Think with Image”使模型能在推理中主动调用视觉工具进行多轮自我反思式分析，重点强化OCR与文档理解能力。权重托管于Hugging Face，采用Apache 2.0许可证。

https://huggingface.co/AIDC-AI/Ovis2.6-30B-A3B

44. 小红书开源FireRed-Image-Edit模型

小红书开源通用图像编辑模型FireRed-Image-Edit-1.0，模型包含四大核心能力：指令遵循（采用随机指令对齐机制，显著提升语义理解能力）；文字编辑（基于Layout-Aware OCR-based Reward的强化学习机制，有效惩罚错别字与版面布局异常）；创意生成（支持多参考图输入、风格迁移与融合创作）；画质修复（集成超分、去模糊、去噪等多项图像增强功能）。

项目同步推出REDEdit-Bench评测基准，含15个子任务、1673个中英编辑对，全面评估编辑模型性能。项目采用Apache-2.0许可证，后续将开源蒸馏版本与完整评测基准。

https://github.com/FireRedTeam/FireRed-Image-Edit

https://mp.weixin.qq.com/s/u3I8F_f0dVwSrCjF3G7PJw

45. 小红书开源语音识别FireRedASR2S系统

小红书FireRedTeam于2026年2月12日发布工业级一体化ASR系统FireRedASR2S，集成ASR、VAD、LID、标点预测四模块，支持普通话、20+方言、英文、语码转换和歌词识别，性能达SOTA。

ASR模块FireRedASR2提供LLM版（CER 2.89%）和AED版（CER 3.05%），在普通话与方言测试中均优于Doubao-ASR、Qwen3-ASR等竞品。VAD模块F1达97.57%，支持102种语言；LID多语言识别准确率97.18%；标点预测F1为78.90%。

模型权重与推理代码已发布至Hugging Face和Modelscope，技术报告与微调代码将发布。VAD和LID后续将独立开源。

https://github.com/FireRedTeam/FireRedASR2S

https://huggingface.co/FireRedTeam/FireRedASR2-AED

46. 高德地图正式开源FantasyWorld世界模型

高德地图团队正式开源几何一致世界模型FantasyWorld，单次前向传播即可从单张图片和相机轨迹同时生成视频与3D场景信息（深度图、点云、相机参数），无需逐场景优化。据官方称，该论文已被ICLR 2026收录，在WorldScore排行榜中位列第一。

开源包含基于Wan2.1的论文复现版和基于Wan2.2的高性能版，已上线GitHub和ModelScope。技术核心为预调节模块、非对称双分支结构（想象先验分支+几何一致性分支）及两阶段训练策略，通过在视频生成模型内注入3D几何推理能力，解决传统模型空间不一致问题。产出可直接用于具身智能导航、自动驾驶仿真等任务。

https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.1-I2V-14B-480P

https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera

https://mp.weixin.qq.com/s/p4YFmpHoJYyVbzhxQecMWg

47. 字节跳动发布豆包大模型2.0系列

火山引擎推出豆包大模型2.0系列，包含Pro、Lite、Mini三款通用模型及一款Code模型。该系列旨在通过多模态理解与高效推理能力，处理深度推理与长链路任务。

据官方介绍，Pro定位旗舰全能模型，用于Agent时代复杂推理；Lite为均衡型模型，其综合能力据称超越豆包1.8；Mini面向低时延与高并发场景，效果与豆包1.6相当；Code模型专为编程场景优化。目前全系列模型API已在火山引擎上线，Pro版已接入为豆包App的“专家”选项，Code版已接入TRAE中国版并上线方舟Coding Plan。

豆包大模型2.0 Pro强调多模态理解、长上下文推理与工具增强执行，其视觉感知、长视频连贯理解及高精度推理能力增强，适合复杂Agent任务。豆包大模型2.0 Lite适用于内容创作、数据分析等生产型工作，支持长上下文与多步指令。Mini版支持256k上下文，在非思考模式下tokens消耗量可降至思考模式的1⁄10，其在图像审核等任务上的识别能力显著提升。Code模型则增强了代码与企业多语言编码能力。

该系列引入可配置参数，reasoning_effort支持思考程度调节，Pro模型在数学、视觉、视频理解、Agent及多项权威基准评测中达到业界顶尖水平，部分评测据称超越GPT5.2。

https://seed.bytedance.com/zh/seed2

48. 京东开源JoyAI-LLM-Flash模型

京东集团探索研究院推出并开源基于MoE架构的中型指令语言模型JoyAI-LLM-Flash，总参数量480亿，激活参数30亿，专为工具使用、推理和自主问题解决设计。该模型在20万亿token上完成预训练，融合三项关键技术：Fiber Bundle RL（引入FiberPO优化框架提升训练稳定性）、Training-Inference Collaboration（通过带dense MTP的Muon优化器实现1.3至1.7倍吞吐量提升）、Agentic Intelligence（强化推理与工具调用核心能力）。

性能方面，模型在19个权威基准测试中综合表现领先，数学能力MATH 500得分97.10，编程能力HumanEval得分96.34，Agentic能力SWE-bench Verified得分60.60，长上下文处理RULER基准得分95.60；仅在Tau2-Telecom基准中以79.83分略低于GLM-4.7-Flash的88.60分。

模型采用Modified MIT License开源，权重与代码已发布于Hugging Face，同步提供官方API及与OpenAI、Anthropic兼容的API接口，方便用户部署与集成。

https://huggingface.co/jdopensource/JoyAI-LLM-Flash

49. 阿里千问发布Qwen3.5-397B-A17B模型

阿里千问发布并开源Qwen3.5系列首款原生多模态模型Qwen3.5-397B-A17B，总参数3970亿，激活参数170亿，采用线性注意力与稀疏混合专家混合架构，平衡性能与效率，融合语言、视觉与编程能力，支持思考与快速两种模式。

模型语言与方言支持增至201种，在MMLU-Pro、BFCL-V4、MathVision等多项基准测试中展现出与GPT5.2等前沿模型媲美的实力，提升得益于大规模强化学习训练；基座模型表现媲美超1T参数的Qwen3-Max-Base，解码吞吐量最高提升19倍，原生支持超26万token上下文，其API版本Qwen3.5-Plus支持1M上下文。

用户可通过Qwen Chat、千问App、Qwen Code或阿里云百炼API体验，模型权重已开源，官方透露未来几天将发布更多对开发者友好的较小模型，下一阶段将重点从模型规模转向系统整合，构建具备持久记忆与自我改进能力的伙伴型智能体。

https://qwen.ai/blog?id=qwen3.5、https://github.com/QwenLM/Qwen3.5、https://huggingface.co/Qwen/Qwen3.5-397B-A17B、https://bailian.console.aliyun.com/

50. 蚂蚁百灵发布Ling-2.5-1T模型

蚂蚁集团开源旗舰级即时模型Ling-2.5-1T，总参数1T，激活参数630亿，预训练语料从20T扩展至29T tokens，采用混合线性注意力架构，支持最长1M token上下文，以高吞吐量处理长文本任务。

模型在架构、token效率及偏好对齐等维度全面升级：引入“正确性+过程冗余”复合奖励机制，推理能力接近前沿思考模型水平；通过双向强化学习反馈、Agent-based指令约束校验等精细化对齐策略，在创意写作、指令遵循任务中大幅提升表现；基于大规模高保真交互环境进行Agentic RL训练，适配Claude Code、OpenCode等主流智能体产品，在通用工具调用基准BFCL-V4上达到开源领先水平。

与DeepSeek V3.2、Kimi K2.5、GPT 5.2等主流大尺寸即时模型相比，Ling-2.5-1T在复杂推理、指令遵循能力上具有明显优势，采用MIT许可证开源，已在Hugging Face和ModelScope提供下载，Chat体验页面和API服务将后续在Ling studio和ZenMux平台上线。

https://modelscope.cn/models/inclusionAI/Ling-2.5-1T、https://mp.weixin.qq.com/s/hmmf8etla-44zHwfu1-ugA

51. 蚂蚁集团开源Ming-omni-tts音频生成模型

蚂蚁集团inclusionAI开源统一音频生成模型Ming-omni-tts，提供0.5B及16.8B-A3B两个版本，是业界首个在单通道内联合生成语音、环境音和音乐的自回归模型。

模型通过定制12.5Hz连续Tokenizer实现3.1Hz的高效推理帧率，核心能力包括细粒度语音控制（语速、音调、音量、情感、方言精准调控，粤语控制准确率93%，情感控制准确率46.7%）、智能语音设计（100+内置优质语音，支持自然语言描述零样本语音设计）、沉浸式统一生成、高效推理及专业文本规范化（精准解析复杂数学表达式与化学方程式）。

官方评测显示，Ming-omni-tts-16.8B-A3B在粤语生成、情感控制及零样本语音克隆等基准测试中达到SOTA水平，文本规范化能力媲美Gemini-2.5 Pro，模型权重及推理代码已上线Hugging Face、ModelScope及GitHub（部分相关网页解析失败，以开源平台内容为准）。

https://xqacmer.github.io/Ming-Flash-Omni-V2-TTS/、https://github.com/inclusionAI/Ming-omni-tts、https://modelscope.cn/studios/antsipan/ming-uniaudio-demo

52. Cohere Labs发布Tiny Aya多语言模型

Cohere Labs发布多语言小型模型家族Tiny Aya，包含3.35B参数基座模型TinyAya-Base（覆盖70+种语言，含多种低资源语言）及4个指令微调模型（TinyAya-Global及针对南亚、西亚/非洲、欧亚区域优化的TinyAya-Earth、TinyAya-Fire、TinyAya-Water），侧重低资源语言的深度支持而非浅覆盖。

模型上下文窗口为8K，采用CC-BY-NC协议，支持在笔记本电脑及手机端离线运行，设计注重tokenization效率，减少跨语言脚本碎片化，降低本地部署的内存与计算需求。性能上，在翻译、摘要任务中表现优异，在数学推理等思维链任务上相对薄弱，在西 Asia和非洲语言的生成式多语言AI领域达到同规模SOTA水平。

模型已在Hugging Face、Kaggle等平台开源，提供GGUF格式，同步发布大规模多语言微调数据集、基准测试及详细技术报告，旨在推动多语言AI生态多样化发展。

https://cohere.com/blog/cohere-labs-tiny-aya、https://github.com/Cohere-Labs/tiny-aya-tech-report/blob/main/tiny_aya_tech_report.pdf、https://huggingface.co/collections/CohereLabs/tiny-aya

53. 字节跳动研究团队开源BitDance多模态模型

字节跳动研究团队发布开源离散自回归多模态模型BitDance，参数量14B，专为视觉生成优化，通过大词汇量二元分词器、二元扩散头及下一块扩散范式，解决传统离散自回归模型重建差、采样难、生成慢的问题，支持每步并行预测最多64个视觉Token，推理速度比标准AR模型快30倍以上。

模型发布BitDance-14B-64x（每步预测64Token，支持1024px分辨率）和BitDance-14B-16x（每步预测16Token，支持512/1024px分辨率）两个版本，配套UniWeTok分词器，在DPG-Bench（88.28分）和GenEval（0.86分）等文本到图像基准测试中表现优异，可生成高分辨率、照片级真实感图像。

模型采用Apache 2.0许可证，代码与权重已在GitHub和Hugging Face开源，提供在线演示及PyTorch原生、Diffusers两种部署版本，相关论文已发布于arXiv。

https://github.com/shallowdream204/BitDance、https://bitdance.csuhan.com/、https://huggingface.co/collections/shallowdream204/bitdance

54. Google DeepMind发布Lyria 3音乐生成模型

Google DeepMind发布先进音乐生成模型Lyria 3，并在Gemini App中推出Beta版，支持文本转音轨、图像/视频转音轨两种核心功能：用户可描述流派、情绪、记忆等生成音乐，或上传照片、视频让AI根据视觉氛围自动谱曲并填写歌词，生成30秒音轨及由Nano Banana生成的自定义封面图。

相比前代，Lyria 3有三大改进：自动生成歌词无需用户提供、增强对风格、人声和节奏的精细控制、生成更真实且音乐结构更复杂的曲目。服务面向18岁及以上用户开放，支持英语、德语、西班牙语、法语、印地语、日语、韩语和葡萄牙语，桌面端现已可用，移动端将在未来几天内上线，Google AI Plus、Pro和Ultra订阅用户享有更高使用额度。

所有生成音轨均嵌入SynthID水印确保可追溯性，Gemini App同步上线音频验证工具，可识别AI生成内容。

https://deepmind.google/models/lyria/、https://blog.google/innovation-and-ai/products/gemini-app/lyria-3/

55. Prime Intellect开源106B参数MoE模型

Prime Intellect发布开源推理模型INTELLECT-3.1，采用Mixture-of-Experts（MoE）架构，总参数106B，活跃参数A12B，基于zai-org/GLM-4.5-Air-Base构建，通过prime-rl框架结合验证器库进行强化学习训练，重点提升数学、编程、软件工程和Agent任务的能力。

模型支持在2x H200s上通过vLLM部署，官方已将模型、训练框架及相关环境以MIT和Apache 2.0协议完全开源，同步提供技术报告及部署示例代码，所有训练和 evaluation环境可在Environments Hub获取。

https://huggingface.co/PrimeIntellect/INTELLECT-3.1

56. 阿里千问发布Qwen3.5模型系列多个模型

阿里通义千问团队发布Qwen3.5模型家族多个型号，涵盖Qwen3.5-Flash、Qwen3.5-35B-A3B、Qwen3.5-122B-A10B和Qwen3.5-27B，主打“More intelligence, less compute”（更强智能、更低算力）理念。

其中，Qwen3.5-35B-A3B采用MoE架构，总参数350亿，激活参数30亿，性能超越前代Qwen3-235B-A22B-2507与Qwen3-VL-235B-A22B，架构融合线性注意力与标准注意力提升效率；Qwen3.5-122B-A10B与Qwen3.5-27B专注Agent场景复杂推理与规划，经长思维链和推理强化学习等四阶段训练，保障长周期任务逻辑一致性，Qwen3.5-27B为Dense模型，支持多模态，适配单GPU运行；Qwen3.5-Flash是35B-A3B的托管生产版本，专为低延迟工作流优化，默认支持100万token上下文，原生支持工具使用与函数调用。

目前用户可在Qwen Chat体验这些模型，所有模型权重已在Hugging Face和ModelScope发布，Flash API及vLLM推理支持均已上线（部分境外链接无法访问，以国内开源平台内容为准）。

https://huggingface.co/collections/Qwen/qwen35、https://modelscope.cn/collections/Qwen/Qwen35、https://x.com/Alibaba_Qwen/status/2026339351530188939

57. Cursor推出新版Cloud Agents

Cursor正式推出新版Cloud Agents，赋予智能体独立云端虚拟机（VM），使其具备直接控制计算机的能力，可在云端沙盒环境中构建、运行、测试软件，并生成视频、截图等演示产出物，而非仅生成代码差异，标志着软件构建方式的重大变革。

Cloud Agents为每个智能体提供完整开发环境，避免本地资源冲突，支持大规模并行运行，适配所有代码库，可在Web、移动端、桌面应用、Slack和GitHub等多平台工作。用户无需本地检出分支，即可随时接管智能体的远程桌面，直接操作和编辑修改后的软件。

官方数据显示，目前Cursor内部合并的PR中已有超过30%由云端沙盒自主运行的Agent创建，该功能已应用于构建新功能、复现漏洞、处理快速修复及执行完整UI测试等复杂任务（部分境外链接无法访问，以官方博客内容为准）。

https://cursor.com/cn/blog/agent-computer-use、https://x.com/cursor_ai/status/2026369873321013568

58. Google发布Nano Banana 2图像生成模型

Google正式发布图像生成与编辑模型Nano Banana 2（Gemini 3.1 Flash Image），融合Nano Banana Pro的高级智能与Gemini Flash的处理速度，兼顾高质量与高效率，以1279分位列Image Arena榜首。

模型集成Gemini真实世界知识库，支持通过实时网络搜索优化生成结果，核心升级包括：精准文本渲染与翻译能力（适配营销原型、贺卡等场景）、提升主体一致性（单次生成可维持最多5个角色和14个物体特征）、强化复杂指令遵循能力、支持512px至4K分辨率及多种宽高比，视觉上具备更 vibrant的光影、丰富纹理和清晰细节。

Nano Banana 2现已全面集成至Gemini App、Google搜索、Vertex AI、Flow、Google Ads等产品，成为默认图像生成模型；API成本相比Pro版下降约50%，开发者可立即通过API接入。在Gemini应用中，付费订阅用户可通过菜单重新生成图像，使用Nano Banana Pro。Google同步深化溯源机制，结合SynthID技术与C2PA内容凭证，助力识别AI生成内容（部分相关网页解析失败，以官方发布信息为准）。

https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/、https://blog.google/innovation-and-ai/technology/developers-tools/build-with-nano-banana-2/

目录