【AIGC行业前沿】2026年2月AIGC行业模型发布以及主要前沿资讯
目录
- 阿里Qoder发布Qwen-Coder-Qoder
- Kimi与南大发布SimpleSeg赋能模型像素感知
- 字节研究团队发布ConceptMoE提升AI推理
- 阶跃星辰发布并开源模型Step 3.5 Flash
- 智谱发布并开源OCR模型GLM-OCR
- xAI正式发布Grok Imagine 1.0视频模型
- 优必选开源具身智能大模型Thinker
- 通义千问发布开源编程模型Qwen3-Coder-Next
- OpenAI宣布GPT-5.2系列模型提速40%
- OpenBMB发布多模态模型MiniCPM-o 4.5
- ACE Studio与StepFun联合发布开源音乐模型ACE-Step 1.5
- Ai2发布轻量级开源编码模型SERA-14B
- 上海AI实验室推出万亿参数多模态科学推理模型Intern-S1-Pro
- Mistral AI开源40亿参数实时语音模型Voxtral Mini 4B Realtime 2602
- 快手可灵发布可灵3.0
- Meta AI发布EB-JEPA开源库
- 阿里Qwen构建SWE-Universe训练框架
- 腾讯混元推出HPC-Ops推理算子库
- 字节跳动开源AI Agent上下文数据库
- 美团推出LongCat-Flash-Lite模型
- 字节跳动发布视频生成模型Seedance 2.0
- OpenRouter与Kilo Code上线Pony Alpha模型
- Waymo推出Waymo World Model
- 千问推出Qwen-Image-2.0统一图像模型
- MOSI.AI与OpenMOSS发布MOSS-TTS家族
- 蚂蚁集团发布LLaDA2.1扩散大语言模型
- 腾讯混元发布HY-1.8B-2Bit端侧量化模型
- 智谱AI发布并开源GLM-5模型
- DeepSeek上线1M上下文窗口新模型
- MiniMax上线MiniMax M2.5
- OpenAI更新GPT-5.2 Instant模型
- 蚂蚁集团发布全模态大模型Ming-flash-omni 2.0
- 科大讯飞推出讯飞星火X2大模型
- OpenBMB发布MiniCPM-SALA百万上下文模型
- BOSS直聘推出Nanbeige4.1-3B模型
- Soul推出SoulX-Singer歌声合成模型
- 智谱正式发布AI编程工具Z Code
- MiniMax正式开源MiniMax-M2.5
- OpenAI发布GPT-5.3-Codex-Spark
- 蚂蚁集团开源Ring-2.5-1T
- 字节跳动正式发布视频创作模型Seedance 2.0
- 小米MiMo发布MiMo-V2-Flash-0204
- 阿里AIDC-AI开源多模态大模型Ovis2.6-30B-A3B
- 小红书开源FireRed-Image-Edit模型
- 小红书开源语音识别FireRedASR2S系统
- 高德地图正式开源FantasyWorld世界模型
- 字节跳动发布豆包大模型2.0系列
- 京东开源JoyAI-LLM-Flash模型
- 阿里千问发布Qwen3.5-397B-A17B模型
- 蚂蚁百灵发布Ling-2.5-1T模型
- 蚂蚁集团开源Ming-omni-tts音频生成模型
- Cohere Labs发布Tiny Aya多语言模型
- 字节跳动研究团队开源BitDance多模态模型
- Google DeepMind发布Lyria 3音乐生成模型
- Prime Intellect开源106B参数MoE模型
- 阿里千问发布Qwen3.5模型系列多个模型
- Cursor推出新版Cloud Agents
- Google发布Nano Banana 2图像生成模型
1. 阿里Qoder发布Qwen-Coder-Qoder
阿里AI编程工具Qoder正式发布专为自身平台打造的强化学习模型Qwen-Coder-Qoder。该模型基于Qwen-Coder基座,紧密结合其Agent框架与工具,通过自研的ROLL训练框架进行大规模强化学习,旨在提升端到端的编程体验。
在面向真实软件工程任务的Qoder Bench评测中,该模型的任务解决率已超越Cursor Composer-1,尤其在Windows系统下,其终端命令准确率领先幅度达到50%。在实际线上应用中,该模型已将代码留存率提升了3.85%,工具异常率降低了61.5%,Token消耗下降了14.5%。
Qwen-Coder-Qoder的设计遵循资深开发者思维模式,核心特性包括:严格遵守软件工程规范、具备项目全局感知能力、可高效并行处理无依赖任务,以及持续解决复杂问题的韧性。其研发基于“模型即Agent”的智能进化体系,技术实现依赖三大要素:在真实Agent沙盒环境中学习、引入软件工程最佳实践作为奖励信号并通过“Rewarder - Attacker”对抗机制防止模型作弊,以及利用ROLL框架实现数千卡集群上10倍以上的训练吞吐提升。
目前,Qwen-Coder-Qoder已在产品中正式上线。自发布之日起,Qoder开启为期十五天的限时免费体验活动,所有用户均可参与。由于资源限制,Free用户每日使用量设有上限,所有用户在高峰时段可能需要排队。
https://qoder.com/blog/qwen-coder-qoder
2. Kimi与南大发布SimpleSeg赋能模型像素感知
Kimi Team联合南京大学发布SimpleSeg,通过将图像分割任务重构为序列生成问题,赋予多模态大语言模型(MLLM)原生像素级感知能力。该方法使模型直接在语言空间内预测物体边界的坐标点序列,采用SFT监督微调与基于IoU奖励的强化学习两阶段训练提升轮廓精度。
官方表示,SimpleSeg在标准MLLM架构下无需任何专用模块,性能在多个分割基准测试中达到或超越复杂专用算法。其具备简单性、任务通用性及可解释输出三大核心优势,目前已基于Kimi-VL和Qwen2.5-VL实现模型应用。
3. 字节研究团队发布ConceptMoE提升AI推理
ByteDance研究团队发布ConceptMoE架构,通过可学习的自适应块化技术,将大语言模型处理从Token级别提升至概念级别。该架构利用可学习的Chunk模块识别最优边界,动态合并语义相似的Token序列为统一概念表示,实现隐式计算分配,对可预测序列进行压缩,对复杂Token则保留精细化计算,从而在不改变模型参数与计算量的前提下显著提升性能。
https://github.com/ZihaoHuang-notabot/ConceptMoE
https://arxiv.org/abs/2601.21420
4. 阶跃星辰发布并开源模型Step 3.5 Flash
阶跃星辰发布新一代开源基座模型Step 3.5 Flash,专为Agent场景设计。该模型采用196B总参数(激活11B)的稀疏MoE架构,支持256K上下文,并利用MTP-3技术在单请求代码任务中实现最高350 TPS的推理速度。
在性能上,该模型在数学推理、代码和智能体任务上逼近顶级闭源模型。官方数据显示,开启Parallel Thinking后,其在AIME、IMOAnswerBench等数学竞赛和BrowseComp等智能体基准测试中表现领先,代码能力则逼近Gemini 3.0 Pro。
核心能力方面,模型具备“Think-and-Act”协同机制,支持大规模工具编排,能通过单Agent循环生成万字研究报告。它还支持端云协同模式,可作为“云端大脑”与本地Step-GUI协作,完成跨App价格对比、操作手机微信等复杂任务。
模型已完成对华为昇腾等六大国产AI芯片的适配,支持在Apple M4 Max等高端个人硬件上私有部署。其训练采用了可扩展的强化学习框架MIS-PO,用于解决长序列训练中的稳定性问题。官方指出模型在生成轨迹长度等方面仍存不足,并已启动下一代Step 4模型的训练。
https://static.stepfun.com/blog/step-3.5-flash/
https://mp.weixin.qq.com/s/XYH-5lZ3z3bw8VOEemyeSQ
https://github.com/stepfun-ai/Step-3.5-Flash
https://huggingface.co/stepfun-ai/Step-3.5-Flash
5. 智谱发布并开源OCR模型GLM-OCR
智谱正式发布轻量级专业OCR模型GLM-OCR,参数规模为0.9B。该模型基于GLM-V编码器-解码器架构构建,在OmniDocBench V1.5评测中以94.62分登顶,并在表格、公式识别及信息提取等主流基准中达到SOTA水平。
在架构上,GLM-OCR采用自研CogViT视觉编码器与GLM-0.5B语言解码器,引入Multi-Token Prediction损失函数和全任务强化学习以提升效率。关于其参数规模,官方文档明确标注为0.9B;据社区讨论认为,其视觉与语言部分总计约1.4B。性能方面,官方数据显示GLM-OCR处理PDF文档的吞吐量达1.86页/秒,其表现优于多款OCR专项模型,性能接近Gemini-3-Pro。
该模型针对复杂表格、代码文档、印章等真实场景优化,支持中、英、法等多种语言的通用文本识别。在输出上,可直接从合并单元格、多层表头等表格解析出HTML代码,或从卡证票据中提取关键字段并输出标准JSON格式,为RAG等应用提供支持。
GLM-OCR已在Hugging Face开源并提供API服务,模型本身遵循MIT License。API输入与输出同价,均为0.2元/百万Tokens。
https://docs.bigmodel.cn/cn/guide/models/vlm/glm-ocr
https://github.com/zai-org/GLM-OCR
https://huggingface.co/zai-org/GLM-OCR
6. xAI正式发布Grok Imagine 1.0视频模型
xAI正式发布Grok Imagine 1.0,实现从静态图像到动态高清视频生成的跨越。新版本支持生成最长10秒、720p分辨率的视频,音频质量与提示词理解能力显著提升。该版本已在Grok应用及API全面上线。
7. 优必选开源具身智能大模型Thinker
优必选发布并开源具身智能大模型Thinker,定位“小参数、高性能、全开源”,为工业人形机器人提供精准空间感知与快速响应的“大脑”。截至2026年1月30日,Thinker在10B以下参数规模的9项具身智能基准评测中位列全球第一。
其全链路数据方案通过“精炼提纯-自动化标注-数据驱动训练”,将20B原始数据提纯至10M高质量数据(仅保留约1%),人工参与率降至1%以下,标注成本降低99%,并打通真实场景数据回流机制。基于此,Walker S2机器人在搬运分拣场景作业准确率达99.99%。目前,Thinker模型权重、训练工具链及优化指南已全量开放。
https://mp.weixin.qq.com/s/2pz0JEr5LGPbMKmHmmC8Zw
https://github.com/UBTECH-Robot/Thinker
https://huggingface.co/UBTECH-Robotics/Thinker-4B
8. 通义千问发布开源编程模型Qwen3-Coder-Next
Qwen团队发布开源权重语言模型Qwen3-Coder-Next,专为编程Agent与本地开发设计。该模型基于Qwen3-Next-80B-A3B-Base构建,采用混合注意力与稀疏MoE架构,总计800亿参数,但每个token仅激活30亿参数,旨在显著降低推理成本。
据官方介绍,该模型的核心突破在于“大规模智能体训练”,而非单纯依赖参数扩展。其训练包含持续预训练、监督微调、领域专精的专家训练及能力蒸馏等阶段,利用约80万个可验证任务与可执行环境,让模型从反馈中学习,重点强化了长程推理、工具使用与失败恢复能力。
在性能表现上,官方数据显示,该模型在使用SWE-Agent框架时,在SWE-Bench Verified基准上得分达70.6%,在更具挑战性的SWE-Bench-Pro上得分为44.3%。官方称这一表现可与激活参数量高10到20倍的模型相当,优于DeepSeek-V3.2(671B)和GLM-4.7(358B)等更大模型。
https://mp.weixin.qq.com/s/oBxJiwkqz18lQNNctP4Y1A
https://qwen.ai/blog?id=qwen3-coder-next
https://huggingface.co/collections/Qwen/qwen3-coder-next
https://www.modelscope.cn/collections/Qwen/Qwen3-Coder-Next
9. OpenAI宣布GPT-5.2系列模型提速40%
OpenAI宣布其GPT-5.2与GPT-5.2-Codex模型提速40%。此次更新通过优化推理堆栈实现,已面向所有API客户开放。在不改变模型与权重的前提下,该改进显著降低了请求延迟,提升了开发者体验。
https://x.com/OpenAIDevs/status/2018838297221726482
10. OpenBMB发布多模态模型MiniCPM-o 4.5
OpenBMB发布了9亿(9B)参数的多模态大语言模型MiniCPM-o 4.5。该模型支持全双工多模态实时交互,能够同步处理视觉、语音和文本输入并生成输出。官方数据显示,模型在OpenCompass基准测试中平均得分77.6,其视觉语言能力超越了GPT-4o和Gemini 2.0 Pro,接近Gemini 2.5 Flash水平。
MiniCPM-o 4.5引入全双工多模态直播能力,可端到端并行处理视频、音频输入流与文本、语音输出流,实现流畅的实时对话,并支持基于理解的主动交互。语音方面,它支持中英双语实时对话和语音克隆,官方数据显示其语音性能优于CosyVoice2等工具,中文测试CER为0.86%,英文WER为2.38%。
视觉理解方面,模型在MathVista和MMBench英文版测试中得分分别为80.1和87.6,能高效处理高达180万像素的图像与高帧率视频,并在OmniDocBench文档解析任务中取得最佳性能。文本能力上,模型在多项基准中平均得分82.1,数学解题(GSM8K)得分94.5。
该模型基于SigLip-2、Whisper-medium、Qwen3-8B等构建,采用Apache-2.0许可证开源。模型支持通过llama.cpp、Ollama等框架在本地设备部署。
https://github.com/OpenBMB/MiniCPM-o
https://huggingface.co/openbmb/MiniCPM-o-4_5
https://minicpm-omni.openbmb.cn/
11. ACE Studio与StepFun联合发布开源音乐模型ACE-Step 1.5
ACE Studio与StepFun联合团队发布了开源音乐生成基础模型ACE-Step 1.5。该模型采用MIT许可证,支持本地运行与商业用途。
官方数据显示,该模型在A100上生成一首完整歌曲快至2秒,在RTX 3090上快至10秒,运行VRAM少于4GB。其核心为一种新颖的混合架构,语言模型(LM)作为“全能规划器”,通过思维链(Chain-of-Thought)生成完整歌曲蓝图以指导Diffusion Transformer(DiT)进行音乐创作。据官方博客,其生成质量超越多数商业模型,介于Suno v4.5与v5之间。
ACE-Step 1.5功能全面,支持10秒至10分钟的灵活时长生成、参考音频引导、翻唱、音频编辑、音轨分离及多轨生成,并兼容50多种语言歌词与千余种乐器风格。用户可利用内置的LoRA技术,仅需几首歌曲即可训练个人风格。模型能根据GPU VRAM容量自动选择最优LM模型。
https://github.com/ace-step/ACE-Step-1.5
12. Ai2发布轻量级开源编码模型SERA-14B
艾伦人工智能研究院(Ai2)发布140亿参数开源编码模型SERA-14B,在SWE-bench Verified基准测试中获41.7%得分(±0.5%)。模型基于Qwen 3-14B,采用GLM-4.6为教师模型,通过Soft Verified Generation方法在32K上下文、25000条合成轨迹上训练,数据源自121个Python代码库。训练数据集已更新为通用格式并新增验证阈值和元数据。模型采用Apache 2.0许可证在Hugging Face开源。
https://huggingface.co/allenai/SERA-14B
13. 上海AI实验室推出万亿参数多模态科学推理模型Intern-S1-Pro
上海AI实验室发布Intern-S1-Pro,一个1万亿参数MoE多模态科学推理模型(512专家,激活22B),专注AI4Science领域。模型在化学、材料、生命科学等基准测试中达到领先水平,可媲美国际闭源模型。
技术架构采用STE路由、分组路由机制及Fourier Position Encoding,支持100至106点的长异构时间序列。模型兼容OpenAI API,具备Tool Calling能力,thinking模式可动态配置。支持LMDeploy、vLLM、SGLang框架部署。权重已上传Hugging Face,代码和技术报告(arXiv:2508.15763)同步发布。
https://huggingface.co/internlm/Intern-S1-Pro
https://chat.intern-ai.org.cn/
14. Mistral AI开源40亿参数实时语音模型Voxtral Mini 4B Realtime 2602
Mistral AI发布了名为Voxtral Mini 4B Realtime 2602的多语言实时语音转录模型,该模型以低于500毫秒的延迟实现了接近离线系统的转录准确率,并采用Apache 2.0许可证开源。这个拥有40亿参数的模型采用原生流式架构,针对语音助手、实时字幕等场景及设备端部署进行了优化。
此外,Mistral AI还介绍了用于批量转录的Voxtral Transcribe 2模型系列。据官方说明,该模型在FLEURS数据集上实现了4%的WER,定价为每分钟0.003美元,并具备说话人日志、上下文偏置等功能。
https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602
https://mistral.ai/news/voxtral-transcribe-2
15. 快手可灵发布可灵3.0
快手可灵正式发布3.0版本产品套件,包含视频3.0、图片3.0及其对应的Omni增强版。核心升级包括视频生成时长延长至15秒、强化主体一致性、支持原生2K/4K图像输出,旨在覆盖从生成到编辑的全链路创作流程。目前该版本为黑金会员提供网页端抢先体验,后续将全量开放。
视频3.0系列支持3至15秒的灵活时长。其智能分镜功能可深度理解剧本,自动调度景别与机位以生成电影感叙事。在图生视频基础上新增的主体参考能力,允许用户添加图片或视频,二次锚定主角、道具与场景。全能音画功能支持中、英、日、韩、西等多语种及地道方言,实现多语混合对话时的口型与神态匹配。增强版视频3.0 Omni的全能主体3.0分为两部分:一是支持上传3至8秒角色视频创建主体,二是支持“多图+音频”为角色绑定专属声线。分镜叙事3.0则新增了原生自定义分镜能力与像素级画面修改。
图片3.0 Omni版聚焦专业级视觉输出。深度叙事功能可解构提示词中的视听元素,生成包含特定光影、色调的影视级画面。组图创作支持批量生成系列组图,并可统一优化风格或根据单张图片预测剧情生成分镜。原生超清功能允许直接输出2K或4K图像。标准版图片3.0的强化主要围绕一致性与编辑灵活性,支持用户使用最多10张参考图锁定核心元素与色调,并整合多来源参考能力于同一界面,提升了人像真实感和电影级色调。
https://mp.weixin.qq.com/s/eX_H8JICU8RyjpFtLc4lVQ
16. Meta AI发布EB-JEPA开源库
Meta AI Research发布EB-JEPA开源库,为社区提供Joint Embedding Predictive Architectures示例。库包含三个核心模块:Image JEPA用于CIFAR-10图像自监督学习,Video JEPA预测视频序列下一帧表示,Action-Conditioned Video JEPA支持动作条件世界建模与规划。
配套论文显示,CIFAR-10探测准确率达91%,Two Rooms导航任务规划成功率97%。库支持单GPU训练,集成Weights & Biases跟踪实验,使用uv包管理,需用autoflake、isort和black格式化代码。项目采用Apache-2.0许可证,论文作者包括Yann LeCun等。
https://github.com/facebookresearch/eb_jepa
17. 阿里Qwen构建SWE-Universe训练框架
阿里巴巴Qwen团队与浙江大学合作提出SWE-Universe框架,旨在从GitHub Pull Requests (PRs)中自动构建百万级可执行的软件工程训练环境,以解决AI编程助手训练数据缺乏真实可验证场景的问题。
该框架通过构建智能体实现自动化,已成功构建807,693个环境,并助力Qwen3-Max-Thinking模型在SWE-Bench Verified测试集上达到75.3%的准确率。
18. 腾讯混元推出HPC-Ops推理算子库
腾讯混元AI Infra团队推出开源生产级高性能LLM推理核心算子库HPC-Ops。该算子库基于CUDA和CuTe从零构建,通过微架构深度适配与指令级优化,旨在降低开发门槛并逼近硬件性能峰值。
HPC-Ops包含FusedMoE、Attention等核心融合算子,已在腾讯大规模生产环境验证,提供API以无缝对接vLLM、SGLang等主流框架,并原生支持BF16、FP8等多精度方案。项目已在GitHub开源。
https://github.com/Tencent/hpc-ops
https://mp.weixin.qq.com/s/zyDXLiRJWhol-Uvq72efOQ
19. 字节跳动开源AI Agent上下文数据库
字节跳动火山引擎Viking团队开源OpenViking,一个专为AI Agent设计的上下文数据库。该项目摒弃传统RAG平铺式向量存储,创新采用“文件系统范式”,将Agent的记忆、资源与技能统一组织在viking://虚拟文件系统中,通过ls、find等指令管理。
核心特性包括:L0摘要/L1概述/L2详情三层结构实现按需加载,降低Token成本;目录递归检索融合意图分析与递归下探,提升检索全局性与准确性;提供可视化轨迹与自动会话管理实现上下文自迭代。项目采用Apache License 2.0协议。
20. 美团推出LongCat-Flash-Lite模型
美团龙猫团队推出LongCat-Flash-Lite大模型,这是一款采用全新嵌入扩展范式的轻量化MoE模型。该模型总参数量为685亿,通过动态激活机制,每次推理仅需激活29亿至45亿参数。LongCat-Flash-Lite聚焦于Agent与代码领域,支持基于YARN技术的256K超长上下文处理,目前已开放模型权重、推理引擎部分源代码及API接入服务。
在架构设计上,该模型创新性地引入了N-gram嵌入层,将31.4亿参数(约占46%)投入到嵌入扩展中。该设计通过哈希函数将token序列映射为整体嵌入向量,并采用子表分解等技术降低哈希冲突。同时,模型引入嵌入放大技术,确保信号在深层网络中有效传递。
系统级优化方面,团队实现了从模型结构到运行时的垂直加速。针对N-gram嵌入层特性,设计了专用的GPU缓存机制以降低延迟。在算子层面,开发了定制CUDA内核并进行内核融合,同时支持3步投机推理。在输入4K、输出1K的典型负载下,其API生成速度可达500-700 token/s。
性能评估显示,LongCat-Flash-Lite在多项基准测试中表现优异。在智能体任务τ²-Bench中取得高分,代码任务SWE-Bench准确率为54.4%。通用能力方面,MMLU得分85.52,中文理解C-Eval为86.55分,数学能力MATH500准确率达96.80%。
目前,LongCat-Flash-Lite模型权重已在Hugging Face与Modelscope开放下载,推理引擎部分功能与算子在GitHub开源。开发者可通过API平台申请接入,现阶段提供不限额试用,后续将维持每日5000万tokens的免费额度。
https://mp.weixin.qq.com/s/-MCo9-FV7afO3ydqmAHY9Q
https://huggingface.co/meituan-longcat/LongCat-Flash-Lite
https://github.com/meituan-longcat/SGLang-FluentLLM
21. 字节跳动发布视频生成模型Seedance 2.0
Seedance 2.0正式上线,推出支持图像、视频、音频、文本四种模态输入的视频生成功能。其核心特性「参考能力」允许用户上传参考图像以还原画面构图与角色细节,或通过参考视频复刻镜头语言、动作节奏与创意特效。系统支持对生成视频进行平滑延长、衔接以及角色更替、内容增删等编辑操作,生成长度可在4至15秒间自由配置。
在输入限制方面,系统规定混合输入总上限为12个文件,包括不超过9张图像、总时长不超过15秒的3个视频,以及总时长不超过15秒的3个MP3格式音频文件。文本输入则采用自然语言描述,输出视频默认自带音效与配乐。
系统提供「首尾帧」与「全能参考」两种交互入口。「首尾帧」适用于仅需上传首帧图结合提示词的简单场景;「全能参考」则支持四类素材的任意组合输入。在「全能参考」模式下,用户可通过@素材名语法指定素材用途,或通过参数工具栏的@图标唤起选单。需要注意的是,智能多帧与主体参考功能在当前版本不可用。
在能力提升方面,Seedance 2.0攻克了物理规律合理性、动作自然流畅性、指令理解精准度及风格稳定性等难题,能稳定完成复杂动作与连续运动生成任务,并在人脸、服装、字体及场景细节一致性上实现了显著提升。
https://bytedance.larkoffice.com/wiki/A5RHwWhoBiOnjukIIw6cu5ybnXQ
22. OpenRouter与Kilo Code上线Pony Alpha模型
OpenRouter与Kilo Code同步上线了stealth模型Pony Alpha,定位为支持coding、agentic workflows与reasoning的下一代基础模型。该模型提供200K tokens上下文窗口与131K tokens最大输出,通过两家平台以零费率提供。
模型来源暂未正式披露,Kilo Code将其描述为来自“global lab”的“beloved open-source models”的specialized evolution。对此,部分讨论认为该模型或为智谱(zAI)即将发布的GLM-5,但此说法未经官方证实。
https://openrouter.ai/openrouter/pony-alpha
https://blog.kilo.ai/p/announcing-a-deep-thinking-new-stealth
23. Waymo推出Waymo World Model
Waymo推出Waymo World Model,基于Google DeepMind的Genie 3构建,用于大规模超真实自动驾驶仿真。该系统生成高保真、多传感器输出,同步包含camera图像与lidar点云,支持通过自然语言、驾驶输入及场景布局调整进行精细控制。
Waymo Driver已积累近2亿英里全自动驾驶里程,并在此模型驱动的虚拟世界中完成数十亿英里训练,以在实际道路遭遇前掌握复杂罕见场景。
24. 千问推出Qwen-Image-2.0统一图像模型
千问大模型团队推出新一代图像生成基础模型Qwen-Image-2.0。该模型统一了图像生成与编辑能力,支持2K分辨率输出与1k token超长指令输入。目前已在阿里云百炼平台开放API,并可通过Qwen Chat免费体验。
Qwen-Image-2.0的核心能力集中在专业文字渲染、真实质感表现与语义遵循。文字渲染方面,可精准处理中英双语信息图,并支持1k token复杂指令。模型原生支持2048×2048分辨率,可刻画超23种绿色植被的材质与光影,并在多介质上维持文字真实感。同时,模型可生成多子图漫画,保持角色一致性。
作为统一的Omni模型,其编辑功能支持在图片上添加书法题词、生成九宫格多姿势组图与双人自然合成,还可在保持真实照片主体的前提下添加卡通形象,并支持指定等效镜头与光圈等参数。
技术架构上,Qwen-Image-2.0由8B Qwen3-VL编码器与7B扩散解码器组成,体积较前代20B模型显著减小,推理更快。团队通过提升VAE重构能力与增强密集小字建模,解决了文字渲染崩坏问题,而生图与编辑的训练也相互促进。
据AI Arena盲测基准,Qwen-Image-2.0文生图得分1029排名第三,图片编辑得分1034排名第二。对比测试显示,其在长指令遵循与文字渲染上优于部分竞品,但在超现实场景的真实感上略逊一筹。
模型当前仅通过API提供,权重未开源,有传言称或于春节后开源。
https://qwen.ai/blog?id=qwen-image-2.0
https://mp.weixin.qq.com/s/D8nwRYxQp7wv9yzfk8FL9A
25. MOSI.AI与OpenMOSS发布MOSS-TTS家族
MOSI.AI与OpenMOSS团队将于2026年2月10日发布开源语音与声音生成模型家族MOSS-TTS,采用Apache-2.0许可证。该家族设计面向高保真、高表现力及复杂真实世界场景,包含五个可独立或组合使用的生产级模型。
该家族由五大核心模型构成:旗舰MOSS-TTS提供MossTTSDelay(8B参数,侧重长上下文稳定与速度)和MossTTSLocal(1.7B参数,侧重轻量化)两种架构,支持高保真零样本克隆与长文本生成;MOSS-TTSD v1.0专用于生成高表现力的多说话人超长连续对话;MOSS-VoiceGenerator可直接从文本指令生成多样化音色;MOSS-TTS-Realtime是为实时语音智能体设计的多轮上下文感知模型;MOSS-SoundEffect则专用于内容创作的可控音效生成。
整个家族的性能基于统一的1.6B参数MOSS-Audio-Tokenizer。该组件基于Cat架构,在300万小时音频数据上训练,能将24kHz音频高效压缩至12.5Hz,其重建质量在可比较比特率范围内据评测领先于其他开源方案。
性能方面,在开源基准Seed-TTS-eval上,MossTTSLocal的英文词错误率(WER)与中文相似度(SIM)分别为1.85%和78.82%。MOSS-TTSD v1.0的中文说话人相似度(SIM)达0.7949,切换准确率(ACC)为0.9587,主观评测中其综合表现优于Doubao及Gemini 2.5-pro等部分闭源模型。
https://github.com/OpenMOSS/MOSS-TTS
https://huggingface.co/collections/OpenMOSS-Team/moss-tts
https://mosi.cn/models/moss-tts
26. 蚂蚁集团发布LLaDA2.1扩散大语言模型
蚂蚁集团推出名为LLaDA2.1的扩散大语言模型,提供16B参数的Mini和100B参数的Flash两个版本。该模型核心是集成Error-Correcting Editable (ECE)引擎的Token-to-Token编辑机制,区别于传统自回归方式。该机制允许模型在生成中实时修正token。
LLaDA2.1-Flash为100B参数的语言扩散MoE模型,根据官方信息,这是首个应用于100B参数量级扩散模型的大规模强化学习(RL)框架。性能方面,在复杂编码任务中,LLaDA2.1-Flash推理速度可达892 tokens/sec。
目前,LLaDA2.1的模型权重、技术报告与源代码已发布在HuggingFace和GitHub上。
https://github.com/inclusionAI/LLaDA2.X
https://huggingface.co/collections/inclusionAI/llada21
27. 腾讯混元发布HY-1.8B-2Bit端侧量化模型
腾讯混元推出面向消费级硬件的HY-1.8B-2Bit模型,该方案基于产业级2Bit端侧量化技术。模型通过对Hunyuan-1.8B-Instruct进行量化感知训练(QAT)产出,等效参数量为0.3B,内存占用600MB,文件大小仅300MB。在真实端侧设备上,其生成速度相较原始精度模型提升2至3倍,并完整保留了其全思维链推理能力及Dual-CoT策略。该模型目前已开源,适配支持Arm SME2技术的计算平台。
技术上,为避免传统后量化(PTQ)在低比特量化下的严重精度损失,混元团队采用了量化感知训练(QAT),并结合数据优化、弹性拉伸量化及训练策略创新提升模型能力。基准测试显示,与全精度1.8B教师模型相比,HY-1.8B-2Bit在八个主流数据集上的平均性能下降3.97%;与INT4量化版本相比,准确率差距仅0.13%。在与空间相当的0.5B模型对比中,该模型在GSM8K和LiveCodeBench数据集上分别高出22.29%和20.62%。
在真实设备测试中,HY-1.8B-2Bit在MacBook M4上,对比fp16及Q4格式,首字时延实现3至8倍加速,生成速度稳定提升超2倍。在天玑9500芯片上,对比Q4格式,首字时延与生成速度均实现约1.5倍的加速。
该模型当前部署存在明确限制,仅支持配备Arm SME2技术的设备,如Apple M4、vivo x300等,其依赖于llama.cpp的特定分支运行。模型能力亦受限于其监督微调(SFT)的训练流程与基础模型自身性能。项目代码及权重已开源,采用License for AngelSlim。未来团队将重点发展强化学习与模型蒸馏,以缩小低比特模型与全精度模型的能力差距。
https://huggingface.co/AngelSlim/HY-1.8B-2Bit
https://mp.weixin.qq.com/s/m3Sr4fRLAvc7C6MV1RR-ew
28. 智谱AI发布并开源GLM-5模型
智谱上线并开源GLM-5,定位为面向复杂系统工程和长程Agentic任务的基座模型,在Coding与Agent能力上取得开源SOTA表现,依据在Artificial Analysis的榜单,GLM-5位居全球第四、开源第一。
GLM-5的基座模型扩展了参数规模,从GLM-4.5的355B(激活32B)提升至744B(激活40B),预训练数据从23T增加到28.5T tokens。模型集成了DeepSeek Sparse Attention(DSA),以在维持长文本能力的同时降低部署成本。上下文长度为200K,最大输出为128K。GLM-5开发了名为slime的异步强化学习框架,通过异步智能体强化学习算法使模型能从长程交互中学习,提升强化学习后训练流程效率。
在编程能力方面,GLM-5在SWE-bench-Verified中获得77.8分,在Terminal Bench 2.0中获得56.2分,均为开源模型SOTA。在内部Claude Code评估集合中,GLM-5在前端、后端、长程任务等编程开发任务上超越GLM-4.7平均超过20%。
Agent能力上,GLM-5在BrowseComp(联网检索与信息理解)、MCP-Atlas(工具调用和多步骤任务执行)和τ²-Bench(复杂多工具场景下的规划和执行)均取得开源模型最佳表现。
GLM-5支持华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配,通过底层算子优化与硬件加速实现高吞吐、低延迟的稳定运行。GLM-5在本地部署支持vLLM、SGLang和xLLM推理框架。模型提供BF16和FP8两个精度版本。
GLM-5权重在Hugging Face与ModelScope平台同步开源,遵循MIT License。模型在智谱Max用户套餐中已可用,Pro用户套餐计划在5天内支持,后续也会为Lite用户提供支持。
GLM Coding Plan同步升级提供GLM-5相关功能:官方适配OpenClaw,可快速配置Agent工作流;Pro和Max用户限量赠送AutoGLM-OpenClaw,支持将云端个人AI助手接入飞书;新增GLM in Excel权益,提供原生适配Excel环境的AI插件,Beta期仅Max用户可享套餐抵扣。
https://mp.weixin.qq.com/s/ICm2VgHSWEpraXH-K0o2sQ
https://github.com/zai-org/GLM-5
https://huggingface.co/zai-org/GLM-5
29. DeepSeek上线1M上下文窗口新模型
DeepSeek在其最新App与网页端上线了一款新模型。该模型核心升级包括:上下文窗口上限提升至1M token,长上下文场景下的表现突出;整体响应速度有明显提升;知识库截止日期显示为2025年5月。新模型仍为纯文本模型,不支持多模态输入。目前官方尚未对该模型发布正式公告。
根据社交媒体上流传的非官方消息,该模型是一个总参数约200B的模型,或将命名为V4 Lite,使用了Muon优化器和mHC,但没有使用Engram,相关消息还指出,DeepSeek还有一个总参数超过1T的模型在训练中,但可能不会在2月发布。
https://mp.weixin.qq.com/s/CBUOufrgiQ8LAM6fS_8ivA
https://x.com/yifan_zhang_/status/2021574517089321284
30. MiniMax上线MiniMax M2.5
MiniMax上线了其最新旗舰模型MiniMax M2.5,现已开放访问。用户可通过Web端和桌面端的MiniMax Agent调用该模型。据官方相关人员Skyler Miao说明,M2.5在研发过程中加大了训练计算量的投入,其模型性能随算力规模的增加而持续提升,将在后续正式发布。
31. OpenAI更新GPT-5.2 Instant模型
OpenAI已更新GPT-5.2 Instant模型,调整ChatGPT与API端的响应风格与质量。OpenAI CEO称此次更新非重大版本迭代。
https://x.com/sama/status/2021452911511998557
32. 蚂蚁集团发布全模态大模型Ming-flash-omni 2.0
蚂蚁集团发布全模态大模型Ming-flash-omni 2.0,基于Ling-2.0架构(100B-A6B MoE),聚焦专家级多模态认知、统一声学合成与高动态图像处理。模型已在Hugging Face、ModelScope、GitHub开源,可通过Ling Studio体验。
该模型可精准识别动植物、地标与文物;音频生成首创统一语音/音效/音乐,支持自然语言控制百余种音色;图像处理集成生成、编辑、分割及氛围重构。
技术上采用亿级数据+知识图谱、自研12.5Hz音频Tokenizer、原生单流视觉架构。基准测试在HallusionBench、MMvet、ChartQA等多指标超越Gemini 2.5 Pro,STEM表现优于Qwen3-Omini,语音识别生成准确率领先。
当前局限包括知识准确性、IP内容识别与英文音色克隆,未来将优化视频理解、图像编辑与长音频实时性。
https://huggingface.co/inclusionAI/Ming-flash-omni-2.0
https://github.com/inclusionAI/Ming
https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-2.0
33. 科大讯飞推出讯飞星火X2大模型
科大讯飞推出基于全国产算力训练的讯飞星火X2大模型,采用293B MoE稀疏架构。据官方表述,其整体能力对标国际顶尖模型,多语言能力提升。讯飞星火X2的API已在讯飞开放平台上线,新注册开发者可获百万Tokens免费额度。
面向用户的星火APP更新至5.2.0版本,新增科研与求职助手,后者支持虚拟人1:1还原面试场景。讯飞星火X2现已在网页版和APP提供体验。
https://mp.weixin.qq.com/s/C8pezir4IRX46OSy29p_Sg?scene=1&click_id=38
34. OpenBMB发布MiniCPM-SALA百万上下文模型
OpenBMB发布MiniCPM-SALA模型,首款大规模混合稀疏与线性注意力架构,在消费级GPU(A6000D/RTX 5090)上支持1M令牌上下文推理。该9B参数模型采用SALA机制(25%层用InfLLM-V2,75%用Lightning Attention),结合HyPE位置编码与HALO优化技术,在256K序列下推理速度达Qwen3-8B的3.5倍。
通过Transformer-to-Hybrid继续训练,训练成本降低约75%,同时保持通用能力相当并在长文本基准测试中表现更优。模型已在Hugging Face开源,兼容SGLang框架部署。
https://huggingface.co/openbmb/MiniCPM-SALA
35. BOSS直聘推出Nanbeige4.1-3B模型
BOSS直聘Nanbeige LLM Lab发布开源模型Nanbeige4.1-3B,探索单一小型通用模型能否同时具备强大推理能力、稳健偏好对齐与原生Agent行为。该3B参数模型在LiveCodeBench-Pro、IMO-Answer-Bench、AIME 2026 I等推理基准测试中表现显著;偏好对齐测试Arena-Hard-v2与Multi-Challenge分别获得73.2和52.21分;在xBench-DeepSearch及GAIA任务中展现深度搜索Agent能力。
支持最长256k tokens上下文,使其能在深度搜索场景中处理数百次工具调用,并对复杂问题执行单次超10万tokens的持续连贯推理。模型权重已在Hugging Face平台提供下载,详细技术报告即将发布。
https://huggingface.co/Nanbeige/Nanbeige4.1-3B
36. Soul推出SoulX-Singer歌声合成模型
Soul旗下的Soul-AILab推出SoulX-Singer,这是一款面向工业级部署的高质量开源歌声合成(Singing Voice Synthesis, SVS)系统。该系统旨在解决开源SVS在稳健性与零样本(Zero-Shot)泛化能力方面的瓶颈,支持在未见过的歌手音色上生成高保真的逼真歌声。
SoulX-Singer引入了基于MIDI或旋律表示的可控生成机制,目前已在GitHub开源其代码,并在Hugging Face提供模型权重。
https://arxiv.org/abs/2602.07803
https://github.com/Soul-AILab/SoulX-Singer.git
https://huggingface.co/Soul-AILab/SoulX-Singer
37. 智谱正式发布AI编程工具Z Code
智谱正式发布AI编程工具Z Code,整合Claude Code、Gemini CLI与Codex等工具,支持多Agent无缝切换。
Z Code同时发布更新。新增内置浏览器支持网页访问、HTML预览,并可将页面元素发送给Agent。手机端远程控制功能允许用户通过二维码连接设备,实现跨设备协作。Multi-Agent Framework支持用户在项目内于Claude、Gemini和Codex等不同Agent间无缝切换。此外,产品还支持OpenAI、Anthropic、Google、DeepSeek、Bigmodel等多个提供商。
38. MiniMax正式开源MiniMax-M2.5
MiniMax正式开源其最新基础模型MiniMax-M2.5,模型权重现已上线Hugging Face和ModelScope平台。该模型总参数规模达230B,激活参数为10B,许可协议采用Modified-MIT。用户可利用SGLang、vLLM等多种主流框架实现模型的本地部署。
https://huggingface.co/MiniMaxAI/MiniMax-M2.5
https://github.com/MiniMax-AI/MiniMax-M2.5
https://modelscope.cn/models/MiniMax/MiniMax-M2.5
39. OpenAI发布GPT-5.3-Codex-Spark
OpenAI与Cerebras合作推出首个成果——实时编码模型GPT-5.3-Codex-Spark,以研究预览形式向ChatGPT Pro用户开放。该模型运行于Cerebras超低延迟硬件,旨在提供超千token/秒(>1000 tokens/s)的生成速度,支持用户进行实时协作编码。其设计为交互式工作,支持用户中断与重定向,并以近瞬时响应实现快速迭代。工作风格默认为轻量级、有针对性的编辑,与擅长长时自主运行的GPT-5.3-Codex形成互补,专注于处理日常编码任务。
在性能基准测试中:GPT-5.3-Codex-Spark在SWE-Bench Pro上达到51%准确率需时2.3分钟;GPT-5.3-Codex达到同水平需时3分钟,达到57%则需时16分钟。在Terminal-Bench 2.0中:GPT-5.3-Codex-Spark得分58.4%;GPT-5.3-Codex得分77.3%;其上代小模型得分为46.1%。
目前,GPT-5.3-Codex-Spark作为研究预览在Codex应用、CLI及VS Code扩展内面向ChatGPT Pro用户开放。该模型仅支持文本输入,拥有128k上下文窗口,在独立速率限制下运行。
官方规划显示,此模型是迈向融合长时深度推理与实时迭代双模式Codex的第一步。未来计划引入更大模型、更长上下文及多模态输入。
https://openai.com/index/introducing-gpt-5-3-codex-spark/
40. 蚂蚁集团开源Ring-2.5-1T
蚂蚁集团百灵团队发布了开源的万亿参数推理模型Ring-2.5-1T,该模型基于混合线性注意力架构,旨在提升长上下文推理效率。通过架构升级,其在超过32K token的序列推理中实现了超10倍的内存访问开销降低和超3倍的生成吞吐量提升。此次调整后,模型的激活参数增至63B,上下文长度通过YaRN技术从128K扩展到256K。
在多个基准测试中,该模型表现突出。据团队自测结果,它在国际数学奥林匹克竞赛(IMO 2025)中获得35⁄42的得分,在中国数学奥林匹克竞赛(CMO 2025)中获得105⁄126的得分,均达金牌水平。此外,在LiveCodeBench和SWE-Bench Verified等代码与Agent任务上,该模型取得了开源领先成绩,并支持扩展思考过程的“重度思考模式”。
为增强长周期任务执行能力,Ring-2.5-1T通过大规模全异步Agent强化学习(ASystem引擎)进行训练。目前模型在token效率和指令遵循等方面仍有不足,训练仍在进行中。该模型采用MIT许可证开源,计划后续提供API服务与聊天体验页面。
https://huggingface.co/inclusionAI/Ring-2.5-1T
https://modelscope.cn/models/inclusionAI/Ring-2.5-1T
https://x.com/AntLingAGI/status/2021974501660274924
41. 字节跳动正式发布视频创作模型Seedance 2.0
字节跳动Seed团队发布视频创作模型Seedance 2.0,采用多模态音视频联合架构,支持文字、图片、音频、视频四种输入,可混合输入9张图片、3段视频、3段音频及指令。模型具备视频编辑与延长功能,支持15秒高质量多镜头音视频输出及双声道立体声音频。在即梦AI、豆包、火山方舟等平台已上线。
技术上,模型基于海量世界知识、稀疏架构及多模态联合训练。评测显示其在运动稳定性、指令遵循、画面美感及多模态参考理解方面表现突出,音频层次丰富,视听协同性增强。
当前局限包括:视频细节稳定性、拟真度待提升;音频多人口型匹配偶现失真;多主体一致性、复杂编辑效果需优化。使用真人形象需本人验证或授权。豆包平台暂不支持上传真人图片作为主体参考,生成时长为5秒或10秒。
https://seed.bytedance.com/zh/blog/seedance-2-0-%E6%AD%A3%E5%BC%8F%E5%8F%91%E5%B8%83
https://mp.weixin.qq.com/s/vFV_RdnjvmuT5jhNgUTgQw
42. 小米MiMo发布MiMo-V2-Flash-0204
Xiaomi MiMo更新了MiMo-V2-Flash模型至0204版本,核心围绕Thinking模式进行性能和效率升级。在代码能力上,模型于SWE-Bench Verified基准的评分提升至78.6。工具调用准确率从64%大幅跃升至97.0%,解决了稳定性问题。指令遵循与抗幻觉能力也得到加强,AA-Omniscience基准下的非幻觉率提升至52%,而Arena-Hard (Hard Prompt)评分提升至60.6。
此次更新通过优化思维链策略降低了Token消耗。在AIME25、HMMT等基准测试中,平均生成长度缩减了13%至30%,旨在保持模型效果的同时控制使用成本。
https://platform.xiaomimimo.com/#/docs/news/news20260212
43. 阿里AIDC-AI开源多模态大模型Ovis2.6-30B-A3B
阿里国际AI团队(AIDC-AI)发布并开源多模态大模型Ovis2.6-30B-A3B,总参数30B,推理仅激活3B,支持64K上下文窗口与2880×2880图像分辨率。新功能“Think with Image”使模型能在推理中主动调用视觉工具进行多轮自我反思式分析,重点强化OCR与文档理解能力。权重托管于Hugging Face,采用Apache 2.0许可证。
https://huggingface.co/AIDC-AI/Ovis2.6-30B-A3B
44. 小红书开源FireRed-Image-Edit模型
小红书开源通用图像编辑模型FireRed-Image-Edit-1.0,模型包含四大核心能力:指令遵循(采用随机指令对齐机制,显著提升语义理解能力);文字编辑(基于Layout-Aware OCR-based Reward的强化学习机制,有效惩罚错别字与版面布局异常);创意生成(支持多参考图输入、风格迁移与融合创作);画质修复(集成超分、去模糊、去噪等多项图像增强功能)。
项目同步推出REDEdit-Bench评测基准,含15个子任务、1673个中英编辑对,全面评估编辑模型性能。项目采用Apache-2.0许可证,后续将开源蒸馏版本与完整评测基准。
https://github.com/FireRedTeam/FireRed-Image-Edit
https://mp.weixin.qq.com/s/u3I8F_f0dVwSrCjF3G7PJw
45. 小红书开源语音识别FireRedASR2S系统
小红书FireRedTeam于2026年2月12日发布工业级一体化ASR系统FireRedASR2S,集成ASR、VAD、LID、标点预测四模块,支持普通话、20+方言、英文、语码转换和歌词识别,性能达SOTA。
ASR模块FireRedASR2提供LLM版(CER 2.89%)和AED版(CER 3.05%),在普通话与方言测试中均优于Doubao-ASR、Qwen3-ASR等竞品。VAD模块F1达97.57%,支持102种语言;LID多语言识别准确率97.18%;标点预测F1为78.90%。
模型权重与推理代码已发布至Hugging Face和Modelscope,技术报告与微调代码将发布。VAD和LID后续将独立开源。
https://github.com/FireRedTeam/FireRedASR2S
https://huggingface.co/FireRedTeam/FireRedASR2-AED
46. 高德地图正式开源FantasyWorld世界模型
高德地图团队正式开源几何一致世界模型FantasyWorld,单次前向传播即可从单张图片和相机轨迹同时生成视频与3D场景信息(深度图、点云、相机参数),无需逐场景优化。据官方称,该论文已被ICLR 2026收录,在WorldScore排行榜中位列第一。
开源包含基于Wan2.1的论文复现版和基于Wan2.2的高性能版,已上线GitHub和ModelScope。技术核心为预调节模块、非对称双分支结构(想象先验分支+几何一致性分支)及两阶段训练策略,通过在视频生成模型内注入3D几何推理能力,解决传统模型空间不一致问题。产出可直接用于具身智能导航、自动驾驶仿真等任务。
https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.1-I2V-14B-480P
https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera
https://mp.weixin.qq.com/s/p4YFmpHoJYyVbzhxQecMWg
47. 字节跳动发布豆包大模型2.0系列
火山引擎推出豆包大模型2.0系列,包含Pro、Lite、Mini三款通用模型及一款Code模型。该系列旨在通过多模态理解与高效推理能力,处理深度推理与长链路任务。
据官方介绍,Pro定位旗舰全能模型,用于Agent时代复杂推理;Lite为均衡型模型,其综合能力据称超越豆包1.8;Mini面向低时延与高并发场景,效果与豆包1.6相当;Code模型专为编程场景优化。目前全系列模型API已在火山引擎上线,Pro版已接入为豆包App的“专家”选项,Code版已接入TRAE中国版并上线方舟Coding Plan。
豆包大模型2.0 Pro强调多模态理解、长上下文推理与工具增强执行,其视觉感知、长视频连贯理解及高精度推理能力增强,适合复杂Agent任务。豆包大模型2.0 Lite适用于内容创作、数据分析等生产型工作,支持长上下文与多步指令。Mini版支持256k上下文,在非思考模式下tokens消耗量可降至思考模式的1⁄10,其在图像审核等任务上的识别能力显著提升。Code模型则增强了代码与企业多语言编码能力。
该系列引入可配置参数,reasoning_effort支持思考程度调节,Pro模型在数学、视觉、视频理解、Agent及多项权威基准评测中达到业界顶尖水平,部分评测据称超越GPT5.2。
https://seed.bytedance.com/zh/seed2
48. 京东开源JoyAI-LLM-Flash模型
京东集团探索研究院推出并开源基于MoE架构的中型指令语言模型JoyAI-LLM-Flash,总参数量480亿,激活参数30亿,专为工具使用、推理和自主问题解决设计。该模型在20万亿token上完成预训练,融合三项关键技术:Fiber Bundle RL(引入FiberPO优化框架提升训练稳定性)、Training-Inference Collaboration(通过带dense MTP的Muon优化器实现1.3至1.7倍吞吐量提升)、Agentic Intelligence(强化推理与工具调用核心能力)。
性能方面,模型在19个权威基准测试中综合表现领先,数学能力MATH 500得分97.10,编程能力HumanEval得分96.34,Agentic能力SWE-bench Verified得分60.60,长上下文处理RULER基准得分95.60;仅在Tau2-Telecom基准中以79.83分略低于GLM-4.7-Flash的88.60分。
模型采用Modified MIT License开源,权重与代码已发布于Hugging Face,同步提供官方API及与OpenAI、Anthropic兼容的API接口,方便用户部署与集成。
https://huggingface.co/jdopensource/JoyAI-LLM-Flash
49. 阿里千问发布Qwen3.5-397B-A17B模型
阿里千问发布并开源Qwen3.5系列首款原生多模态模型Qwen3.5-397B-A17B,总参数3970亿,激活参数170亿,采用线性注意力与稀疏混合专家混合架构,平衡性能与效率,融合语言、视觉与编程能力,支持思考与快速两种模式。
模型语言与方言支持增至201种,在MMLU-Pro、BFCL-V4、MathVision等多项基准测试中展现出与GPT5.2等前沿模型媲美的实力,提升得益于大规模强化学习训练;基座模型表现媲美超1T参数的Qwen3-Max-Base,解码吞吐量最高提升19倍,原生支持超26万token上下文,其API版本Qwen3.5-Plus支持1M上下文。
用户可通过Qwen Chat、千问App、Qwen Code或阿里云百炼API体验,模型权重已开源,官方透露未来几天将发布更多对开发者友好的较小模型,下一阶段将重点从模型规模转向系统整合,构建具备持久记忆与自我改进能力的伙伴型智能体。
https://qwen.ai/blog?id=qwen3.5、https://github.com/QwenLM/Qwen3.5、https://huggingface.co/Qwen/Qwen3.5-397B-A17B、https://bailian.console.aliyun.com/
50. 蚂蚁百灵发布Ling-2.5-1T模型
蚂蚁集团开源旗舰级即时模型Ling-2.5-1T,总参数1T,激活参数630亿,预训练语料从20T扩展至29T tokens,采用混合线性注意力架构,支持最长1M token上下文,以高吞吐量处理长文本任务。
模型在架构、token效率及偏好对齐等维度全面升级:引入“正确性+过程冗余”复合奖励机制,推理能力接近前沿思考模型水平;通过双向强化学习反馈、Agent-based指令约束校验等精细化对齐策略,在创意写作、指令遵循任务中大幅提升表现;基于大规模高保真交互环境进行Agentic RL训练,适配Claude Code、OpenCode等主流智能体产品,在通用工具调用基准BFCL-V4上达到开源领先水平。
与DeepSeek V3.2、Kimi K2.5、GPT 5.2等主流大尺寸即时模型相比,Ling-2.5-1T在复杂推理、指令遵循能力上具有明显优势,采用MIT许可证开源,已在Hugging Face和ModelScope提供下载,Chat体验页面和API服务将后续在Ling studio和ZenMux平台上线。
https://modelscope.cn/models/inclusionAI/Ling-2.5-1T、https://mp.weixin.qq.com/s/hmmf8etla-44zHwfu1-ugA
51. 蚂蚁集团开源Ming-omni-tts音频生成模型
蚂蚁集团inclusionAI开源统一音频生成模型Ming-omni-tts,提供0.5B及16.8B-A3B两个版本,是业界首个在单通道内联合生成语音、环境音和音乐的自回归模型。
模型通过定制12.5Hz连续Tokenizer实现3.1Hz的高效推理帧率,核心能力包括细粒度语音控制(语速、音调、音量、情感、方言精准调控,粤语控制准确率93%,情感控制准确率46.7%)、智能语音设计(100+内置优质语音,支持自然语言描述零样本语音设计)、沉浸式统一生成、高效推理及专业文本规范化(精准解析复杂数学表达式与化学方程式)。
官方评测显示,Ming-omni-tts-16.8B-A3B在粤语生成、情感控制及零样本语音克隆等基准测试中达到SOTA水平,文本规范化能力媲美Gemini-2.5 Pro,模型权重及推理代码已上线Hugging Face、ModelScope及GitHub(部分相关网页解析失败,以开源平台内容为准)。
https://xqacmer.github.io/Ming-Flash-Omni-V2-TTS/、https://github.com/inclusionAI/Ming-omni-tts、https://modelscope.cn/studios/antsipan/ming-uniaudio-demo
52. Cohere Labs发布Tiny Aya多语言模型
Cohere Labs发布多语言小型模型家族Tiny Aya,包含3.35B参数基座模型TinyAya-Base(覆盖70+种语言,含多种低资源语言)及4个指令微调模型(TinyAya-Global及针对南亚、西亚/非洲、欧亚区域优化的TinyAya-Earth、TinyAya-Fire、TinyAya-Water),侧重低资源语言的深度支持而非浅覆盖。
模型上下文窗口为8K,采用CC-BY-NC协议,支持在笔记本电脑及手机端离线运行,设计注重tokenization效率,减少跨语言脚本碎片化,降低本地部署的内存与计算需求。性能上,在翻译、摘要任务中表现优异,在数学推理等思维链任务上相对薄弱,在西 Asia和非洲语言的生成式多语言AI领域达到同规模SOTA水平。
模型已在Hugging Face、Kaggle等平台开源,提供GGUF格式,同步发布大规模多语言微调数据集、基准测试及详细技术报告,旨在推动多语言AI生态多样化发展。
https://cohere.com/blog/cohere-labs-tiny-aya、https://github.com/Cohere-Labs/tiny-aya-tech-report/blob/main/tiny_aya_tech_report.pdf、https://huggingface.co/collections/CohereLabs/tiny-aya
53. 字节跳动研究团队开源BitDance多模态模型
字节跳动研究团队发布开源离散自回归多模态模型BitDance,参数量14B,专为视觉生成优化,通过大词汇量二元分词器、二元扩散头及下一块扩散范式,解决传统离散自回归模型重建差、采样难、生成慢的问题,支持每步并行预测最多64个视觉Token,推理速度比标准AR模型快30倍以上。
模型发布BitDance-14B-64x(每步预测64Token,支持1024px分辨率)和BitDance-14B-16x(每步预测16Token,支持512/1024px分辨率)两个版本,配套UniWeTok分词器,在DPG-Bench(88.28分)和GenEval(0.86分)等文本到图像基准测试中表现优异,可生成高分辨率、照片级真实感图像。
模型采用Apache 2.0许可证,代码与权重已在GitHub和Hugging Face开源,提供在线演示及PyTorch原生、Diffusers两种部署版本,相关论文已发布于arXiv。
https://github.com/shallowdream204/BitDance、https://bitdance.csuhan.com/、https://huggingface.co/collections/shallowdream204/bitdance
54. Google DeepMind发布Lyria 3音乐生成模型
Google DeepMind发布先进音乐生成模型Lyria 3,并在Gemini App中推出Beta版,支持文本转音轨、图像/视频转音轨两种核心功能:用户可描述流派、情绪、记忆等生成音乐,或上传照片、视频让AI根据视觉氛围自动谱曲并填写歌词,生成30秒音轨及由Nano Banana生成的自定义封面图。
相比前代,Lyria 3有三大改进:自动生成歌词无需用户提供、增强对风格、人声和节奏的精细控制、生成更真实且音乐结构更复杂的曲目。服务面向18岁及以上用户开放,支持英语、德语、西班牙语、法语、印地语、日语、韩语和葡萄牙语,桌面端现已可用,移动端将在未来几天内上线,Google AI Plus、Pro和Ultra订阅用户享有更高使用额度。
所有生成音轨均嵌入SynthID水印确保可追溯性,Gemini App同步上线音频验证工具,可识别AI生成内容。
https://deepmind.google/models/lyria/、https://blog.google/innovation-and-ai/products/gemini-app/lyria-3/
55. Prime Intellect开源106B参数MoE模型
Prime Intellect发布开源推理模型INTELLECT-3.1,采用Mixture-of-Experts(MoE)架构,总参数106B,活跃参数A12B,基于zai-org/GLM-4.5-Air-Base构建,通过prime-rl框架结合验证器库进行强化学习训练,重点提升数学、编程、软件工程和Agent任务的能力。
模型支持在2x H200s上通过vLLM部署,官方已将模型、训练框架及相关环境以MIT和Apache 2.0协议完全开源,同步提供技术报告及部署示例代码,所有训练和 evaluation环境可在Environments Hub获取。
https://huggingface.co/PrimeIntellect/INTELLECT-3.1
56. 阿里千问发布Qwen3.5模型系列多个模型
阿里通义千问团队发布Qwen3.5模型家族多个型号,涵盖Qwen3.5-Flash、Qwen3.5-35B-A3B、Qwen3.5-122B-A10B和Qwen3.5-27B,主打“More intelligence, less compute”(更强智能、更低算力)理念。
其中,Qwen3.5-35B-A3B采用MoE架构,总参数350亿,激活参数30亿,性能超越前代Qwen3-235B-A22B-2507与Qwen3-VL-235B-A22B,架构融合线性注意力与标准注意力提升效率;Qwen3.5-122B-A10B与Qwen3.5-27B专注Agent场景复杂推理与规划,经长思维链和推理强化学习等四阶段训练,保障长周期任务逻辑一致性,Qwen3.5-27B为Dense模型,支持多模态,适配单GPU运行;Qwen3.5-Flash是35B-A3B的托管生产版本,专为低延迟工作流优化,默认支持100万token上下文,原生支持工具使用与函数调用。
目前用户可在Qwen Chat体验这些模型,所有模型权重已在Hugging Face和ModelScope发布,Flash API及vLLM推理支持均已上线(部分境外链接无法访问,以国内开源平台内容为准)。
https://huggingface.co/collections/Qwen/qwen35、https://modelscope.cn/collections/Qwen/Qwen35、https://x.com/Alibaba_Qwen/status/2026339351530188939
57. Cursor推出新版Cloud Agents
Cursor正式推出新版Cloud Agents,赋予智能体独立云端虚拟机(VM),使其具备直接控制计算机的能力,可在云端沙盒环境中构建、运行、测试软件,并生成视频、截图等演示产出物,而非仅生成代码差异,标志着软件构建方式的重大变革。
Cloud Agents为每个智能体提供完整开发环境,避免本地资源冲突,支持大规模并行运行,适配所有代码库,可在Web、移动端、桌面应用、Slack和GitHub等多平台工作。用户无需本地检出分支,即可随时接管智能体的远程桌面,直接操作和编辑修改后的软件。
官方数据显示,目前Cursor内部合并的PR中已有超过30%由云端沙盒自主运行的Agent创建,该功能已应用于构建新功能、复现漏洞、处理快速修复及执行完整UI测试等复杂任务(部分境外链接无法访问,以官方博客内容为准)。
https://cursor.com/cn/blog/agent-computer-use、https://x.com/cursor_ai/status/2026369873321013568
58. Google发布Nano Banana 2图像生成模型
Google正式发布图像生成与编辑模型Nano Banana 2(Gemini 3.1 Flash Image),融合Nano Banana Pro的高级智能与Gemini Flash的处理速度,兼顾高质量与高效率,以1279分位列Image Arena榜首。
模型集成Gemini真实世界知识库,支持通过实时网络搜索优化生成结果,核心升级包括:精准文本渲染与翻译能力(适配营销原型、贺卡等场景)、提升主体一致性(单次生成可维持最多5个角色和14个物体特征)、强化复杂指令遵循能力、支持512px至4K分辨率及多种宽高比,视觉上具备更 vibrant的光影、丰富纹理和清晰细节。
Nano Banana 2现已全面集成至Gemini App、Google搜索、Vertex AI、Flow、Google Ads等产品,成为默认图像生成模型;API成本相比Pro版下降约50%,开发者可立即通过API接入。在Gemini应用中,付费订阅用户可通过菜单重新生成图像,使用Nano Banana Pro。Google同步深化溯源机制,结合SynthID技术与C2PA内容凭证,助力识别AI生成内容(部分相关网页解析失败,以官方发布信息为准)。
https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/、https://blog.google/innovation-and-ai/technology/developers-tools/build-with-nano-banana-2/