跳到主要内容2026 年 2 月 AIGC 行业模型发布及前沿资讯汇总 | 极客日志编程语言AI算法
2026 年 2 月 AIGC 行业模型发布及前沿资讯汇总
2026 年 2 月 AIGC 领域密集发布多款开源与闭源模型。阿里推出 Qwen3.5 系列及编程模型,智谱发布 GLM-5 基座,阶跃星辰开源 Step 3.5 Flash。字节跳动更新 Seedance 2.0 视频生成模型,快手可灵升级至 3.0。蚂蚁集团发布 Ming-flash-omni 2.0 全模态模型及 Ring-2.5-1T 推理模型。OpenAI 更新 GPT-5.2 系列提速,Google DeepMind 发布 Lyria 3 音乐模型。此外还有 MiniCPM-o 4.5、Voxtral Mini 4B 实时语音等模型上线,涵盖代码、视觉、音频及具身智能方向,推动多模态与 Agent 技术发展。
HadoopMan0 浏览 阿里 Qwen 系列更新
Qwen-Coder-Qoder
阿里 AI 编程工具 Qoder 正式发布强化学习模型 Qwen-Coder-Qoder。该模型基于 Qwen-Coder 基座,结合 Agent 框架与工具,通过自研 ROLL 训练框架进行大规模强化学习,旨在提升端到端编程体验。
在 Qoder Bench 评测中,任务解决率超越 Cursor Composer-1,Windows 系统下终端命令准确率领先幅度达 50%。实际应用中代码留存率提升 3.85%,工具异常率降低 61.5%,Token 消耗下降 14.5%。
核心特性包括遵守软件工程规范、项目全局感知能力、高效并行处理无依赖任务及持续解决复杂问题的韧性。技术实现依赖真实 Agent 沙盒环境学习、软件工程最佳实践奖励信号及对抗机制防止作弊。
Qwen3.5 系列
通义千问团队发布 Qwen3.5 模型家族多个型号,涵盖 Qwen3.5-Flash、Qwen3.5-35B-A3B、Qwen3.5-122B-A10B 和 Qwen3.5-27B。
其中 Qwen3.5-397B-A17B 为首款原生多模态模型,总参数 3970 亿,激活参数 170 亿,采用线性注意力与稀疏混合专家架构,支持思考与快速两种模式。语言与方言支持增至 201 种,解码吞吐量最高提升 19 倍,原生支持超 26 万 token 上下文。
Qwen3.5-35B-A3B 性能超越前代 Qwen3-235B-A22B,融合线性注意力与标准注意力提升效率。Qwen3.5-122B-A10B 与 Qwen3.5-27B 专注 Agent 场景复杂推理与规划。所有模型权重已在 Hugging Face 和 ModelScope 发布。
智谱与阶跃星辰
GLM-OCR 与 GLM-5
智谱发布轻量级专业 OCR 模型 GLM-OCR,参数规模 0.9B,基于 GLM-V 编码器 - 解码器架构,OmniDocBench V1.5 评测登顶。支持中、英、法等多种语言通用文本识别,可直接解析 HTML 或输出 JSON。
智谱上线并开源 GLM-5,定位为面向复杂系统工程和长程 Agentic 任务的基座模型。参数规模从 GLM-4.5 的 355B 提升至 744B(激活 40B),预训练数据增加至 28.5T tokens。集成 DeepSeek Sparse Attention,上下文长度 200K,最大输出 128K。在 SWE-bench-Verified 中获得 77.8 分,BrowseComp 等基准取得开源模型最佳表现。
Step 3.5 Flash
阶跃星辰发布新一代开源基座模型 Step 3.5 Flash,专为 Agent 场景设计。采用 196B 总参数(激活 11B)的稀疏 MoE 架构,支持 256K 上下文,利用 MTP-3 技术在单请求代码任务中实现最高 350 TPS 推理速度。
具备 Think-and-Act 协同机制,支持大规模工具编排,能通过单 Agent 循环生成万字研究报告。已完成对华为昇腾等六大国产 AI 芯片适配,支持在 Apple M4 Max 等高端个人硬件上私有部署。
字节跳动与快手
Seedance 2.0
字节跳动发布视频创作模型 Seedance 2.0,采用多模态音视频联合架构,支持文字、图片、音频、视频四种输入。可混合输入 9 张图片、3 段视频、3 段音频及指令。模型具备视频编辑与延长功能,支持 15 秒高质量多镜头音视频输出及双声道立体声音频。在运动稳定性、指令遵循、画面美感及多模态参考理解方面表现突出。
可灵 3.0
快手可灵正式发布 3.0 版本产品套件,包含视频 3.0、图片 3.0 及其对应的 Omni 增强版。核心升级包括视频生成时长延长至 15 秒、强化主体一致性、支持原生 2K/4K 图像输出。智能分镜功能可深度理解剧本,自动调度景别与机位以生成电影感叙事。
BitDance
字节跳动研究团队发布开源离散自回归多模态模型 BitDance,参数量 14B,专为视觉生成优化。支持每步并行预测最多 64 个视觉 Token,推理速度比标准 AR 模型快 30 倍以上。提供 BitDance-14B-64x 和 BitDance-14B-16x 两个版本。
蚂蚁集团与腾讯
Ming-flash-omni 2.0 与 Ling-2.5-1T
蚂蚁集团发布全模态大模型 Ming-flash-omni 2.0,基于 Ling-2.0 架构(100B-A6B MoE),聚焦专家级多模态认知、统一声学合成与高动态图像处理。基准测试在 HallusionBench、MMvet、ChartQA 等多指标超越 Gemini 2.5 Pro。
蚂蚁百灵发布旗舰级即时模型 Ling-2.5-1T,总参数 1T,激活参数 630 亿,预训练语料扩展至 29T tokens,采用混合线性注意力架构,支持最长 1M token 上下文。引入正确性加过程冗余复合奖励机制,推理能力接近前沿思考模型水平。
HY-1.8B-2Bit
腾讯混元推出面向消费级硬件的 HY-1.8B-2Bit 模型,基于产业级 2Bit 端侧量化技术。等效参数量为 0.3B,内存占用 600MB,文件大小仅 300MB。在真实端侧设备上,生成速度相较原始精度模型提升 2 至 3 倍,完整保留全思维链推理能力及 Dual-CoT 策略。
LongCat-Flash-Lite
美团龙猫团队推出 LongCat-Flash-Lite 大模型,采用全新嵌入扩展范式的轻量化 MoE 模型。总参数量 685 亿,每次推理仅需激活 29 亿至 45 亿参数。支持基于 YARN 技术的 256K 超长上下文处理。在智能体任务 τ²-Bench 中取得高分,代码任务 SWE-Bench 准确率为 54.4%。
OpenAI 与 Google
GPT-5.2 与 GPT-5.3-Codex-Spark
OpenAI 宣布其 GPT-5.2 与 GPT-5.2-Codex 模型提速 40%,通过优化推理堆栈实现,已面向所有 API 客户开放。同时发布 GPT-5.3-Codex-Spark,运行于 Cerebras 超低延迟硬件,旨在提供超千 token/秒生成速度,支持用户进行实时协作编码。
Lyria 3 与 Nano Banana 2
Google DeepMind 发布先进音乐生成模型 Lyria 3,支持文本转音轨、图像/视频转音轨两种核心功能。相比前代,自动生成歌词无需用户提供、增强对风格人声和节奏的精细控制。
Google 正式发布图像生成与编辑模型 Nano Banana 2(Gemini 3.1 Flash Image),融合高级智能与处理速度,以 1279 分位列 Image Arena 榜首。支持精准文本渲染与翻译能力,提升主体一致性,强化复杂指令遵循能力。
其他重要发布
MiniCPM-o 4.5
OpenBMB 发布了 9 亿参数的多模态大语言模型 MiniCPM-o 4.5。支持全双工多模态实时交互,能够同步处理视觉、语音和文本输入并生成输出。在 OpenCompass 基准测试中平均得分 77.6,视觉语言能力超越 GPT-4o 和 Gemini 2.0 Pro。
Voxtral Mini 4B Realtime
Mistral AI 发布了名为 Voxtral Mini 4B Realtime 2602 的多语言实时语音转录模型,低于 500 毫秒延迟实现接近离线系统的转录准确率,采用 Apache 2.0 许可证开源。
Thinker
优必选发布并开源具身智能大模型 Thinker,定位小参数高性能全开源,为工业人形机器人提供精准空间感知与快速响应的大脑。截至 2026 年 1 月 30 日,Thinker 在 10B 以下参数规模的 9 项具身智能基准评测中位列全球第一。
SimpleSeg
Kimi Team 联合南京大学发布 SimpleSeg,通过将图像分割任务重构为序列生成问题,赋予多模态大语言模型原生像素级感知能力。该方法使模型直接在语言空间内预测物体边界的坐标点序列。
ConceptMoE
ByteDance 研究团队发布 ConceptMoE 架构,通过可学习的自适应块化技术,将大语言模型处理从 Token 级别提升至概念级别。在不改变模型参数与计算量的前提下显著提升性能。
ACE-Step 1.5
ACE Studio 与 StepFun 联合团队发布了开源音乐生成基础模型 ACE-Step 1.5。采用 MIT 许可证,支持本地运行与商业用途。生成一首完整歌曲快至 2 秒,运行 VRAM 少于 4GB。
SERA-14B
艾伦人工智能研究院发布 140 亿参数开源编码模型 SERA-14B,在 SWE-bench Verified 基准测试中获 41.7% 得分。模型基于 Qwen 3-14B,采用 Soft Verified Generation 方法训练。
Intern-S1-Pro
上海 AI 实验室发布 Intern-S1-Pro,一个 1 万亿参数 MoE 多模态科学推理模型,专注 AI4Science 领域。模型在化学、材料、生命科学等基准测试中达到领先水平。
MOSI-TTS 家族
MOSI.AI 与 OpenMOSS 团队发布开源语音与声音生成模型家族 MOSS-TTS,采用 Apache-2.0 许可证。包含五个可独立或组合使用的生产级模型,基于统一的 1.6B 参数 MOSS-Audio-Tokenizer。
LLaDA2.1
蚂蚁集团推出名为 LLaDA2.1 的扩散大语言模型,提供 16B 参数的 Mini 和 100B 参数的 Flash 两个版本。核心是集成 Error-Correcting Editable 引擎的 Token-to-Token 编辑机制。
Nanbeige4.1-3B
BOSS 直聘 Nanbeige LLM Lab 发布开源模型 Nanbeige4.1-3B,探索单一小型通用模型能否同时具备强大推理能力、稳健偏好对齐与原生 Agent 行为。
SoulX-Singer
Soul 旗下的 Soul-AILab 推出 SoulX-Singer,这是一款面向工业级部署的高质量开源歌声合成系统。引入了基于 MIDI 或旋律表示的可控生成机制。
Z Code
智谱正式发布 AI 编程工具 Z Code,整合 Claude Code、Gemini CLI 与 Codex 等工具,支持多 Agent 无缝切换。新增内置浏览器支持网页访问、HTML 预览。
MiniMax-M2.5
MiniMax 正式开源其最新基础模型 MiniMax-M2.5,模型权重现已上线 Hugging Face 和 ModelScope 平台。该模型总参数规模达 230B,激活参数为 10B。
Ring-2.5-1T
蚂蚁集团百灵团队发布了开源的万亿参数推理模型 Ring-2.5-1T,基于混合线性注意力架构,旨在提升长上下文推理效率。在超过 32K token 的序列推理中实现了超 10 倍的内存访问开销降低。
JoyAI-LLM-Flash
京东集团探索研究院推出并开源基于 MoE 架构的中型指令语言模型 JoyAI-LLM-Flash,总参数量 480 亿,激活参数 30 亿,专为工具使用、推理和自主问题解决设计。
Tiny Aya
Cohere Labs 发布多语言小型模型家族 Tiny Aya,包含 3.35B 参数基座模型及 4 个指令微调模型,侧重低资源语言的深度支持。
Cursor Cloud Agents
Cursor 正式推出新版 Cloud Agents,赋予智能体独立云端虚拟机,使其具备直接控制计算机的能力,可在云端沙盒环境中构建、运行、测试软件。
FantasyWorld
高德地图团队正式开源几何一致世界模型 FantasyWorld,单次前向传播即可从单张图片和相机轨迹同时生成视频与 3D 场景信息。论文已被 ICLR 2026 收录。
FireRed 系列
小红书开源通用图像编辑模型 FireRed-Image-Edit-1.0,包含指令遵循、文字编辑、创意生成、画质修复四大核心能力。同时发布工业级一体化 ASR 系统 FireRedASR2S。
Ovis2.6-30B-A3B
阿里国际 AI 团队发布并开源多模态大模型 Ovis2.6-30B-A3B,总参数 30B,推理仅激活 3B,新功能 Think with Image 使模型能在推理中主动调用视觉工具。
INTELLECT-3.1
Prime Intellect 发布开源推理模型 INTELLECT-3.1,采用 Mixture-of-Experts 架构,总参数 106B,活跃参数 A12B,重点提升数学、编程、软件工程和 Agent 任务的能力。
MiMo-V2-Flash-0204
Xiaomi MiMo 更新了 MiMo-V2-Flash 模型至 0204 版本,核心围绕 Thinking 模式进行性能和效率升级。在代码能力上,模型于 SWE-Bench Verified 基准的评分提升至 78.6。
HPC-Ops
腾讯混元 AI Infra 团队推出开源生产级高性能 LLM 推理核心算子库 HPC-Ops,基于 CUDA 和 CuTe 从零构建,包含 FusedMoE、Attention 等核心融合算子。
OpenViking
字节跳动火山引擎 Viking 团队开源 OpenViking,一个专为 AI Agent 设计的上下文数据库,创新采用文件系统范式,将 Agent 的记忆、资源与技能统一组织。
EB-JEPA
Meta AI Research 发布 EB-JEPA 开源库,为社区提供 Joint Embedding Predictive Architectures 示例。库包含三个核心模块:Image JEPA、Video JEPA、Action-Conditioned Video JEPA。
Waymo World Model
Waymo 推出 Waymo World Model,基于 Google DeepMind 的 Genie 3 构建,用于大规模超真实自动驾驶仿真。该系统生成高保真、多传感器输出,同步包含 camera 图像与 lidar 点云。
SWE-Universe
阿里巴巴 Qwen 团队与浙江大学合作提出 SWE-Universe 框架,旨在从 GitHub Pull Requests 中自动构建百万级可执行的软件工程训练环境。
Qwen-Image-2.0
千问大模型团队推出新一代图像生成基础模型 Qwen-Image-2.0。统一了图像生成与编辑能力,支持 2K 分辨率输出与 1k token 超长指令输入。
DeepSeek 新模型
DeepSeek 在其最新 App 与网页端上线了一款新模型,上下文窗口上限提升至 1M token,整体响应速度有明显提升。知识库截止日期显示为 2025 年 5 月。
BOSS 直聘 Netege4.1-3B
BOSS 直聘 Nanbeige LLM Lab 发布开源模型 Nanbeige4.1-3B,探索单一小型通用模型能否同时具备强大推理能力、稳健偏好对齐与原生 Agent 行为。
讯飞星火 X2
科大讯飞推出基于全国产算力训练的讯飞星火 X2 大模型,采用 293B MoE 稀疏架构。API 已在讯飞开放平台上线,新注册开发者可获百万 Tokens 免费额度。
OpenRouter Pony Alpha
OpenRouter 与 Kilo Code 同步上线了 stealth 模型 Pony Alpha,定位为支持 coding、agentic workflows 与 reasoning 的下一代基础模型。提供 200K tokens 上下文窗口。
豆包大模型 2.0
火山引擎推出豆包大模型 2.0 系列,包含 Pro、Lite、Mini 三款通用模型及一款 Code 模型。Pro 定位旗舰全能模型,用于 Agent 时代复杂推理。
京东 JoyAI-LLM-Flash
京东集团探索研究院推出并开源基于 MoE 架构的中型指令语言模型 JoyAI-LLM-Flash,总参数量 480 亿,激活参数 30 亿。
阿里千问 Qwen3.5-397B-A17B
阿里千问发布并开源 Qwen3.5 系列首款原生多模态模型 Qwen3.5-397B-A17B,总参数 3970 亿,激活参数 170 亿。
蚂蚁百灵 Ling-2.5-1T
蚂蚁集团开源旗舰级即时模型 Ling-2.5-1T,总参数 1T,激活参数 630 亿。
蚂蚁集团 Ming-omni-tts
蚂蚁集团 inclusionAI 开源统一音频生成模型 Ming-omni-tts,提供 0.5B 及 16.8B-A3B 两个版本。
Cohere Labs Tiny Aya
Cohere Labs 发布多语言小型模型家族 Tiny Aya,包含 3.35B 参数基座模型。
字节跳动 BitDance
字节跳动研究团队发布开源离散自回归多模态模型 BitDance,参数量 14B。
Google DeepMind Lyria 3
Google DeepMind 发布先进音乐生成模型 Lyria 3,并在 Gemini App 中推出 Beta 版。
Prime Intellect INTELLECT-3.1
Prime Intellect 发布开源推理模型 INTELLECT-3.1,采用 Mixture-of-Experts 架构。
阿里千问 Qwen3.5 系列
阿里通义千问团队发布 Qwen3.5 模型家族多个型号,涵盖 Qwen3.5-Flash、Qwen3.5-35B-A3B 等。
Cursor Cloud Agents
Cursor 正式推出新版 Cloud Agents,赋予智能体独立云端虚拟机。
Google Nano Banana 2
Google 正式发布图像生成与编辑模型 Nano Banana 2,融合 Nano Banana Pro 的高级智能与 Gemini Flash 的处理速度。
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
- Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
- Markdown转HTML
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online