跳到主要内容 2026 年 2 月 AIGC 行业模型发布及前沿资讯 | 极客日志
编程语言 AI 算法
2026 年 2 月 AIGC 行业模型发布及前沿资讯 汇总了 2026 年 2 月 AIGC 领域的最新进展,涵盖阿里 Qwen、阶跃星辰、智谱、OpenAI、字节跳动、腾讯、蚂蚁集团等机构发布的模型与工具。重点包括编程 Agent 模型如 Qwen-Coder-Qoder 和 GLM-5,多模态与视频生成模型如 Seedance 2.0 和 Grok Imagine 1.0,以及长上下文与端侧量化技术如 LongCat-Flash-Lite 和 HY-1.8B-2Bit。内容涉及模型架构创新、开源生态建设及实际应用场景的性能基准测试。
女王 发布于 2026/4/6 更新于 2026/4/13 0 浏览1. 阿里 Qoder 发布 Qwen-Coder-Qoder
阿里 AI 编程工具 Qoder 正式发布专为自身平台打造的强化学习模型 Qwen-Coder-Qoder。该模型基于 Qwen-Coder 基座,紧密结合其 Agent 框架与工具,通过自研的 ROLL 训练框架进行大规模强化学习,旨在提升端到端的编程体验。
在面向真实软件工程任务的 Qoder Bench 评测中,该模型的任务解决率已超越 Cursor Composer-1,尤其在 Windows 系统下,其终端命令准确率领先幅度达到 50%。在实际线上应用中,该模型已将代码留存率提升了 3.85%,工具异常率降低了 61.5%,Token 消耗下降了 14.5%。
Qwen-Coder-Qoder 的设计遵循资深开发者思维模式,核心特性包括:严格遵守软件工程规范、具备项目全局感知能力、可高效并行处理无依赖任务,以及持续解决复杂问题的韧性。其研发基于'模型即 Agent'的智能进化体系,技术实现依赖三大要素:在真实 Agent 沙盒环境中学习、引入软件工程最佳实践作为奖励信号并通过'Rewarder - Attacker'对抗机制防止模型作弊,以及利用 ROLL 框架实现数千卡集群上 10 倍以上的训练吞吐提升。
目前,Qwen-Coder-Qoder 已在产品中正式上线。
2. Kimi 与南大发布 SimpleSeg 赋能模型像素感知 Kimi Team 联合南京大学发布 SimpleSeg,通过将图像分割任务重构为序列生成问题,赋予多模态大语言模型(MLLM)原生像素级感知能力。该方法使模型直接在语言空间内预测物体边界的坐标点序列,采用 SFT 监督微调与基于 IoU 奖励的强化学习两阶段训练提升轮廓精度。
官方表示,SimpleSeg 在标准 MLLM 架构下无需任何专用模块,性能在多个分割基准测试中达到或超越复杂专用算法。其具备简单性、任务通用性及可解释输出三大核心优势,目前已基于 Kimi-VL 和 Qwen2.5-VL 实现模型应用。
3. 字节研究团队发布 ConceptMoE 提升 AI 推理 ByteDance 研究团队发布 ConceptMoE 架构,通过可学习的自适应块化技术,将大语言模型处理从 Token 级别提升至概念级别。该架构利用可学习的 Chunk 模块识别最优边界,动态合并语义相似的 Token 序列为统一概念表示,实现隐式计算分配,对可预测序列进行压缩,对复杂 Token 则保留精细化计算,从而在不改变模型参数与计算量的前提下显著提升性能。
4. 阶跃星辰发布并开源模型 Step 3.5 Flash 阶跃星辰发布新一代开源基座模型 Step 3.5 Flash,专为 Agent 场景设计。该模型采用 196B 总参数(激活 11B)的稀疏 MoE 架构,支持 256K 上下文,并利用 MTP-3 技术在单请求代码任务中实现最高 350 TPS 的推理速度。
在性能上,该模型在数学推理、代码和智能体任务上逼近顶级闭源模型。官方数据显示,开启 Parallel Thinking 后,其在 AIME、IMOAnswerBench 等数学竞赛和 BrowseComp 等智能体基准测试中表现领先,代码能力则逼近 Gemini 3.0 Pro。
核心能力方面,模型具备'Think-and-Act'协同机制,支持大规模工具编排,能通过单 Agent 循环生成万字研究报告。它还支持端云协同模式,可作为'云端大脑'与本地 Step-GUI 协作,完成跨 App 价格对比、操作手机微信等复杂任务。
模型已完成对华为昇腾等六大国产 AI 芯片的适配,支持在 Apple M4 Max 等高端个人硬件上私有部署。其训练采用了可扩展的强化学习框架 MIS-PO,用于解决长序列训练中的稳定性问题。官方指出模型在生成轨迹长度等方面仍存不足,并已启动下一代 Step 4 模型的训练。
5. 智谱发布并开源 OCR 模型 GLM-OCR 智谱正式发布轻量级专业 OCR 模型 GLM-OCR,参数规模为 0.9B。该模型基于 GLM-V 编码器 - 解码器架构构建,在 OmniDocBench V1.5 评测中以 94.62 分登顶,并在表格、公式识别及信息提取等主流基准中达到 SOTA 水平。
在架构上,GLM-OCR 采用自研 CogViT 视觉编码器与 GLM-0.5B 语言解码器,引入 Multi-Token Prediction 损失函数和全任务强化学习以提升效率。关于其参数规模,官方文档明确标注为 0.9B;据社区讨论认为,其视觉与语言部分总计约 1.4B。性能方面,官方数据显示 GLM-OCR 处理 PDF 文档的吞吐量达 1.86 页/秒,其表现优于多款 OCR 专项模型,性能接近 Gemini-3-Pro。
该模型针对复杂表格、代码文档、印章等真实场景优化,支持中、英、法等多种语言的通用文本识别。在输出上,可直接从合并单元格、多层表头等表格解析出 HTML 代码,或从卡证票据中提取关键字段并输出标准 JSON 格式,为 RAG 等应用提供支持。
GLM-OCR 已在 Hugging Face 开源并提供 API 服务,模型本身遵循 MIT License。API 输入与输出同价,均为 0.2 元/百万 Tokens。
6. xAI 正式发布 Grok Imagine 1.0 视频模型 xAI 正式发布 Grok Imagine 1.0,实现从静态图像到动态高清视频生成的跨越。新版本支持生成最长 10 秒、720p 分辨率的视频,音频质量与提示词理解能力显著提升。该版本已在 Grok 应用及 API 全面上线。
7. 优必选开源具身智能大模型 Thinker 优必选发布并开源具身智能大模型 Thinker,定位'小参数、高性能、全开源',为工业人形机器人提供精准空间感知与快速响应的'大脑'。截至 2026 年 1 月 30 日,Thinker 在 10B 以下参数规模的 9 项具身智能基准评测中位列全球第一。
其全链路数据方案通过'精炼提纯 - 自动化标注 - 数据驱动训练',将 20B 原始数据提纯至 10M 高质量数据(仅保留约 1%),人工参与率降至 1% 以下,标注成本降低 99%,并打通真实场景数据回流机制。基于此,Walker S2 机器人在搬运分拣场景作业准确率达 99.99%。目前,Thinker 模型权重、训练工具链及优化指南已全量开放。
8. 通义千问发布开源编程模型 Qwen3-Coder-Next Qwen 团队发布开源权重语言模型 Qwen3-Coder-Next,专为编程 Agent 与本地开发设计。该模型基于 Qwen3-Next-80B-A3B-Base 构建,采用混合注意力与稀疏 MoE 架构,总计 800 亿参数,但每个 token 仅激活 30 亿参数,旨在显著降低推理成本。
据官方介绍,该模型的核心突破在于'大规模智能体训练',而非单纯依赖参数扩展。其训练包含持续预训练、监督微调、领域专精的专家训练及能力蒸馏等阶段,利用约 80 万个可验证任务与可执行环境,让模型从反馈中学习,重点强化了长程推理、工具使用与失败恢复能力。
在性能表现上,官方数据显示,该模型在使用 SWE-Agent 框架时,在 SWE-Bench Verified 基准上得分达 70.6%,在更具挑战性的 SWE-Bench-Pro 上得分为 44.3%。官方称这一表现可与激活参数量高 10 到 20 倍的模型相当,优于 DeepSeek-V3.2(671B)和 GLM-4.7(358B)等更大模型。
9. OpenAI 宣布 GPT-5.2 系列模型提速 40% OpenAI 宣布其 GPT-5.2 与 GPT-5.2-Codex 模型提速 40%。此次更新通过优化推理堆栈实现,已面向所有 API 客户开放。在不改变模型与权重的前提下,该改进显著降低了请求延迟,提升了开发者体验。
10. OpenBMB 发布多模态模型 MiniCPM-o 4.5 OpenBMB 发布了 9 亿(9B)参数的多模态大语言模型 MiniCPM-o 4.5。该模型支持全双工多模态实时交互,能够同步处理视觉、语音和文本输入并生成输出。官方数据显示,模型在 OpenCompass 基准测试中平均得分 77.6,其视觉语言能力超越了 GPT-4o 和 Gemini 2.0 Pro,接近 Gemini 2.5 Flash 水平。
MiniCPM-o 4.5 引入全双工多模态直播能力,可端到端并行处理视频、音频输入流与文本、语音输出流,实现流畅的实时对话,并支持基于理解的主动交互。语音方面,它支持中英双语实时对话和语音克隆,官方数据显示其语音性能优于 CosyVoice2 等工具,中文测试 CER 为 0.86%,英文 WER 为 2.38%。
视觉理解方面,模型在 MathVista 和 MMBench 英文版测试中得分分别为 80.1 和 87.6,能高效处理高达 180 万像素的图像与高帧率视频,并在 OmniDocBench 文档解析任务中取得最佳性能。文本能力上,模型在多项基准中平均得分 82.1,数学解题(GSM8K)得分 94.5。
该模型基于 SigLip-2、Whisper-medium、Qwen3-8B 等构建,采用 Apache-2.0 许可证开源。模型支持通过 llama.cpp、Ollama 等框架在本地设备部署。
11. ACE Studio 与 StepFun 联合发布开源音乐模型 ACE-Step 1.5 ACE Studio 与 StepFun 联合团队发布了开源音乐生成基础模型 ACE-Step 1.5。该模型采用 MIT 许可证,支持本地运行与商业用途。
官方数据显示,该模型在 A100 上生成一首完整歌曲快至 2 秒,在 RTX 3090 上快至 10 秒,运行 VRAM 少于 4GB。其核心为一种新颖的混合架构,语言模型 (LM) 作为'全能规划器',通过思维链 (Chain-of-Thought) 生成完整歌曲蓝图以指导 Diffusion Transformer(DiT) 进行音乐创作。据官方博客,其生成质量超越多数商业模型,介于 Suno v4.5 与 v5 之间。
ACE-Step 1.5 功能全面,支持 10 秒至 10 分钟的灵活时长生成、参考音频引导、翻唱、音频编辑、音轨分离及多轨生成,并兼容 50 多种语言歌词与千余种乐器风格。用户可利用内置的 LoRA 技术,仅需几首歌曲即可训练个人风格。模型能根据 GPU VRAM 容量自动选择最优 LM 模型。
12. Ai2 发布轻量级开源编码模型 SERA-14B 艾伦人工智能研究院 (Ai2) 发布 140 亿参数开源编码模型 SERA-14B,在 SWE-bench Verified 基准测试中获 41.7% 得分 (±0.5%)。模型基于 Qwen 3-14B,采用 GLM-4.6 为教师模型,通过 Soft Verified Generation 方法在 32K 上下文、25000 条合成轨迹上训练,数据源自 121 个 Python 代码库。训练数据集已更新为通用格式并新增验证阈值和元数据。模型采用 Apache 2.0 许可证在 Hugging Face 开源。
13. 上海 AI 实验室推出万亿参数多模态科学推理模型 Intern-S1-Pro 上海 AI 实验室发布 Intern-S1-Pro,一个 1 万亿参数 MoE 多模态科学推理模型(512 专家,激活 22B),专注 AI4Science 领域。模型在化学、材料、生命科学等基准测试中达到领先水平,可媲美国际闭源模型。
技术架构采用 STE 路由、分组路由机制及 Fourier Position Encoding,支持 100 至 106 点的长异构时间序列。模型兼容 OpenAI API,具备 Tool Calling 能力,thinking 模式可动态配置。支持 LMDeploy、vLLM、SGLang 框架部署。权重已上传 Hugging Face,代码和技术报告(arXiv:2508.15763)同步发布。
14. Mistral AI 开源 40 亿参数实时语音模型 Voxtral Mini 4B Realtime 2602 Mistral AI 发布了名为 Voxtral Mini 4B Realtime 2602 的多语言实时语音转录模型,该模型以低于 500 毫秒的延迟实现了接近离线系统的转录准确率,并采用 Apache 2.0 许可证开源。这个拥有 40 亿参数的模型采用原生流式架构,针对语音助手、实时字幕等场景及设备端部署进行了优化。
此外,Mistral AI 还介绍了用于批量转录的 Voxtral Transcribe 2 模型系列。据官方说明,该模型在 FLEURS 数据集上实现了 4% 的 WER,定价为每分钟 0.003 美元,并具备说话人日志、上下文偏置等功能。
15. 快手可灵发布可灵 3.0 快手可灵正式发布 3.0 版本产品套件,包含视频 3.0、图片 3.0 及其对应的 Omni 增强版。核心升级包括视频生成时长延长至 15 秒、强化主体一致性、支持原生 2K/4K 图像输出,旨在覆盖从生成到编辑的全链路创作流程。
视频 3.0 系列支持 3 至 15 秒的灵活时长。其智能分镜功能可深度理解剧本,自动调度景别与机位以生成电影感叙事。在图生视频基础上新增的主体参考能力,允许用户添加图片或视频,二次锚定主角、道具与场景。全能音画功能支持中、英、日、韩、西等多语种及地道方言,实现多语混合对话时的口型与神态匹配。增强版视频 3.0 Omni 的全能主体 3.0 分为两部分:一是支持上传 3 至 8 秒角色视频创建主体,二是支持'多图 + 音频'为角色绑定专属声线。分镜叙事 3.0 则新增了原生自定义分镜能力与像素级画面修改。
图片 3.0 Omni 版聚焦专业级视觉输出。深度叙事功能可解构提示词中的视听元素,生成包含特定光影、色调的影视级画面。组图创作支持批量生成系列组图,并可统一优化风格或根据单张图片预测剧情生成分镜。原生超清功能允许直接输出 2K 或 4K 图像。标准版图片 3.0 的强化主要围绕一致性与编辑灵活性,支持用户使用最多 10 张参考图锁定核心元素与色调,并整合多来源参考能力于同一界面,提升了人像真实感和电影级色调。
16. Meta AI 发布 EB-JEPA 开源库 Meta AI Research 发布 EB-JEPA 开源库,为社区提供 Joint Embedding Predictive Architectures 示例。库包含三个核心模块:Image JEPA 用于 CIFAR-10 图像自监督学习,Video JEPA 预测视频序列下一帧表示,Action-Conditioned Video JEPA 支持动作条件世界建模与规划。
配套论文显示,CIFAR-10 探测准确率达 91%,Two Rooms 导航任务规划成功率 97%。库支持单 GPU 训练,集成 Weights & Biases 跟踪实验,使用 uv 包管理,需用 autoflake、isort 和 black 格式化代码。项目采用 Apache-2.0 许可证,论文作者包括 Yann LeCun 等。
17. 阿里 Qwen 构建 SWE-Universe 训练框架 阿里巴巴 Qwen 团队与浙江大学合作提出 SWE-Universe 框架,旨在从 GitHub Pull Requests (PRs) 中自动构建百万级可执行的软件工程训练环境,以解决 AI 编程助手训练数据缺乏真实可验证场景的问题。
该框架通过构建智能体实现自动化,已成功构建 807,693 个环境,并助力 Qwen3-Max-Thinking 模型在 SWE-Bench Verified 测试集上达到 75.3% 的准确率。
18. 腾讯混元推出 HPC-Ops 推理算子库 腾讯混元 AI Infra 团队推出开源生产级高性能 LLM 推理核心算子库 HPC-Ops。该算子库基于 CUDA 和 CuTe 从零构建,通过微架构深度适配与指令级优化,旨在降低开发门槛并逼近硬件性能峰值。
HPC-Ops 包含 FusedMoE、Attention 等核心融合算子,已在腾讯大规模生产环境验证,提供 API 以无缝对接 vLLM、SGLang 等主流框架,并原生支持 BF16、FP8 等多精度方案。项目已在 GitHub 开源。
19. 字节跳动开源 AI Agent 上下文数据库 字节跳动火山引擎 Viking 团队开源 OpenViking,一个专为 AI Agent 设计的上下文数据库。该项目摒弃传统 RAG 平铺式向量存储,创新采用'文件系统范式',将 Agent 的记忆、资源与技能统一组织在 viking://虚拟文件系统中,通过 ls、find 等指令管理。
核心特性包括:L0 摘要/L1 概述/L2 详情三层结构实现按需加载,降低 Token 成本;目录递归检索融合意图分析与递归下探,提升检索全局性与准确性;提供可视化轨迹与自动会话管理实现上下文自迭代。项目采用 Apache License 2.0 协议。
20. 美团推出 LongCat-Flash-Lite 模型 美团龙猫团队推出 LongCat-Flash-Lite 大模型,这是一款采用全新嵌入扩展范式的轻量化 MoE 模型。该模型总参数量为 685 亿,通过动态激活机制,每次推理仅需激活 29 亿至 45 亿参数。LongCat-Flash-Lite 聚焦于 Agent 与代码领域,支持基于 YARN 技术的 256K 超长上下文处理,目前已开放模型权重、推理引擎部分源代码及 API 接入服务。
在架构设计上,该模型创新性地引入了 N-gram 嵌入层,将 31.4 亿参数(约占 46%)投入到嵌入扩展中。该设计通过哈希函数将 token 序列映射为整体嵌入向量,并采用子表分解等技术降低哈希冲突。同时,模型引入嵌入放大技术,确保信号在深层网络中有效传递。
系统级优化方面,团队实现了从模型结构到运行时的垂直加速。针对 N-gram 嵌入层特性,设计了专用的 GPU 缓存机制以降低延迟。在算子层面,开发了定制 CUDA 内核并进行内核融合,同时支持 3 步投机推理。在输入 4K、输出 1K 的典型负载下,其 API 生成速度可达 500-700 token/s。
性能评估显示,LongCat-Flash-Lite 在多项基准测试中表现优异。在智能体任务τ²-Bench 中取得高分,代码任务 SWE-Bench 准确率为 54.4%。通用能力方面,MMLU 得分 85.52,中文理解 C-Eval 为 86.55 分,数学能力 MATH500 准确率达 96.80%。
目前,LongCat-Flash-Lite 模型权重已在 Hugging Face 与 Modelscope 开放下载,推理引擎部分功能与算子在 GitHub 开源。开发者可通过 API 平台申请接入,现阶段提供不限额试用,后续将维持每日 5000 万 tokens 的免费额度。
21. 字节跳动发布视频生成模型 Seedance 2.0 Seedance 2.0 正式上线,推出支持图像、视频、音频、文本四种模态输入的视频生成功能。其核心特性「参考能力」允许用户上传参考图像以还原画面构图与角色细节,或通过参考视频复刻镜头语言、动作节奏与创意特效。系统支持对生成视频进行平滑延长、衔接以及角色更替、内容增删等编辑操作,生成长度可在 4 至 15 秒间自由配置。
在输入限制方面,系统规定混合输入总上限为 12 个文件,包括不超过 9 张图像、总时长不超过 15 秒的 3 个视频,以及总时长不超过 15 秒的 3 个 MP3 格式音频文件。文本输入则采用自然语言描述,输出视频默认自带音效与配乐。
系统提供「首尾帧」与「全能参考」两种交互入口。「首尾帧」适用于仅需上传首帧图结合提示词的简单场景;「全能参考」则支持四类素材的任意组合输入。在「全能参考」模式下,用户可通过@素材名语法指定素材用途,或通过参数工具栏的@图标唤起选单。需要注意的是,智能多帧与主体参考功能在当前版本不可用。
在能力提升方面,Seedance 2.0 攻克了物理规律合理性、动作自然流畅性、指令理解精准度及风格稳定性等难题,能稳定完成复杂动作与连续运动生成任务,并在人脸、服装、字体及场景细节一致性上实现了显著提升。
22. OpenRouter 与 Kilo Code 上线 Pony Alpha 模型 OpenRouter 与 Kilo Code 同步上线了 stealth 模型 Pony Alpha,定位为支持 coding、agentic workflows 与 reasoning 的下一代基础模型。该模型提供 200K tokens 上下文窗口与 131K tokens 最大输出,通过两家平台以零费率提供。
模型来源暂未正式披露,Kilo Code 将其描述为来自
微信扫一扫,关注极客日志 微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
Markdown 转 HTML 将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online