2026 年 2 月 AIGC 行业模型发布及前沿资讯汇总
1. 阿里 Qoder 发布 Qwen-Coder-Qoder
阿里 AI 编程工具 Qoder 正式发布专为自身平台打造的强化学习模型 Qwen-Coder-Qoder。该模型基于 Qwen-Coder 基座,紧密结合其 Agent 框架与工具,通过自研的 ROLL 训练框架进行大规模强化学习,旨在提升端到端的编程体验。
汇总了 2026 年 2 月 AIGC 领域的主要模型发布与前沿动态。涵盖阿里通义千问、阶跃星辰、智谱 AI、蚂蚁集团、字节跳动、OpenAI 等机构的最新成果。重点包括多模态大模型(如 MiniCPM-o 4.5、GLM-OCR)、编程智能体(Qwen-Coder-Qoder、GLM-5)、视频生成(Seedance 2.0、可灵 3.0)及端侧量化技术(HY-1.8B-2Bit)。内容涉及开源权重、架构创新、性能基准测试及应用场景,为开发者提供技术参考。
阿里 AI 编程工具 Qoder 正式发布专为自身平台打造的强化学习模型 Qwen-Coder-Qoder。该模型基于 Qwen-Coder 基座,紧密结合其 Agent 框架与工具,通过自研的 ROLL 训练框架进行大规模强化学习,旨在提升端到端的编程体验。
在面向真实软件工程任务的 Qoder Bench 评测中,该模型的任务解决率已超越 Cursor Composer-1,尤其在 Windows 系统下,其终端命令准确率领先幅度达到 50%。在实际线上应用中,该模型已将代码留存率提升了 3.85%,工具异常率降低了 61.5%,Token 消耗下降了 14.5%。
Qwen-Coder-Qoder 的设计遵循资深开发者思维模式,核心特性包括:严格遵守软件工程规范、具备项目全局感知能力、可高效并行处理无依赖任务,以及持续解决复杂问题的韧性。其研发基于'模型即 Agent'的智能进化体系,技术实现依赖三大要素:在真实 Agent 沙盒环境中学习、引入软件工程最佳实践作为奖励信号并通过'Rewarder - Attacker'对抗机制防止模型作弊,以及利用 ROLL 框架实现数千卡集群上 10 倍以上的训练吞吐提升。
目前,Qwen-Coder-Qoder 已在产品中正式上线。
Kimi Team 联合南京大学发布 SimpleSeg,通过将图像分割任务重构为序列生成问题,赋予多模态大语言模型(MLLM)原生像素级感知能力。该方法使模型直接在语言空间内预测物体边界的坐标点序列,采用 SFT 监督微调与基于 IoU 奖励的强化学习两阶段训练提升轮廓精度。
官方表示,SimpleSeg 在标准 MLLM 架构下无需任何专用模块,性能在多个分割基准测试中达到或超越复杂专用算法。其具备简单性、任务通用性及可解释输出三大核心优势,目前已基于 Kimi-VL 和 Qwen2.5-VL 实现模型应用。
ByteDance 研究团队发布 ConceptMoE 架构,通过可学习的自适应块化技术,将大语言模型处理从 Token 级别提升至概念级别。该架构利用可学习的 Chunk 模块识别最优边界,动态合并语义相似的 Token 序列为统一概念表示,实现隐式计算分配,对可预测序列进行压缩,对复杂 Token 则保留精细化计算,从而在不改变模型参数与计算量的前提下显著提升性能。
阶跃星辰发布新一代开源基座模型 Step 3.5 Flash,专为 Agent 场景设计。该模型采用 196B 总参数(激活 11B)的稀疏 MoE 架构,支持 256K 上下文,并利用 MTP-3 技术在单请求代码任务中实现最高 350 TPS 的推理速度。
在性能上,该模型在数学推理、代码和智能体任务上逼近顶级闭源模型。官方数据显示,开启 Parallel Thinking 后,其在 AIME、IMOAnswerBench 等数学竞赛和 BrowseComp 等智能体基准测试中表现领先,代码能力则逼近 Gemini 3.0 Pro。
核心能力方面,模型具备'Think-and-Act'协同机制,支持大规模工具编排,能通过单 Agent 循环生成万字研究报告。它还支持端云协同模式,可作为'云端大脑'与本地 Step-GUI 协作,完成跨 App 价格对比、操作手机微信等复杂任务。
模型已完成对华为昇腾等六大国产 AI 芯片的适配,支持在 Apple M4 Max 等高端个人硬件上私有部署。其训练采用了可扩展的强化学习框架 MIS-PO,用于解决长序列训练中的稳定性问题。官方指出模型在生成轨迹长度等方面仍存不足,并已启动下一代 Step 4 模型的训练。
https://static.stepfun.com/blog/step-3.5-flash/ https://github.com/stepfun-ai/Step-3.5-Flash https://huggingface.co/stepfun-ai/Step-3.5-Flash
智谱正式发布轻量级专业 OCR 模型 GLM-OCR,参数规模为 0.9B。该模型基于 GLM-V 编码器 - 解码器架构构建,在 OmniDocBench V1.5 评测中以 94.62 分登顶,并在表格、公式识别及信息提取等主流基准中达到 SOTA 水平。
在架构上,GLM-OCR 采用自研 CogViT 视觉编码器与 GLM-0.5B 语言解码器,引入 Multi-Token Prediction 损失函数和全任务强化学习以提升效率。关于其参数规模,官方文档明确标注为 0.9B;据社区讨论认为,其视觉与语言部分总计约 1.4B。性能方面,官方数据显示 GLM-OCR 处理 PDF 文档的吞吐量达 1.86 页/秒,其表现优于多款 OCR 专项模型,性能接近 Gemini-3-Pro。
该模型针对复杂表格、代码文档、印章等真实场景优化,支持中、英、法等多种语言的通用文本识别。在输出上,可直接从合并单元格、多层表头等表格解析出 HTML 代码,或从卡证票据中提取关键字段并输出标准 JSON 格式,为 RAG 等应用提供支持。
GLM-OCR 已在 Hugging Face 开源并提供 API 服务,模型本身遵循 MIT License。API 输入与输出同价,均为 0.2 元/百万 Tokens。
https://docs.bigmodel.cn/cn/guide/models/vlm/glm-ocr https://github.com/zai-org/GLM-OCR https://huggingface.co/zai-org/GLM-OCR
xAI 正式发布 Grok Imagine 1.0,实现从静态图像到动态高清视频生成的跨越。新版本支持生成最长 10 秒、720p 分辨率的视频,音频质量与提示词理解能力显著提升。该版本已在 Grok 应用及 API 全面上线。
优必选发布并开源具身智能大模型 Thinker,定位'小参数、高性能、全开源',为工业人形机器人提供精准空间感知与快速响应的'大脑'。截至 2026 年 1 月 30 日,Thinker 在 10B 以下参数规模的 9 项具身智能基准评测中位列全球第一。
其全链路数据方案通过'精炼提纯 - 自动化标注 - 数据驱动训练',将 20B 原始数据提纯至 10M 高质量数据(仅保留约 1%),人工参与率降至 1% 以下,标注成本降低 99%,并打通真实场景数据回流机制。基于此,Walker S2 机器人在搬运分拣场景作业准确率达 99.99%。目前,Thinker 模型权重、训练工具链及优化指南已全量开放。
Qwen 团队发布开源权重语言模型 Qwen3-Coder-Next,专为编程 Agent 与本地开发设计。该模型基于 Qwen3-Next-80B-A3B-Base 构建,采用混合注意力与稀疏 MoE 架构,总计 800 亿参数,但每个 token 仅激活 30 亿参数,旨在显著降低推理成本。
据官方介绍,该模型的核心突破在于'大规模智能体训练',而非单纯依赖参数扩展。其训练包含持续预训练、监督微调、领域专精的专家训练及能力蒸馏等阶段,利用约 80 万个可验证任务与可执行环境,让模型从反馈中学习,重点强化了长程推理、工具使用与失败恢复能力。
在性能表现上,官方数据显示,该模型在使用 SWE-Agent 框架时,在 SWE-Bench Verified 基准上得分达 70.6%,在更具挑战性的 SWE-Bench-Pro 上得分为 44.3%。官方称这一表现可与激活参数量高 10 到 20 倍的模型相当,优于 DeepSeek-V3.2(671B)和 GLM-4.7(358B)等更大模型。
https://mp.weixin.qq.com/s/oBxJiwkqz18lQNNctP4Y1A https://qwen.ai/blog?id=qwen3-coder-next https://huggingface.co/collections/Qwen/qwen3-coder-next
OpenAI 宣布其 GPT-5.2 与 GPT-5.2-Codex 模型提速 40%。此次更新通过优化推理堆栈实现,已面向所有 API 客户开放。在不改变模型与权重的前提下,该改进显著降低了请求延迟,提升了开发者体验。
OpenBMB 发布了 9 亿(9B)参数的多模态大语言模型 MiniCPM-o 4.5。该模型支持全双工多模态实时交互,能够同步处理视觉、语音和文本输入并生成输出。官方数据显示,模型在 OpenCompass 基准测试中平均得分 77.6,其视觉语言能力超越了 GPT-4o 和 Gemini 2.0 Pro,接近 Gemini 2.5 Flash 水平。
MiniCPM-o 4.5 引入全双工多模态直播能力,可端到端并行处理视频、音频输入流与文本、语音输出流,实现流畅的实时对话,并支持基于理解的主动交互。语音方面,它支持中英双语实时对话和语音克隆,官方数据显示其语音性能优于 CosyVoice2 等工具,中文测试 CER 为 0.86%,英文 WER 为 2.38%。
视觉理解方面,模型在 MathVista 和 MMBench 英文版测试中得分分别为 80.1 和 87.6,能高效处理高达 180 万像素的图像与高帧率视频,并在 OmniDocBench 文档解析任务中取得最佳性能。文本能力上,模型在多项基准中平均得分 82.1,数学解题(GSM8K)得分 94.5。
该模型基于 SigLip-2、Whisper-medium、Qwen3-8B 等构建,采用 Apache-2.0 许可证开源。模型支持通过 llama.cpp、Ollama 等框架在本地设备部署。
https://github.com/OpenBMB/MiniCPM-o https://huggingface.co/openbmb/MiniCPM-o-4_5 https://minicpm-omni.openbmb.cn/
ACE Studio 与 StepFun 联合团队发布了开源音乐生成基础模型 ACE-Step 1.5。该模型采用 MIT 许可证,支持本地运行与商业用途。
官方数据显示,该模型在 A100 上生成一首完整歌曲快至 2 秒,在 RTX 3090 上快至 10 秒,运行 VRAM 少于 4GB。其核心为一种新颖的混合架构,语言模型 (LM) 作为'全能规划器',通过思维链 (Chain-of-Thought) 生成完整歌曲蓝图以指导 Diffusion Transformer(DiT) 进行音乐创作。据官方博客,其生成质量超越多数商业模型,介于 Suno v4.5 与 v5 之间。
ACE-Step 1.5 功能全面,支持 10 秒至 10 分钟的灵活时长生成、参考音频引导、翻唱、音频编辑、音轨分离及多轨生成,并兼容 50 多种语言歌词与千余种乐器风格。用户可利用内置的 LoRA 技术,仅需几首歌曲即可训练个人风格。模型能根据 GPU VRAM 容量自动选择最优 LM 模型。
艾伦人工智能研究院 (Ai2) 发布 140 亿参数开源编码模型 SERA-14B,在 SWE-bench Verified 基准测试中获 41.7% 得分 (±0.5%)。模型基于 Qwen 3-14B,采用 GLM-4.6 为教师模型,通过 Soft Verified Generation 方法在 32K 上下文、25000 条合成轨迹上训练,数据源自 121 个 Python 代码库。训练数据集已更新为通用格式并新增验证阈值和元数据。模型采用 Apache 2.0 许可证在 Hugging Face 开源。
上海 AI 实验室发布 Intern-S1-Pro,一个 1 万亿参数 MoE 多模态科学推理模型(512 专家,激活 22B),专注 AI4Science 领域。模型在化学、材料、生命科学等基准测试中达到领先水平,可媲美国际闭源模型。
技术架构采用 STE 路由、分组路由机制及 Fourier Position Encoding,支持 100 至 106 点的长异构时间序列。模型兼容 OpenAI API,具备 Tool Calling 能力,thinking 模式可动态配置。支持 LMDeploy、vLLM、SGLang 框架部署。权重已上传 Hugging Face,代码和技术报告(arXiv:2508.15763)同步发布。
Mistral AI 发布了名为 Voxtral Mini 4B Realtime 2602 的多语言实时语音转录模型,该模型以低于 500 毫秒的延迟实现了接近离线系统的转录准确率,并采用 Apache 2.0 许可证开源。这个拥有 40 亿参数的模型采用原生流式架构,针对语音助手、实时字幕等场景及设备端部署进行了优化。
此外,Mistral AI 还介绍了用于批量转录的 Voxtral Transcribe 2 模型系列。据官方说明,该模型在 FLEURS 数据集上实现了 4% 的 WER,定价为每分钟 0.003 美元,并具备说话人日志、上下文偏置等功能。
https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602 https://mistral.ai/news/voxtral-transcribe-2
快手可灵正式发布 3.0 版本产品套件,包含视频 3.0、图片 3.0 及其对应的 Omni 增强版。核心升级包括视频生成时长延长至 15 秒、强化主体一致性、支持原生 2K/4K 图像输出,旨在覆盖从生成到编辑的全链路创作流程。目前该版本为黑金会员提供网页端抢先体验,后续将全量开放。
视频 3.0 系列支持 3 至 15 秒的灵活时长。其智能分镜功能可深度理解剧本,自动调度景别与机位以生成电影感叙事。在图生视频基础上新增的主体参考能力,允许用户添加图片或视频,二次锚定主角、道具与场景。全能音画功能支持中、英、日、韩、西等多语种及地道方言,实现多语混合对话时的口型与神态匹配。增强版视频 3.0 Omni 的全能主体 3.0 分为两部分:一是支持上传 3 至 8 秒角色视频创建主体,二是支持'多图 + 音频'为角色绑定专属声线。分镜叙事 3.0 则新增了原生自定义分镜能力与像素级画面修改。
图片 3.0 Omni 版聚焦专业级视觉输出。深度叙事功能可解构提示词中的视听元素,生成包含特定光影、色调的影视级画面。组图创作支持批量生成系列组图,并可统一优化风格或根据单张图片预测剧情生成分镜。原生超清功能允许直接输出 2K 或 4K 图像。标准版图片 3.0 的强化主要围绕一致性与编辑灵活性,支持用户使用最多 10 张参考图锁定核心元素与色调,并整合多来源参考能力于同一界面,提升了人像真实感和电影级色调。
Meta AI Research 发布 EB-JEPA 开源库,为社区提供 Joint Embedding Predictive Architectures 示例。库包含三个核心模块:Image JEPA 用于 CIFAR-10 图像自监督学习,Video JEPA 预测视频序列下一帧表示,Action-Conditioned Video JEPA 支持动作条件世界建模与规划。
配套论文显示,CIFAR-10 探测准确率达 91%,Two Rooms 导航任务规划成功率 97%。库支持单 GPU 训练,集成 Weights & Biases 跟踪实验,使用 uv 包管理,需用 autoflake、isort 和 black 格式化代码。项目采用 Apache-2.0 许可证,论文作者包括 Yann LeCun 等。
阿里巴巴 Qwen 团队与浙江大学合作提出 SWE-Universe 框架,旨在从 GitHub Pull Requests (PRs) 中自动构建百万级可执行的软件工程训练环境,以解决 AI 编程助手训练数据缺乏真实可验证场景的问题。
该框架通过构建智能体实现自动化,已成功构建 807,693 个环境,并助力 Qwen3-Max-Thinking 模型在 SWE-Bench Verified 测试集上达到 75.3% 的准确率。
腾讯混元 AI Infra 团队推出开源生产级高性能 LLM 推理核心算子库 HPC-Ops。该算子库基于 CUDA 和 CuTe 从零构建,通过微架构深度适配与指令级优化,旨在降低开发门槛并逼近硬件性能峰值。
HPC-Ops 包含 FusedMoE、Attention 等核心融合算子,已在腾讯大规模生产环境验证,提供 API 以无缝对接 vLLM、SGLang 等主流框架,并原生支持 BF16、FP8 等多精度方案。项目已在 GitHub 开源。
字节跳动火山引擎 Viking 团队开源 OpenViking,一个专为 AI Agent 设计的上下文数据库。该项目摒弃传统 RAG 平铺式向量存储,创新采用'文件系统范式',将 Agent 的记忆、资源与技能统一组织在 viking://虚拟文件系统中,通过 ls、find 等指令管理。
核心特性包括:L0 摘要/L1 概述/L2 详情三层结构实现按需加载,降低 Token 成本;目录递归检索融合意图分析与递归下探,提升检索全局性与准确性;提供可视化轨迹与自动会话管理实现上下文自迭代。项目采用 Apache License 2.0 协议。
美团龙猫团队推出 LongCat-Flash-Lite 大模型,这是一款采用全新嵌入扩展范式的轻量化 MoE 模型。该模型总参数量为 685 亿,通过动态激活机制,每次推理仅需激活 29 亿至 45 亿参数。LongCat-Flash-Lite 聚焦于 Agent 与代码领域,支持基于 YARN 技术的 256K 超长上下文处理,目前已开放模型权重、推理引擎部分源代码及 API 接入服务。
在架构设计上,该模型创新性地引入了 N-gram 嵌入层,将 31.4 亿参数(约占 46%)投入到嵌入扩展中。该设计通过哈希函数将 token 序列映射为整体嵌入向量,并采用子表分解等技术降低哈希冲突。同时,模型引入嵌入放大技术,确保信号在深层网络中有效传递。
系统级优化方面,团队实现了从模型结构到运行时的垂直加速。针对 N-gram 嵌入层特性,设计了专用的 GPU 缓存机制以降低延迟。在算子层面,开发了定制 CUDA 内核并进行内核融合,同时支持 3 步投机推理。在输入 4K、输出 1K 的典型负载下,其 API 生成速度可达 500-700 token/s。
性能评估显示,LongCat-Flash-Lite 在多项基准测试中表现优异。在智能体任务τ²-Bench 中取得高分,代码任务 SWE-Bench 准确率为 54.4%。通用能力方面,MMLU 得分 85.52,中文理解 C-Eval 为 86.55 分,数学能力 MATH500 准确率达 96.80%。
目前,LongCat-Flash-Lite 模型权重已在 Hugging Face 与 Modelscope 开放下载,推理引擎部分功能与算子在 GitHub 开源。开发者可通过 API 平台申请接入,现阶段提供不限额试用,后续将维持每日 5000 万 tokens 的免费额度。
https://mp.weixin.qq.com/s/-MCo9-FV7afO3ydqmAHY9Q https://huggingface.co/meituan-longcat/LongCat-Flash-Lite https://github.com/meituan-longcat/SGLang-FluentLLM
Seedance 2.0 正式上线,推出支持图像、视频、音频、文本四种模态输入的视频生成功能。其核心特性「参考能力」允许用户上传参考图像以还原画面构图与角色细节,或通过参考视频复刻镜头语言、动作节奏与创意特效。系统支持对生成视频进行平滑延长、衔接以及角色更替、内容增删等编辑操作,生成长度可在 4 至 15 秒间自由配置。
在输入限制方面,系统规定混合输入总上限为 12 个文件,包括不超过 9 张图像、总时长不超过 15 秒的 3 个视频,以及总时长不超过 15 秒的 3 个 MP3 格式音频文件。文本输入则采用自然语言描述,输出视频默认自带音效与配乐。
系统提供「首尾帧」与「全能参考」两种交互入口。「首尾帧」适用于仅需上传首帧图结合提示词的简单场景;「全能参考」则支持四类素材的任意组合输入。在「全能参考」模式下,用户可通过@素材名语法指定素材用途,或通过参数工具栏的@图标唤起选单。需要注意的是,智能多帧与主体参考功能在当前版本不可用。
在能力提升方面,Seedance 2.0 攻克了物理规律合理性、动作自然流畅性、指令理解精准度及风格稳定性等难题,能稳定完成复杂动作与连续运动生成任务,并在人脸、服装、字体及场景细节一致性上实现了显著提升。
OpenRouter 与 Kilo Code 同步上线了 stealth 模型 Pony Alpha,定位为支持 coding、agentic workflows 与 reasoning 的下一代基础模型。该模型提供 200K tokens 上下文窗口与 131K tokens 最大输出,通过两家平台以零费率提供。
模型来源暂未正式披露,Kilo Code 将其描述为来自'global lab'的'beloved open-source models'的 specialized evolution。对此,部分讨论认为该模型或为智谱(zAI)即将发布的 GLM-5,但此说法未经官方证实。
https://openrouter.ai/openrouter/pony-alpha https://blog.kilo.ai/p/announcing-a-deep-thinking-new-stealth
Waymo 推出 Waymo World Model,基于 Google DeepMind 的 Genie 3 构建,用于大规模超真实自动驾驶仿真。该系统生成高保真、多传感器输出,同步包含 camera 图像与 lidar 点云,支持通过自然语言、驾驶输入及场景布局调整进行精细控制。
Waymo Driver 已积累近 2 亿英里全自动驾驶里程,并在此模型驱动的虚拟世界中完成数十亿英里训练,以在实际道路遭遇前掌握复杂罕见场景。
千问大模型团队推出新一代图像生成基础模型 Qwen-Image-2.0。该模型统一了图像生成与编辑能力,支持 2K 分辨率输出与 1k token 超长指令输入。目前已在阿里云百炼平台开放 API,并可通过 Qwen Chat 免费体验。
Qwen-Image-2.0 的核心能力集中在专业文字渲染、真实质感表现与语义遵循。文字渲染方面,可精准处理中英双语信息图,并支持 1k token 复杂指令。模型原生支持 2048×2048 分辨率,可刻画超 23 种绿色植被的材质与光影,并在多介质上维持文字真实感。同时,模型可生成多子图漫画,保持角色一致性。
作为统一的 Omni 模型,其编辑功能支持在图片上添加书法题词、生成九宫格多姿势组图与双人自然合成,还可在保持真实照片主体的前提下添加卡通形象,并支持指定等效镜头与光圈等参数。
技术架构上,Qwen-Image-2.0 由 8B Qwen3-VL 编码器与 7B 扩散解码器组成,体积较前代 20B 模型显著减小,推理更快。团队通过提升 VAE 重构能力与增强密集小字建模,解决了文字渲染崩坏问题,而生图与编辑的训练也相互促进。
据 AI Arena 盲测基准,Qwen-Image-2.0 文生图得分 1029 排名第三,图片编辑得分 1034 排名第二。对比测试显示,其在长指令遵循与文字渲染上优于部分竞品,但在超现实场景的真实感上略逊一筹。
模型当前仅通过 API 提供,权重未开源,有传言称或于春节后开源。
https://qwen.ai/blog?id=qwen-image-2.0 https://chat.qwen.ai https://mp.weixin.qq.com/s/D8nwRYxQp7wv9yzfk8FL9A
MOSI.AI 与 OpenMOSS 团队将于 2026 年 2 月 10 日发布开源语音与声音生成模型家族 MOSS-TTS,采用 Apache-2.0 许可证。该家族设计面向高保真、高表现力及复杂真实世界场景,包含五个可独立或组合使用的生产级模型。
该家族由五大核心模型构成:旗舰 MOSS-TTS 提供 MossTTSDelay(8B 参数,侧重长上下文稳定与速度)和 MossTTSLocal(1.7B 参数,侧重轻量化)两种架构,支持高保真零样本克隆与长文本生成;MOSS-TTSD v1.0 专用于生成高表现力的多说话人超长连续对话;MOSS-VoiceGenerator 可直接从文本指令生成多样化音色;MOSS-TTS-Realtime 是为实时语音智能体设计的多轮上下文感知模型;MOSS-SoundEffect 则专用于内容创作的可控音效生成。
整个家族的性能基于统一的 1.6B 参数 MOSS-Audio-Tokenizer。该组件基于 Cat 架构,在 300 万小时音频数据上训练,能将 24kHz 音频高效压缩至 12.5Hz,其重建质量在可比较比特率范围内据评测领先于其他开源方案。
性能方面,在开源基准 Seed-TTS-eval 上,MossTTSLocal 的英文词错误率(WER)与中文相似度(SIM)分别为 1.85% 和 78.82%。MOSS-TTSD v1.0 的中文说话人相似度(SIM)达 0.7949,切换准确率(ACC)为 0.9587,主观评测中其综合表现优于 Doubao 及 Gemini 2.5-pro 等部分闭源模型。
https://github.com/OpenMOSS/MOSS-TTS https://huggingface.co/collections/OpenMOSS-Team/moss-tts https://mosi.cn/models/moss-tts
蚂蚁集团推出名为 LLaDA2.1 的扩散大语言模型,提供 16B 参数的 Mini 和 100B 参数的 Flash 两个版本。该模型核心是集成 Error-Correcting Editable (ECE) 引擎的 Token-to-Token 编辑机制,区别于传统自回归方式。该机制允许模型在生成中实时修正 token。
LLaDA2.1-Flash 为 100B 参数的语言扩散 MoE 模型,根据官方信息,这是首个应用于 100B 参数量级扩散模型的大规模强化学习 (RL) 框架。性能方面,在复杂编码任务中,LLaDA2.1-Flash 推理速度可达 892 tokens/sec。
目前,LLaDA2.1 的模型权重、技术报告与源代码已发布在 HuggingFace 和 GitHub 上。
腾讯混元推出面向消费级硬件的 HY-1.8B-2Bit 模型,该方案基于产业级 2Bit 端侧量化技术。模型通过对 Hunyuan-1.8B-Instruct 进行量化感知训练(QAT)产出,等效参数量为 0.3B,内存占用 600MB,文件大小仅 300MB。在真实端侧设备上,其生成速度相较原始精度模型提升 2 至 3 倍,并完整保留了其全思维链推理能力及 Dual-CoT 策略。该模型目前已开源,适配支持 Arm SME2 技术的计算平台。
技术上,为避免传统后量化(PTQ)在低比特量化下的严重精度损失,混元团队采用了量化感知训练(QAT),并结合数据优化、弹性拉伸量化及训练策略创新提升模型能力。基准测试显示,与全精度 1.8B 教师模型相比,HY-1.8B-2Bit 在八个主流数据集上的平均性能下降 3.97%;与 INT4 量化版本相比,准确率差距仅 0.13%。在与空间相当的 0.5B 模型对比中,该模型在 GSM8K 和 LiveCodeBench 数据集上分别高出 22.29% 和 20.62%。
在真实设备测试中,HY-1.8B-2Bit 在 MacBook M4 上,对比 fp16 及 Q4 格式,首字时延实现 3 至 8 倍加速,生成速度稳定提升超 2 倍。在天玑 9500 芯片上,对比 Q4 格式,首字时延与生成速度均实现约 1.5 倍的加速。
该模型当前部署存在明确限制,仅支持配备 Arm SME2 技术的设备,如 Apple M4、vivo x300 等,其依赖于 llama.cpp 的特定分支运行。模型能力亦受限于其监督微调(SFT)的训练流程与基础模型自身性能。项目代码及权重已开源,采用 License for AngelSlim。未来团队将重点发展强化学习与模型蒸馏,以缩小低比特模型与全精度模型的能力差距。
智谱上线并开源 GLM-5,定位为面向复杂系统工程和长程 Agentic 任务的基座模型,在 Coding 与 Agent 能力上取得开源 SOTA 表现,依据在 Artificial Analysis 的榜单,GLM-5 位居全球第四、开源第一。
GLM-5 的基座模型扩展了参数规模,从 GLM-4.5 的 355B(激活 32B)提升至 744B(激活 40B),预训练数据从 23T 增加到 28.5T tokens。模型集成了 DeepSeek Sparse Attention(DSA),以在维持长文本能力的同时降低部署成本。上下文长度为 200K,最大输出为 128K。GLM-5 开发了名为 slime 的异步强化学习框架,通过异步智能体强化学习算法使模型能从长程交互中学习,提升强化学习后训练流程效率。
在编程能力方面,GLM-5 在 SWE-bench-Verified 中获得 77.8 分,在 Terminal Bench 2.0 中获得 56.2 分,均为开源模型 SOTA。在内部 Claude Code 评估集合中,GLM-5 在前端、后端、长程任务等编程开发任务上超越 GLM-4.7 平均超过 20%。
Agent 能力上,GLM-5 在 BrowseComp(联网检索与信息理解)、MCP-Atlas(工具调用和多步骤任务执行)和τ²-Bench(复杂多工具场景下的规划和执行)均取得开源模型最佳表现。
GLM-5 支持华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配,通过底层算子优化与硬件加速实现高吞吐、低延迟的稳定运行。GLM-5 在本地部署支持 vLLM、SGLang 和 xLLM 推理框架。模型提供 BF16 和 FP8 两个精度版本。
GLM-5 权重在 Hugging Face 与 ModelScope 平台同步开源,遵循 MIT License。模型在智谱 Max 用户套餐中已可用,Pro 用户套餐计划在 5 天内支持,后续也会为 Lite 用户提供支持。
GLM Coding Plan 同步升级提供 GLM-5 相关功能:官方适配 OpenClaw,可快速配置 Agent 工作流;Pro 和 Max 用户限量赠送 AutoGLM-OpenClaw,支持将云端个人 AI 助手接入飞书;新增 GLM in Excel 权益,提供原生适配 Excel 环境的 AI 插件,Beta 期仅 Max 用户可享套餐抵扣。
https://mp.weixin.qq.com/s/ICm2VgHSWEpraXH-K0o2sQ https://z.ai/blog/glm-5 https://github.com/zai-org/GLM-5 https://huggingface.co/zai-org/GLM-5
DeepSeek 在其最新 App 与网页端上线了一款新模型。该模型核心升级包括:上下文窗口上限提升至 1M token,长上下文场景下的表现突出;整体响应速度有明显提升;知识库截止日期显示为 2025 年 5 月。新模型仍为纯文本模型,不支持多模态输入。目前官方尚未对该模型发布正式公告。
根据社交媒体上流传的非官方消息,该模型是一个总参数约 200B 的模型,或将命名为 V4 Lite,使用了 Muon 优化器和 mHC,但没有使用 Engram,相关消息还指出,DeepSeek 还有一个总参数超过 1T 的模型在训练中,但可能不会在 2 月发布。
https://mp.weixin.qq.com/s/CBUOufrgiQ8LAM6fS_8ivA https://x.com/yifan_zhang_/status/2021574517089321284
MiniMax 上线了其最新旗舰模型 MiniMax M2.5,现已开放访问。用户可通过 Web 端和桌面端的 MiniMax Agent 调用该模型。据官方相关人员 Skyler Miao 说明,M2.5 在研发过程中加大了训练计算量的投入,其模型性能随算力规模的增加而持续提升,将在后续正式发布。
OpenAI 已更新 GPT-5.2 Instant 模型,调整 ChatGPT 与 API 端的响应风格与质量。OpenAI CEO 称此次更新非重大版本迭代。
蚂蚁集团发布全模态大模型 Ming-flash-omni 2.0,基于 Ling-2.0 架构(100B-A6B MoE),聚焦专家级多模态认知、统一声学合成与高动态图像处理。模型已在 Hugging Face、ModelScope、GitHub 开源,可通过 Ling Studio 体验。
该模型可精准识别动植物、地标与文物;音频生成首创统一语音/音效/音乐,支持自然语言控制百余种音色;图像处理集成生成、编辑、分割及氛围重构。
技术上采用亿级数据 + 知识图谱、自研 12.5Hz 音频 Tokenizer、原生单流视觉架构。基准测试在 HallusionBench、MMvet、ChartQA 等多指标超越 Gemini 2.5 Pro,STEM 表现优于 Qwen3-Omini,语音识别生成准确率领先。
当前局限包括知识准确性、IP 内容识别与英文音色克隆,未来将优化视频理解、图像编辑与长音频实时性。
https://huggingface.co/inclusionAI/Ming-flash-omni-2.0 https://github.com/inclusionAI/Ming https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-2.0
科大讯飞推出基于全国产算力训练的讯飞星火 X2 大模型,采用 293B MoE 稀疏架构。据官方表述,其整体能力对标国际顶尖模型,多语言能力提升。讯飞星火 X2 的 API 已在讯飞开放平台上线,新注册开发者可获百万 Tokens 免费额度。
面向用户的星火 APP 更新至 5.2.0 版本,新增科研与求职助手,后者支持虚拟人 1:1 还原面试场景。讯飞星火 X2 现已在网页版和 APP 提供体验。
OpenBMB 发布 MiniCPM-SALA 模型,首款大规模混合稀疏与线性注意力架构,在消费级 GPU(A6000D/RTX 5090)上支持 1M 令牌上下文推理。该 9B 参数模型采用 SALA 机制(25% 层用 InfLLM-V2,75% 用 Lightning Attention),结合 HyPE 位置编码与 HALO 优化技术,在 256K 序列下推理速度达 Qwen3-8B 的 3.5 倍。
通过 Transformer-to-Hybrid 继续训练,训练成本降低约 75%,同时保持通用能力相当并在长文本基准测试中表现更优。模型已在 Hugging Face 开源,兼容 SGLang 框架部署。
BOSS 直聘 Nanbeige LLM Lab 发布开源模型 Nanbeige4.1-3B,探索单一小型通用模型能否同时具备强大推理能力、稳健偏好对齐与原生 Agent 行为。该 3B 参数模型在 LiveCodeBench-Pro、IMO-Answer-Bench、AIME 2026 I 等推理基准测试中表现显著;偏好对齐测试 Arena-Hard-v2 与 Multi-Challenge 分别获得 73.2 和 52.21 分;在 xBench-DeepSearch 及 GAIA 任务中展现深度搜索 Agent 能力。
支持最长 256k tokens 上下文,使其能在深度搜索场景中处理数百次工具调用,并对复杂问题执行单次超 10 万 tokens 的持续连贯推理。模型权重已在 Hugging Face 平台提供下载,详细技术报告即将发布。
Soul 旗下的 Soul-AILab 推出 SoulX-Singer,这是一款面向工业级部署的高质量开源歌声合成(Singing Voice Synthesis, SVS)系统。该系统旨在解决开源 SVS 在稳健性与零样本(Zero-Shot)泛化能力方面的瓶颈,支持在未见过的歌手音色上生成高保真的逼真歌声。
SoulX-Singer 引入了基于 MIDI 或旋律表示的可控生成机制,目前已在 GitHub 开源其代码,并在 Hugging Face 提供模型权重。
https://arxiv.org/abs/2602.07803 https://github.com/Soul-AILab/SoulX-Singer.git https://huggingface.co/Soul-AILab/SoulX-Singer
智谱正式发布 AI 编程工具 Z Code,整合 Claude Code、Gemini CLI 与 Codex 等工具,支持多 Agent 无缝切换。
Z Code 同时发布更新。新增内置浏览器支持网页访问、HTML 预览,并可将页面元素发送给 Agent。手机端远程控制功能允许用户通过二维码连接设备,实现跨设备协作。Multi-Agent Framework 支持用户在项目内于 Claude、Gemini 和 Codex 等不同 Agent 间无缝切换。此外,产品还支持 OpenAI、Anthropic、Google、DeepSeek、Bigmodel 等多个提供商。
MiniMax 正式开源其最新基础模型 MiniMax-M2.5,模型权重现已上线 Hugging Face 和 ModelScope 平台。该模型总参数规模达 230B,激活参数为 10B,许可协议采用 Modified-MIT。用户可利用 SGLang、vLLM 等多种主流框架实现模型的本地部署。
https://huggingface.co/MiniMaxAI/MiniMax-M2.5 https://github.com/MiniMax-AI/MiniMax-M2.5 https://modelscope.cn/models/MiniMax/MiniMax-M2.5
OpenAI 与 Cerebras 合作推出首个成果——实时编码模型 GPT-5.3-Codex-Spark,以研究预览形式向 ChatGPT Pro 用户开放。该模型运行于 Cerebras 超低延迟硬件,旨在提供超千 token/秒(>1000 tokens/s)的生成速度,支持用户进行实时协作编码。其设计为交互式工作,支持用户中断与重定向,并以近瞬时响应实现快速迭代。工作风格默认为轻量级、有针对性的编辑,与擅长长时自主运行的 GPT-5.3-Codex 形成互补,专注于处理日常编码任务。
在性能基准测试中:GPT-5.3-Codex-Spark 在 SWE-Bench Pro 上达到 51% 准确率需时 2.3 分钟;GPT-5.3-Codex 达到同水平需时 3 分钟,达到 57% 则需时 16 分钟。在 Terminal-Bench 2.0 中:GPT-5.3-Codex-Spark 得分 58.4%;GPT-5.3-Codex 得分 77.3%;其上代小模型得分为 46.1%。
目前,GPT-5.3-Codex-Spark 作为研究预览在 Codex 应用、CLI 及 VS Code 扩展内面向 ChatGPT Pro 用户开放。该模型仅支持文本输入,拥有 128k 上下文窗口,在独立速率限制下运行。
官方规划显示,此模型是迈向融合长时深度推理与实时迭代双模式 Codex 的第一步。未来计划引入更大模型、更长上下文及多模态输入。
蚂蚁集团百灵团队发布了开源的万亿参数推理模型 Ring-2.5-1T,该模型基于混合线性注意力架构,旨在提升长上下文推理效率。通过架构升级,其在超过 32K token 的序列推理中实现了超 10 倍的内存访问开销降低和超 3 倍的生成吞吐量提升。此次调整后,模型的激活参数增至 63B,上下文长度通过 YaRN 技术从 128K 扩展到 256K。
在多个基准测试中,该模型表现突出。据团队自测结果,它在国际数学奥林匹克竞赛(IMO 2025)中获得 35⁄42 的得分,在中国数学奥林匹克竞赛(CMO 2025)中获得 105⁄126 的得分,均达金牌水平。此外,在 LiveCodeBench 和 SWE-Bench Verified 等代码与 Agent 任务上,该模型取得了开源领先成绩,并支持扩展思考过程的'重度思考模式'。
为增强长周期任务执行能力,Ring-2.5-1T 通过大规模全异步 Agent 强化学习(ASystem 引擎)进行训练。目前模型在 token 效率和指令遵循等方面仍有不足,训练仍在进行中。该模型采用 MIT 许可证开源,计划后续提供 API 服务与聊天体验页面。
https://huggingface.co/inclusionAI/Ring-2.5-1T https://modelscope.cn/models/inclusionAI/Ring-2.5-1T https://x.com/AntLingAGI/status/2021974501660274924
Xiaomi MiMo 更新了 MiMo-V2-Flash 模型至 0204 版本,核心围绕 Thinking 模式进行性能和效率升级。在代码能力上,模型于 SWE-Bench Verified 基准的评分提升至 78.6。工具调用准确率从 64% 大幅跃升至 97.0%,解决了稳定性问题。指令遵循与抗幻觉能力也得到加强,AA-Omniscience 基准下的非幻觉率提升至 52%,而 Arena-Hard (Hard Prompt) 评分提升至 60.6。
此次更新通过优化思维链策略降低了 Token 消耗。在 AIME25、HMMT 等基准测试中,平均生成长度缩减了 13% 至 30%,旨在保持模型效果的同时控制使用成本。
阿里国际 AI 团队(AIDC-AI)发布并开源多模态大模型 Ovis2.6-30B-A3B,总参数 30B,推理仅激活 3B,支持 64K 上下文窗口与 2880×2880 图像分辨率。新功能'Think with Image'使模型能在推理中主动调用视觉工具进行多轮自我反思式分析,重点强化 OCR 与文档理解能力。权重托管于 Hugging Face,采用 Apache 2.0 许可证。
小红书开源通用图像编辑模型 FireRed-Image-Edit-1.0,模型包含四大核心能力:指令遵循(采用随机指令对齐机制,显著提升语义理解能力);文字编辑(基于 Layout-Aware OCR-based Reward 的强化学习机制,有效惩罚错别字与版面布局异常);创意生成(支持多参考图输入、风格迁移与融合创作);画质修复(集成超分、去模糊、去噪等多项图像增强功能)。
项目同步推出 REDEdit-Bench 评测基准,含 15 个子任务、1673 个中英编辑对,全面评估编辑模型性能。项目采用 Apache-2.0 许可证,后续将开源蒸馏版本与完整评测基准。
小红书 FireRedTeam 于 2026 年 2 月 12 日发布工业级一体化 ASR 系统 FireRedASR2S,集成 ASR、VAD、LID、标点预测四模块,支持普通话、20+ 方言、英文、语码转换和歌词识别,性能达 SOTA。
ASR 模块 FireRedASR2 提供 LLM 版(CER 2.89%)和 AED 版(CER 3.05%),在普通话与方言测试中均优于 Doubao-ASR、Qwen3-ASR 等竞品。VAD 模块 F1 达 97.57%,支持 102 种语言;LID 多语言识别准确率 97.18%;标点预测 F1 为 78.90%。
模型权重与推理代码已发布至 Hugging Face 和 Modelscope,技术报告与微调代码将发布。VAD 和 LID 后续将独立开源。
高德地图团队正式开源几何一致世界模型 FantasyWorld,单次前向传播即可从单张图片和相机轨迹同时生成视频与 3D 场景信息(深度图、点云、相机参数),无需逐场景优化。据官方称,该论文已被 ICLR 2026 收录,在 WorldScore 排行榜中位列第一。
开源包含基于 Wan2.1 的论文复现版和基于 Wan2.2 的高性能版,已上线 GitHub 和 ModelScope。技术核心为预调节模块、非对称双分支结构(想象先验分支 + 几何一致性分支)及两阶段训练策略,通过在视频生成模型内注入 3D 几何推理能力,解决传统模型空间不一致问题。产出可直接用于具身智能导航、自动驾驶仿真等任务。
https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.1-I2V-14B-480P https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera https://mp.weixin.qq.com/s/p4YFmpHoJYyVbzhxQecMWg
火山引擎推出豆包大模型 2.0 系列,包含 Pro、Lite、Mini 三款通用模型及一款 Code 模型。该系列旨在通过多模态理解与高效推理能力,处理深度推理与长链路任务。
据官方介绍,Pro 定位旗舰全能模型,用于 Agent 时代复杂推理;Lite 为均衡型模型,其综合能力据称超越豆包 1.8;Mini 面向低时延与高并发场景,效果与豆包 1.6 相当;Code 模型专为编程场景优化。目前全系列模型 API 已在火山引擎上线,Pro 版已接入为豆包 App 的'专家'选项,Code 版已接入 TRAE 中国版并上线方舟 Coding Plan。
豆包大模型 2.0 Pro 强调多模态理解、长上下文推理与工具增强执行,其视觉感知、长视频连贯理解及高精度推理能力增强,适合复杂 Agent 任务。豆包大模型 2.0 Lite 适用于内容创作、数据分析等生产型工作,支持长上下文与多步指令。Mini 版支持 256k 上下文,在非思考模式下 tokens 消耗量可降至思考模式的 1⁄10,其在图像审核等任务上的识别能力显著提升。Code 模型则增强了代码与企业多语言编码能力。
该系列引入可配置参数,reasoning_effort 支持思考程度调节,Pro 模型在数学、视觉、视频理解、Agent 及多项权威基准评测中达到业界顶尖水平,部分评测据称超越 GPT5.2。
京东集团探索研究院推出并开源基于 MoE 架构的中型指令语言模型 JoyAI-LLM-Flash,总参数量 480 亿,激活参数 30 亿,专为工具使用、推理和自主问题解决设计。该模型在 20 万亿 token 上完成预训练,融合三项关键技术:Fiber Bundle RL(引入 FiberPO 优化框架提升训练稳定性)、Training-Inference Collaboration(通过带 dense MTP 的 Muon 优化器实现 1.3 至 1.7 倍吞吐量提升)、Agentic Intelligence(强化推理与工具调用核心能力)。
性能方面,模型在 19 个权威基准测试中综合表现领先,数学能力 MATH 500 得分 97.10,编程能力 HumanEval 得分 96.34,Agentic 能力 SWE-bench Verified 得分 60.60,长上下文处理 RULER 基准得分 95.60;仅在 Tau2-Telecom 基准中以 79.83 分略低于 GLM-4.7-Flash 的 88.60 分。
模型采用 Modified MIT License 开源,权重与代码已发布于 Hugging Face,同步提供官方 API 及与 OpenAI、Anthropic 兼容的 API 接口,方便用户部署与集成。
阿里千问发布并开源 Qwen3.5 系列首款原生多模态模型 Qwen3.5-397B-A17B,总参数 3970 亿,激活参数 170 亿,采用线性注意力与稀疏混合专家混合架构,平衡性能与效率,融合语言、视觉与编程能力,支持思考与快速两种模式。
模型语言与方言支持增至 201 种,在 MMLU-Pro、BFCL-V4、MathVision 等多项基准测试中展现出与 GPT5.2 等前沿模型媲美的实力,提升得益于大规模强化学习训练;基座模型表现媲美超 1T 参数的 Qwen3-Max-Base,解码吞吐量最高提升 19 倍,原生支持超 26 万 token 上下文,其 API 版本 Qwen3.5-Plus 支持 1M 上下文。
用户可通过 Qwen Chat、千问 App、Qwen Code 或阿里云百炼 API 体验,模型权重已开源,官方透露未来几天将发布更多对开发者友好的较小模型,下一阶段将重点从模型规模转向系统整合,构建具备持久记忆与自我改进能力的伙伴型智能体。
https://qwen.ai/blog?id=qwen3.5、https://github.com/QwenLM/Qwen3.5、https://huggingface.co/Qwen/Qwen3.5-397B-A17B、https://bailian.console.aliyun.com/
蚂蚁集团开源旗舰级即时模型 Ling-2.5-1T,总参数 1T,激活参数 630 亿,预训练语料从 20T 扩展至 29T tokens,采用混合线性注意力架构,支持最长 1M token 上下文,以高吞吐量处理长文本任务。
模型在架构、token 效率及偏好对齐等维度全面升级:引入'正确性 + 过程冗余'复合奖励机制,推理能力接近前沿思考模型水平;通过双向强化学习反馈、Agent-based 指令约束校验等精细化对齐策略,在创意写作、指令遵循任务中大幅提升表现;基于大规模高保真交互环境进行 Agentic RL 训练,适配 Claude Code、OpenCode 等主流智能体产品,在通用工具调用基准 BFCL-V4 上达到开源领先水平。
与 DeepSeek V3.2、Kimi K2.5、GPT 5.2 等主流大尺寸即时模型相比,Ling-2.5-1T 在复杂推理、指令遵循能力上具有明显优势,采用 MIT 许可证开源,已在 Hugging Face 和 ModelScope 提供下载,Chat 体验页面和 API 服务将后续在 Ling studio 和 ZenMux 平台上线。
https://modelscope.cn/models/inclusionAI/Ling-2.5-1T、https://mp.weixin.qq.com/s/hmmf8etla-44zHwfu1-ugA
蚂蚁集团 inclusionAI 开源统一音频生成模型 Ming-omni-tts,提供 0.5B 及 16.8B-A3B 两个版本,是业界首个在单通道内联合生成语音、环境音和音乐的自回归模型。
模型通过定制 12.5Hz 连续 Tokenizer 实现 3.1Hz 的高效推理帧率,核心能力包括细粒度语音控制(语速、音调、音量、情感、方言精准调控,粤语控制准确率 93%,情感控制准确率 46.7%)、智能语音设计(100+ 内置优质语音,支持自然语言描述零样本语音设计)、沉浸式统一生成、高效推理及专业文本规范化(精准解析复杂数学表达式与化学方程式)。
官方评测显示,Ming-omni-tts-16.8B-A3B 在粤语生成、情感控制及零样本语音克隆等基准测试中达到 SOTA 水平,文本规范化能力媲美 Gemini-2.5 Pro,模型权重及推理代码已上线 Hugging Face、ModelScope 及 GitHub(部分相关网页解析失败,以开源平台内容为准)。
https://xqacmer.github.io/Ming-Flash-Omni-V2-TTS/、https://github.com/inclusionAI/Ming-omni-tts、https://modelscope.cn/studios/antsipan/ming-uniaudio-demo
Cohere Labs 发布多语言小型模型家族 Tiny Aya,包含 3.35B 参数基座模型 TinyAya-Base(覆盖 70+ 种语言,含多种低资源语言)及 4 个指令微调模型(TinyAya-Global 及针对南亚、西亚/非洲、欧亚区域优化的 TinyAya-Earth、TinyAya-Fire、TinyAya-Water),侧重低资源语言的深度支持而非浅覆盖。
模型上下文窗口为 8K,采用 CC-BY-NC 协议,支持在笔记本电脑及手机端离线运行,设计注重 tokenization 效率,减少跨语言脚本碎片化,降低本地部署的内存与计算需求。性能上,在翻译、摘要任务中表现优异,在数学推理等思维链任务上相对薄弱,在西 Asia 和非洲语言的生成式多语言 AI 领域达到同规模 SOTA 水平。
模型已在 Hugging Face、Kaggle 等平台开源,提供 GGUF 格式,同步发布大规模多语言微调数据集、基准测试及详细技术报告,旨在推动多语言 AI 生态多样化发展。
https://cohere.com/blog/cohere-labs-tiny-aya、https://github.com/Cohere-Labs/tiny-aya-tech-report/blob/main/tiny_aya_tech_report.pdf、https://huggingface.co/collections/CohereLabs/tiny-aya
字节跳动研究团队发布开源离散自回归多模态模型 BitDance,参数量 14B,专为视觉生成优化,通过大词汇量二元分词器、二元扩散头及下一块扩散范式,解决传统离散自回归模型重建差、采样难、生成慢的问题,支持每步并行预测最多 64 个视觉 Token,推理速度比标准 AR 模型快 30 倍以上。
模型发布 BitDance-14B-64x(每步预测 64Token,支持 1024px 分辨率)和 BitDance-14B-16x(每步预测 16Token,支持 512/1024px 分辨率)两个版本,配套 UniWeTok 分词器,在 DPG-Bench(88.28 分)和 GenEval(0.86 分)等文本到图像基准测试中表现优异,可生成高分辨率、照片级真实感图像。
模型采用 Apache 2.0 许可证,代码与权重已在 GitHub 和 Hugging Face 开源,提供在线演示及 PyTorch 原生、Diffusers 两种部署版本,相关论文已发布于 arXiv。
https://github.com/shallowdream204/BitDance、https://bitdance.csuhan.com/、https://huggingface.co/collections/shallowdream204/bitdance
Google DeepMind 发布先进音乐生成模型 Lyria 3,并在 Gemini App 中推出 Beta 版,支持文本转音轨、图像/视频转音轨两种核心功能:用户可描述流派、情绪、记忆等生成音乐,或上传照片、视频让 AI 根据视觉氛围自动谱曲并填写歌词,生成 30 秒音轨及由 Nano Banana 生成的自定义封面图。
相比前代,Lyria 3 有三大改进:自动生成歌词无需用户提供、增强对风格、人声和节奏的精细控制、生成更真实且音乐结构更复杂的曲目。服务面向 18 岁及以上用户开放,支持英语、德语、西班牙语、法语、印地语、日语、韩语和葡萄牙语,桌面端现已可用,移动端将在未来几天内上线,Google AI Plus、Pro 和 Ultra 订阅用户享有更高使用额度。
所有生成音轨均嵌入 SynthID 水印确保可追溯性,Gemini App 同步上线音频验证工具,可识别 AI 生成内容。
https://deepmind.google/models/lyria/、https://blog.google/innovation-and-ai/products/gemini-app/lyria-3/
Prime Intellect 发布开源推理模型 INTELLECT-3.1,采用 Mixture-of-Experts(MoE)架构,总参数 106B,活跃参数 A12B,基于 zai-org/GLM-4.5-Air-Base 构建,通过 prime-rl 框架结合验证器库进行强化学习训练,重点提升数学、编程、软件工程和 Agent 任务的能力。
模型支持在 2x H200s 上通过 vLLM 部署,官方已将模型、训练框架及相关环境以 MIT 和 Apache 2.0 协议完全开源,同步提供技术报告及部署示例代码,所有训练和 evaluation 环境可在 Environments Hub 获取。
阿里通义千问团队发布 Qwen3.5 模型家族多个型号,涵盖 Qwen3.5-Flash、Qwen3.5-35B-A3B、Qwen3.5-122B-A10B 和 Qwen3.5-27B,主打'More intelligence, less compute'(更强智能、更低算力)理念。
其中,Qwen3.5-35B-A3B 采用 MoE 架构,总参数 350 亿,激活参数 30 亿,性能超越前代 Qwen3-235B-A22B-2507 与 Qwen3-VL-235B-A22B,架构融合线性注意力与标准注意力提升效率;Qwen3.5-122B-A10B 与 Qwen3.5-27B 专注 Agent 场景复杂推理与规划,经长思维链和推理强化学习等四阶段训练,保障长周期任务逻辑一致性,Qwen3.5-27B 为 Dense 模型,支持多模态,适配单 GPU 运行;Qwen3.5-Flash 是 35B-A3B 的托管生产版本,专为低延迟工作流优化,默认支持 100 万 token 上下文,原生支持工具使用与函数调用。
目前用户可在 Qwen Chat 体验这些模型,所有模型权重已在 Hugging Face 和 ModelScope 发布,Flash API 及 vLLM 推理支持均已上线(部分境外链接无法访问,以国内开源平台内容为准)。
https://huggingface.co/collections/Qwen/qwen35、https://modelscope.cn/collections/Qwen/Qwen35、https://x.com/Alibaba_Qwen/status/2026339351530188939
Cursor 正式推出新版 Cloud Agents,赋予智能体独立云端虚拟机(VM),使其具备直接控制计算机的能力,可在云端沙盒环境中构建、运行、测试软件,并生成视频、截图等演示产出物,而非仅生成代码差异,标志着软件构建方式的重大变革。
Cloud Agents 为每个智能体提供完整开发环境,避免本地资源冲突,支持大规模并行运行,适配所有代码库,可在 Web、移动端、桌面应用、Slack 和 GitHub 等多平台工作。用户无需本地检出分支,即可随时接管智能体的远程桌面,直接操作和编辑修改后的软件。
官方数据显示,目前 Cursor 内部合并的 PR 中已有超过 30% 由云端沙盒自主运行的 Agent 创建,该功能已应用于构建新功能、复现漏洞、处理快速修复及执行完整 UI 测试等复杂任务(部分境外链接无法访问,以官方博客内容为准)。
Google 正式发布图像生成与编辑模型 Nano Banana 2(Gemini 3.1 Flash Image),融合 Nano Banana Pro 的高级智能与 Gemini Flash 的处理速度,兼顾高质量与高效率,以 1279 分位列 Image Arena 榜首。
模型集成 Gemini 真实世界知识库,支持通过实时网络搜索优化生成结果,核心升级包括:精准文本渲染与翻译能力(适配营销原型、贺卡等场景)、提升主体一致性(单次生成可维持最多 5 个角色和 14 个物体特征)、强化复杂指令遵循能力、支持 512px 至 4K 分辨率及多种宽高比,视觉上具备更 vibrant 的光影、丰富纹理和清晰细节。
Nano Banana 2 现已全面集成至 Gemini App、Google 搜索、Vertex AI、Flow、Google Ads 等产品,成为默认图像生成模型;API 成本相比 Pro 版下降约 50%,开发者可立即通过 API 接入。在 Gemini 应用中,付费订阅用户可通过菜单重新生成图像,使用 Nano Banana Pro。Google 同步深化溯源机制,结合 SynthID 技术与 C2PA 内容凭证,助力识别 AI 生成内容(部分相关网页解析失败,以官方发布信息为准)。
https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/、https://blog.google/innovation-and-ai/technology/developers-tools/build-with-nano-banana-2/

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online