腾讯混元图像3.0图生图开源，LMArena评测跻身全球第一梯队

腾讯混元图像 3.0 图生图模型开源

1 月 28 日，腾讯混元团队宣布开源混元图像 3.0 图生图版本（HunyuanImage 3.0-Instruct）。在最新全球权威大模型竞技场 LMArena 的图像编辑榜单中，混元图像 3.0 图生图进入第一梯队，成为全球最强的开源图生图模型之一。

此前 1 月 26 日，该模型已在元宝上线，用户只需上传图片并输入指令即可体验。网友利用该能力进行了多种创意实践，如给猫猫拍大片、爆改世界名画等。

![图片]

权威评测表现

在最新的 LMArena 图片编辑榜单上，腾讯混元图像 3.0 图生图位列全球第七，也是前七名里面唯一开源的模型。LMArena 官方祝贺混元图像 3.0 图生图'在图片编辑榜单中与 Nano-Banana 和 Seedream-4.5 等表现相当'。这一成绩来自于对模型图像编辑能力的全面盲测评估，包括指令遵循、编辑精确度和输出质量等多个维度。

![图片]

功能特性与应用

混元图像 3.0 图生图支持多样化的图片编辑与多图融合能力，包括增、删、改、风格变换、老照片修复、人物与文字修改等图片编辑功能，以及将多张照片中的元素提取出来合成新图片的能力。

对于普通用户，该模型可用于制作表情包、虚拟人物合拍、社交分享等日常场景。对于专业用户，它能够助力电商海报设计、游戏角色定制、创意图片制作等专业领域，显著提升创作效率。

技术架构与创新

混元图像 3.0 图生图版本基于混元图像 3.0 的原生多模态架构构建，将文本理解、视觉理解与图像生成深度融合于同一模型中。作为原生多模态模型，其核心创新在于'先思考，后编辑'的工作流程。当接收到用户输入的图片和提示词后，模型会首先理解图像内容，然后基于提示词进行推理，确定需要编辑的区域、详细步骤以及需要保留的区域，最终形成更加详细的编辑指令。

该模型基于 80B 总参数规模（激活参数约 13B）的混合专家原生多模态架构，在处理图像编辑任务时展现出强大的推理能力和精准的编辑效果。训练过程中，混元团队构建了千万量级的图生图数据，覆盖 80 多个任务，并注入了思维链数据，使模型能够学会先分析用户图像和意图，再输出详细编辑指令。后训练阶段采用自研 MixGRPO 算法，高效对齐用户偏好，大幅提升了指令响应和非编辑区域保持一致的效果。

开源与生态

2025 年 9 月，混元图像 3.0 文生图模型开源后，在 LMArena 全球文生图盲测榜单中位列第一。本次混元图像 3.0 图生图版本的开源是腾讯混元大模型系列的最新进展。开发者可通过 Github 和 Hugging Face 等主流开源平台获取混元图像 3.0 图生图模型的权重及完整代码。

腾讯混元团队一直在持续迭代通用基础能力和专业应用能力，研发了多种尺寸语言模型，以及图像、视频、3D 等完整多模态生成模型和工具集插件。目前混元系列大模型已在腾讯内部多个业务、外部多个行业和开源社区中被广泛接入。截止目前，腾讯混元的图像、视频衍生模型数量总数达到 3000 个，视频模型社区下载量超过 500 万，混元 3D 系列模型社区下载量超过 300 万，已成为全球最受欢迎的开源模型系列之一。