又一个大模型开源了！这次是腾讯，文生图免费商用

优质文章学习记录

07 Feb 2025 — 11 min read

中文 AI 社区迎来了一个好消息：与 Sora 同架构的开源文生图大模型来了！

5 月 14 日，腾讯宣布旗下混元文生图大模型全面升级并全面开源，目前已在 Hugging Face 平台及 GitHub 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

www.zeeklog.com - 又一个大模型开源了！这次是腾讯，文生图免费商用

据了解，这是业内首个中文原生的 DiT 架构文生图开源模型，支持中英文双语输入及理解，参数量 15 亿。

升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构，即全新的 Hunyuan-DiT 架构，不仅可以支持文生图，也可以作为视频等多模态视觉生成的基础。

为了全面比较 Hunyuan-DiT 与其他文生图模型的生成能力，腾讯混元团队构建 4 个维度的测试集，邀请超过 50 名专业评估人员进行评估，包括文本图像一致性、排除 AI 伪影、主题清晰度、审美。

从下表结果可以看到，采用 Hunyuan-DiT 架构的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型，是目前效果最好的开源文生图模型，整体能力属于国际领先水平。

与其他 SOTA 模型的比较。

与这些 SOTA 模型的定性比较结果如下图所示。

全新 DiT 架构

腾讯混元文生图要做开源模型 No.1

大模型的优异表现，离不开领先的技术架构。

升级后的腾讯混元文生图大模型采用了全新的 DiT 架构（DiT 即 Diffusion With Transformer），这是 OpenAI Sora 和 Stable Diffusion 3 的同款架构和关键技术，是一种基于 Transformer 架构的扩散模型。

过去，视觉生成扩散模型主要基于 U-Net 架构，但随着参数量增加，基于 Transformer 架构的扩散模型展现了更好的扩展性，有助于进一步提升模型生成质量及效率。Sora 很好地说明了这一点。

腾讯混元是业界最早探索并应用大语言模型结合 DiT 结构的文生图模型之一。从 2023 年 7 月起，腾讯混元文生图团队就明确了基于 DiT 架构的模型方向，并启动了新一代模型研发。今年初，混元文生图大模型已全面升级为 DiT 架构。

Hunyuan-DiT 的模型结构如下图 7 所示，采用了创新的网络架构，结合了双语 CLIP 和多语言 T5 编码器，通过精心设计的数据管道进行训练和优化，支持多轮对话，能够根据上下文生成并完善图像。

在 DiT 架构之上，腾讯混元团队支持了中英双语文本提示生成图像，并在算法层面优化模型的长文本理解能力，能够支持最多 256 字符的内容输入，达到行业领先水平。

此外，混元文生图大模型在算法层面创新实现了多轮生图和对话能力，可实现在一张初始生成图片的基础上，通过自然语言描述进行调整，从而达到更满意的效果。

更多多轮对话生成示例如下图所示。

中文原生也是腾讯混元文生图大模型的一大亮点。此前，像 Stable Diffusion 等主流开源模型核心数据集以英文为主，对中国的语言、美食、文化、习俗都理解不够。

作为首个中文原生的 DiT 模型，混元文生图具备了中英文双语理解及生成能力，在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。我们可以看以下一些生成示例。

腾讯混元文生图还更擅长细粒度文本提示生成。

评测结果显示，新一代腾讯混元文生图大模型视觉生成整体效果，相比前代提升超过了 20%，不仅在语义理解、画面质感与真实性方面全面提升，而且在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

这一次

腾讯混元选择全面开源文生图模型

腾讯混元文生图能力，已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初，腾讯广告基于腾讯混元大模型，发布了一站式 AI 广告创意平台腾讯广告妙思，可为广告主提供文生图、图生图、商品背景合成等多场景创意工具，有效提高了广告生产及投放效率。

腾讯混元文生图大模型的开源，填补了中文原生 DiT 文生图架构的缺失，有助于更多的开发者和创作者参与进来，一起探索、共创基于 DiT 架构的视觉生成生态，更好地去验证、挖掘这个技术架构的潜力。

腾讯文生图负责人芦清林表示：「腾讯混元文生图的研发思路就是实用，坚持从实践中来，到实践中去。此次把最新一代模型完整开源出来，是希望与行业共享腾讯在文生图领域的实践经验和研究成果，丰富中文文生图开源生态，共建下一代视觉生成开源生态，推动大模型行业加速发展。」

基于腾讯开源的文生图模型，开发者及企业无需从头训练，即可以直接用于推理，并可基于混元文生图打造专属的 AI 绘画应用及服务，能够节约大量人力及算力。透明公开的算法，也让模型的安全性和可靠性得到保障。

此外，基于开放、前沿的混元文生图基础模型，也有利于在以 Stable Diffusion 等为主的英文开源社区之外，丰富以中文为主的文生图开源生态，形成更多样原生插件，推动中文文生图技术研发和应用。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。