腾讯混元文生图大模型开源：Sora 同架构，中文原生支持 16s 视频生成

腾讯混元文生图大模型宣布开源，采用与 Sora 相同的 DiT 架构，参数量 15 亿。该模型支持中英文双语输入，具备长文本理解及多轮对话生图能力，并支持 16 秒视频生成及 3D 模型构建。团队表示开源旨在推动业界技术升级，解决 U-Net 架构扩展性瓶颈，未来计划继续扩大参数量并探索多模态统一表达。模型已在广告、游戏、社交等业务场景落地，后续将继续优化生成速度与质量，并探索商业化路径。

涅槃凤凰发布于 2025/2/6更新于 2026/7/2430 浏览

腾讯混元文生图大模型开源：Sora 同架构，中文原生支持 16s 视频生成

5 月 14 日，腾讯旗下的混元文生图大模型宣布对外开源，目前已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

随后在 5 月 17 日，腾讯集团副总裁蒋杰在腾讯云生成式 AI 产业应用峰会上表示，腾讯混元大模型通过持续迭代，目前整体性能已居国内第一梯队，部分中文能力已追平 GPT-4。

针对备受关注的生视频能力，腾讯混元支持文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力，已经支持 16s 视频生成。在生 3D 层面，腾讯混元已布局文/图生 3D，单图仅需 30 秒即可生成 3D 模型。

技术架构与优势

混元文生图大模型是业内首个中文原生的 DiT（Diffusion Models with Transformer）架构文生图开源模型，这也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术，是一种基于 Transformer 架构的扩散模型。混元文生图大模型支持中英文双语输入及理解，参数量 15 亿。

过去，视觉生成扩散模型主要基于 U-Net 架构，但随着参数量的提升，基于 Transformer 架构的扩散模型展现出了更好的扩展性，有助于进一步提升模型的生成质量及效率。腾讯混元是业界最早探索并应用大语言模型结合 DiT 结构的文生图模型之一。

在 DiT 架构之上，腾讯混元团队在算法层面优化了模型的长文本理解能力，能够支持最多 256 字符的内容输入，达到行业领先水平。同时，在算法层面创新实现了多轮生图和对话能力，可实现在一张初始生成图片的基础上，通过自然语言描述进行调整，从而达到更满意的效果。

腾讯混元文生图能力，已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初，腾讯广告基于腾讯混元大模型，发布了一站式 AI 广告创意平台腾讯广告妙思，可为广告主提供文生图、图生图、商品背景合成等多场景创意工具，有效提高了广告生产及投放效率。

开源动机与技术思考

混元文生图大模型的发布会后，腾讯文生图负责人芦清林等人接受了多家媒体群访，分享了腾讯文生图的进展和对 DiT 架构开发过程中的心得体会，以及为何选择将混元文生图大模型开源。

为什么开源？

问：为什么在今年这个节点做开源？

芦清林： 现在做开源其实有两个考虑，一方面我们从去年 7 月份开始做研发，那个时候其实大家都不知道有 DiT 这个东西，那个时候我们相对来说是在业界做得比较早的，也经过了比较长时间的打磨，所以现在是一个比较 ok 的阶段，所以对我们自己来说我们是 ready，我们是具备开源条件的。

第二我们为什么选择在此时此刻选择开源，我们已经看到过去基于 U-Net 架构这套已经逐步越来越少的人去用它，大家更多是在 DiT 这样的结构上去建设。但是我们也看到很多的应用由于过去做了很多的工作，始终还保持在 Stable Diffusion 那个阶段上，同时也因为没有开源 DiT，所以导致他们没有办法切换到新一代的技术能力上来，所以一方面我们也 ready 了，第二方面，目前业界也是需要的，所以就干了这个事。

曾经的 AI 小模型时代其实开不开源差别也没有特别大，但现在有一个问题在于，如果业界不开放一些大体量的 Foundation model，独立的研究人员甚至一个大型的实验室都是很难做出一个好的 Foundation model，因为数据及其资源这些成本的问题，所以如果没有人把这样的 Foundation model 拿出来的话，未来一些很多的优化工作没办法进行。

问：现在开源和闭源的文生图技术能力差距是在逐渐拉大还是逐渐缩小？

芦清林： 我觉得在我们开源之前是在逐渐拉大，但是希望通过我们的开源能把这个差距变小。

问：刚才听您说要生成一个社区，把技术报告公开，但是没有提到数据这块，数据这块会公开吗？

芦清林： 对于训练的数据来说，一方面它有很多业务层面自己的数据，所以我们对这个东西我们自己可以用，但是 share 这件事情我们自己说了不算，比如很多的业务数据，这个东西我们说不了不算，这个还会有很多法律相关的东西。

问：对大模型开源有哪些看法，或者现在做大模型开源还有哪些难题需要突破？

芦清林： 我觉得最重要的点首先得自己做得好，如果做得不好的话拿出来开源意义是不大的，把一个模型做得足够好地让大家能用起来，这一点很重要，也是必要的。

问：市面上有种说法是闭源的成本会更低效率更高，关于这一点怎么看？另外现在开源文生图后续会开放其他模型的吗？

芦清林： 我们原来其实走的是闭源这条路线，包括去年都是把模型迭代，再把接口开放给大家用。但现在我们发现在开源社区能让大家都参与进来，这件事情是非常好的，共建能让这件事情能走得更快。

我们后续也会做一些开源的工作，包括后面的生文我们也在考虑如何能把它开源出来，但首先我们在考虑如何让大家能在用得起来。

腾讯混元文生图大模型开源：Sora 同架构，中文原生支持 16s 视频生成

腾讯混元文生图大模型开源：Sora 同架构，中文原生支持 16s 视频生成

技术架构与优势

开源动机与技术思考

为什么开源？

DiT 会是多模态的答案吗？

更多推荐文章

相关免费在线工具

性能指标「最强」？

如何发掘场景需求？

接下来的挑战

总结

更多推荐文章

相关免费在线工具

腾讯混元文生图大模型开源：Sora 同架构，中文原生支持 16s 视频生成

腾讯混元文生图大模型开源：Sora 同架构，中文原生支持 16s 视频生成

技术架构与优势

开源动机与技术思考

为什么开源？

DiT 会是多模态的答案吗？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

性能指标「最强」？

如何发掘场景需求？

接下来的挑战

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具