腾讯混元文生图大模型开源:Sora 同架构,中文原生支持 16s 视频生成
5 月 14 日,腾讯旗下的混元文生图大模型宣布对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
随后在 5 月 17 日,腾讯集团副总裁蒋杰在腾讯云生成式 AI 产业应用峰会上表示,腾讯混元大模型通过持续迭代,目前整体性能已居国内第一梯队,部分中文能力已追平 GPT-4。
针对备受关注的生视频能力,腾讯混元支持文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力,已经支持 16s 视频生成。在生 3D 层面,腾讯混元已布局文/图生 3D,单图仅需 30 秒即可生成 3D 模型。
技术架构与优势
混元文生图大模型是业内首个中文原生的 DiT(Diffusion Models with Transformer)架构文生图开源模型,这也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术,是一种基于 Transformer 架构的扩散模型。混元文生图大模型支持中英文双语输入及理解,参数量 15 亿。
过去,视觉生成扩散模型主要基于 U-Net 架构,但随着参数量的提升,基于 Transformer 架构的扩散模型展现出了更好的扩展性,有助于进一步提升模型的生成质量及效率。腾讯混元是业界最早探索并应用大语言模型结合 DiT 结构的文生图模型之一。
在 DiT 架构之上,腾讯混元团队在算法层面优化了模型的长文本理解能力,能够支持最多 256 字符的内容输入,达到行业领先水平。同时,在算法层面创新实现了多轮生图和对话能力,可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,从而达到更满意的效果。
腾讯混元文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型,发布了一站式 AI 广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具,有效提高了广告生产及投放效率。
开源动机与技术思考
混元文生图大模型的发布会后,腾讯文生图负责人芦清林等人接受了多家媒体群访,分享了腾讯文生图的进展和对 DiT 架构开发过程中的心得体会,以及为何选择将混元文生图大模型开源。
为什么开源?
问:为什么在今年这个节点做开源?
芦清林: 现在做开源其实有两个考虑,一方面我们从去年 7 月份开始做研发,那个时候其实大家都不知道有 DiT 这个东西,那个时候我们相对来说是在业界做得比较早的,也经过了比较长时间的打磨,所以现在是一个比较 ok 的阶段,所以对我们自己来说我们是 ready,我们是具备开源条件的。
第二我们为什么选择在此时此刻选择开源,我们已经看到过去基于 U-Net 架构这套已经逐步越来越少的人去用它,大家更多是在 DiT 这样的结构上去建设。但是我们也看到很多的应用由于过去做了很多的工作,始终还保持在 Stable Diffusion 那个阶段上,同时也因为没有开源 DiT,所以导致他们没有办法切换到新一代的技术能力上来,所以一方面我们也 ready 了,第二方面,目前业界也是需要的,所以就干了这个事。
曾经的 AI 小模型时代其实开不开源差别也没有特别大,但现在有一个问题在于,如果业界不开放一些大体量的 Foundation model,独立的研究人员甚至一个大型的实验室都是很难做出一个好的 Foundation model,因为数据及其资源这些成本的问题,所以如果没有人把这样的 Foundation model 拿出来的话,未来一些很多的优化工作没办法进行。
问:现在开源和闭源的文生图技术能力差距是在逐渐拉大还是逐渐缩小?
芦清林: 我觉得在我们开源之前是在逐渐拉大,但是希望通过我们的开源能把这个差距变小。
问:刚才听您说要生成一个社区,把技术报告公开,但是没有提到数据这块,数据这块会公开吗?
芦清林: 对于训练的数据来说,一方面它有很多业务层面自己的数据,所以我们对这个东西我们自己可以用,但是 share 这件事情我们自己说了不算,比如很多的业务数据,这个东西我们说不了不算,这个还会有很多法律相关的东西。
问:对大模型开源有哪些看法,或者现在做大模型开源还有哪些难题需要突破?
芦清林: 我觉得最重要的点首先得自己做得好,如果做得不好的话拿出来开源意义是不大的,把一个模型做得足够好地让大家能用起来,这一点很重要,也是必要的。
问:市面上有种说法是闭源的成本会更低效率更高,关于这一点怎么看?另外现在开源文生图后续会开放其他模型的吗?
芦清林: 我们原来其实走的是闭源这条路线,包括去年都是把模型迭代,再把接口开放给大家用。但现在我们发现在开源社区能让大家都参与进来,这件事情是非常好的,共建能让这件事情能走得更快。
我们后续也会做一些开源的工作,包括后面的生文我们也在考虑如何能把它开源出来,但首先我们在考虑如何让大家能在用得起来。


