华为诺亚发布 PixArt-Σ:基于 DiT 架构的 0.6B 4K 文生图模型
华为诺亚方舟实验室发布 PixArt-Σ,一款基于 DiT 框架的 0.6B 参数文生图模型。该模型采用由弱到强训练策略,通过高质量数据集 Internal-Σ、高效 Token 压缩及 VAE 升级,实现了 4K 分辨率图像生成。相比 SDXL 等模型,PixArt-Σ 在参数量大幅减少的情况下,保持了与顶级闭源产品相当的美观度及文本对齐能力,显著降低了训练成本。

华为诺亚方舟实验室发布 PixArt-Σ,一款基于 DiT 框架的 0.6B 参数文生图模型。该模型采用由弱到强训练策略,通过高质量数据集 Internal-Σ、高效 Token 压缩及 VAE 升级,实现了 4K 分辨率图像生成。相比 SDXL 等模型,PixArt-Σ 在参数量大幅减少的情况下,保持了与顶级闭源产品相当的美观度及文本对齐能力,显著降低了训练成本。

众所周知,开发顶级的文生图(Text-to-Image, T2I)模型需要消耗巨大的计算资源和数据积累,这导致资源有限的个人研究者或小型团队难以承担,成为了 AIGC(人工智能内容生成)社区创新的一大阻碍。随着时间推移,AIGC 社区虽然能获得持续更新的、更高质量的数据集和更先进的算法,但如何将这些新元素高效地整合进现有模型,依托有限的资源让模型变得更强大,一直是关键问题。
为了解决这一挑战,华为诺亚方舟实验室等研究机构的研究团队提出了一种新的训练方法:由弱到强式训练(Weak-to-Strong Training)。基于此方法,他们发布了名为 PixArt-Σ 的文生图模型。该模型与 Sora 一样采用了 DiT(Diffusion Transformer)框架,支持 4K 图像生成,且参数量仅为 0.6B。

论文标题:PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
该团队的研究基于其去年十月提出的一种高效的文生图训练方法 PixArt-α。PixArt-α 是 DiT(扩散 Transformer)框架的一种早期尝试。DiT 架构将扩散模型的 U-Net 结构替换为 Transformer 结构,利用自注意力机制处理全局依赖关系。随着 Sora 登上热搜以及 Stable Diffusion 层出不穷的应用,DiT 架构的有效性得到了研究社区越来越多工作的验证,例如 PixArt, Dit-3D, GenTron 等。
该团队使用 PixArt-α 的预训练基础模型,通过整合高级元素以促进其持续提升,最终得到了一个更加强大的模型 PixArt-Σ。图 1 展示了一些生成结果示例。

为了实现由弱到强式训练,造出 PixArt-Σ,该团队采用了以下主要改进措施。
数据质量直接决定了生成模型的上限。该团队收集了一个高质量数据集 Internal-Σ,其主要关注两个方面:
(1) 高质量图像:该数据集包含 3300 万张来自互联网的高分辨率图像,全都超过 1K 分辨率,包括 230 万张分辨率大约为 4K 的图像。这些图像的主要特点是美观度高并且涵盖广泛的艺术风格,确保了模型能学习到多样化的视觉特征。
(2) 密集且准确的描述:为了给上述图像提供更精准和详细的描述,该团队将 PixArt-α 中使用的 LLaVA 替换成了一种更强大的图像描述器 Share-Captioner。此外,为了提升模型对齐文本概念和视觉概念的能力,该团队将文本编码器(即 Flan-T5)的 token 长度扩展到了大约 300 词。他们观察到,这些改进可以有效消除模型产生幻觉的倾向,实现更高质量的文本 - 图像对齐。
下表展示了不同数据集的统计数据对比。

为了增强 PixArt-α,该团队将其生成分辨率从 1K 提升到了 4K。为了生成超高分辨率(如 2K/4K)的图像,token 数量会大幅增长,这就会导致计算需求呈指数级增长,显存占用也会急剧上升。
为了解决这一难题,他们引入了一种专门针对 DiT 框架调整过的自注意力模块,其中使用了键和值 token 压缩(KV Compression)。具体来说,他们使用了步长为 2 的分组卷积来执行键和值的局部聚合。这种设计能够在保留关键空间信息的同时,显著减少序列长度。

此外,该团队还采用了一种专门设计的权重初始化方案,可在不使用 KV(键 - 值)压缩的前提下从预训练模型实现平滑适应。这一设计可有效将高分辨率图像生成的训练和推理时间降低大约 34%,极大地提升了效率。
该团队提出了多种微调技术,可快速高效地将弱模型调整为强模型。其中包括:
(1) 替换使用了一种更强大的变分自动编码器(VAE):将 PixArt-α 的 VAE 替换成了 SDXL 的 VAE。SDXL 的 VAE 在重建质量和细节保持上表现更佳,有助于提升最终图像的清晰度。
(2) 从低分辨率到高分辨率扩展:这个过程为了应对性能下降的问题,他们使用了位置嵌入(PE)插值方法。这使得模型能够适应更高的分辨率输入,而无需从头训练。
(3) 从不使用 KV 压缩的模型演进为使用 KV 压缩的模型:逐步增加复杂度,确保训练稳定性。
实验结果验证了由弱到强式训练方法的可行性和有效性。通过上述改进,PixArt-Σ 能以尽可能低的训练成本和尽可能少的模型参数生成高质量的 4K 分辨率图像。
训练细节方面,对于执行条件特征提取的文本编码器,该团队按照 Imagen 和 PixArt-α 的做法使用了 T5 的编码器(即 Flan-T5-XXL)。基础扩散模型就是 PixArt-α。不同于大多数研究提取固定的 77 个文本 token 的做法,这里将文本 token 的长度从 PixArt-α 的 120 提升到了 300,因为 Internal-Σ 中整理的描述信息更加密集,可以提供高细粒度的细节。另外 VAE 使用了来自 SDXL 的已预训练的冻结版 VAE。其它实现细节与 PixArt-α 一样。
模型是基于 PixArt-α 的 256px 预训练检查点开始微调的,并使用了位置嵌入插值技术。最终的模型(包括 1K 分辨率)是在 32 块 V100 GPU 上训练的。他们还额外使用了 16 块 A100 GPU 来训练 2K 和 4K 图像生成模型。
评估指标方面,为了更好地展示美观度和语义能力,该团队收集了 3 万对高质量文本 - 图像,以对最强大的文生图模型进行基准评估。这里主要是通过人类和 AI 偏好来评估 PixArt-Σ,因为 FID 指标可能无法适当地反映生成质量。
图像质量评估:该团队定性地比较了 PixArt-Σ 与闭源文生图(T2I)产品和开源模型的生成质量。相比于开源模型 SDXL 和该团队之前的 PixArt-α,PixArt-Σ 生成的人像的真实感更高,并且也有更好的语义分析能力。与 SDXL 相比,PixArt-Σ 能更好地遵从用户指令。

PixArt-Σ 不仅优于开源模型,而且与当前的闭源产品相比也颇具竞争力。PixArt-Σ 生成的图像的美观程度足以比肩当前最顶级的文生图产品,比如 DALL・E 3 和 MJV6。此外,PixArt-Σ 还展现出了与文本 prompt 细粒度对齐的卓越能力。
图 2 展示了一张 PixArt-Σ 生成 4K 高分辨率图像的结果,可以看到生成结果很好地遵从了复杂且信息密集的文本指令。

生成高分辨率图像:新方法可以直接生成 4K 分辨率的图像,而无需任何后处理。此外,PixArt-Σ 也能准确遵从用户提供的复杂和详细的长文本。因此,用户无需费心去设计 prompt 也能得到让人满意的结果。
人类 / AI(GPT-4V)偏好研究:该团队也研究了人类和 AI 对生成结果的偏好。他们收集了 6 个开源模型的生成结果,包括 PixArt-α、PixArt-Σ、SD1.5、Stable Turbo、Stable XL、Stable Cascade 和 Playground-V2.0。他们开发了一个网站,可通过展现 prompt 和对应的图像来收集人类偏好反馈。
人类评估者可根据生成质量以及与 prompt 的匹配程度来给图像排名。可以看出人类评估者对 PixArt-Σ 的喜爱胜过其它 6 个生成器。相比于之前的文生图扩散模型,如 SDXL(2.6B 参数)和 SD Cascade(5.1B 参数),PixArt-Σ 能以少得多的参数(0.6B)生成质量更高且更符合用户 prompt 的图像。

此外,该团队还使用了先进的多模态模型 GPT-4 Vision 来执行 AI 偏好研究。他们的做法是给 GPT-4 Vision 提供两张图像,让它基于图像质量和图像 - 文本对齐程度进行投票。结果见图 9 中的橙色和绿色条形图,可以看到情况与人类评估基本一致。
PixArt-Σ 的成功发布标志着文生图模型在参数效率上的重大突破。通过仅使用 0.6B 的参数量,它实现了以往需要数倍参数才能达到的生成质量。这对于降低 AI 应用的门槛具有重要意义。
首先,成本效益显著提升。较小的模型意味着更低的推理成本和更快的生成速度,使得在边缘设备或低成本服务器上部署高质量文生图成为可能。其次,训练资源优化。通过由弱到强的训练策略,团队仅额外使用 PixArt-α 所需的 9% 的 GPU 时间,就得到了能生成 1K 高分辨率图像的模型。这种高效的训练范式可以推广到其他大模型领域。
最后,技术通用性。DiT 框架结合 Token 压缩和高质量数据清洗的策略,为未来的多模态大模型发展提供了参考路径。随着技术的进一步成熟,我们有望看到更多轻量级但高性能的生成式 AI 应用落地,推动 AIGC 生态的普惠化发展。
综上所述,PixArt-Σ 不仅在技术指标上达到了行业领先水平,更在方法论上为资源受限场景下的大模型训练提供了新的思路。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online