3D 生成技术近年来取得了显著进展,但如何保证生成模型的几何质量、泛化性和可控性仍是核心挑战。检索增强生成(RAG)技术在自然语言处理和图像生成领域已证明其有效性,而首个将 RAG 引入 3D 生成的框架——Phidias,为此提供了新的解决方案。
Phidias 是由香港城市大学、上海人工智能实验室、香港中文大学和南洋理工大学 S-Lab 的研究团队联合提出的一种参考增强的扩散生成模型。该框架成功统一了文生 3D、图生 3D 和 3D 到 3D 生成等多种任务,通过利用检索到的或用户提供的 3D 参考模型来指导生成过程,显著提升了生成结果的质量。
核心贡献
本文的主要贡献包括:
- 提出了首个基于 3D 参考的、3D 感知的多视图扩散生成模型。
- 设计了三个关键组件以增强算法性能,解决了传统方法在 3D 一致性上的不足。
- 用单个算法统一了可控的文生 3D、图生 3D 和 3D 到 3D 生成等任务,支持各种可控 3D 生成的下游应用。
- 大量实验表明,该算法在定量和定性的比较评估中都显著优于已有算法。
技术架构与流程
Phidias 采用两阶段生成策略:第一阶段为基于参考增强的多视图生成,第二阶段为基于稀疏视角的 3D 重建。
第一阶段:基于参考增强的多视图生成
在这一阶段,目标是将额外的 3D 参考模型引入预训练的多视图生成模型,以提高多视图生成的 3D 一致性、泛化性和可控性。为了将 3D 参考模型集成到扩散模型的去噪过程中,研究人员将其转化为多视图正则坐标图(Canonical Coordinate Maps, CCMs)。CCM 将 3D 参考模型表面点的 3D 位置坐标保存为 RGB 值,仅保留几何信息而移除纹理信息。
选择 CCM 作为 3D 表示主要基于两点原因:
- 兼容性:相比于 3D 网格和体素,多视图图片自带与输出图片相同的相机角度,作为 2D 扩散模型的输入条件具有更好的效能。
- 相似性:3D 参考模型通常与概念图在几何结构上相似,但在纹理上不同,这有助于引导形状生成。
为了充分利用预训练的多视图生成模型,研究人员冻结了预训练网络参数,仅需训练用于处理参考模型 CCMs 的条件网络。然而,3D 参考模型在大部分情况下并不严格对齐于概念图片,尤其是在局部细节上会有很大差异。传统的 ControlNet 被设计用于严格对齐的图像到图像生成任务,并不适用于此场景。为此,研究团队提出了三个关键组件来提升模型性能:
- 元控制网络(Meta-ControlNet):由基础控制网络和元控制器构成。基础控制网络以参考模型的 CCMs 作为输入产生控制信号;元控制器作为'开关',动态根据概念图和 3D 参考模型的相似度调节控制信号强度,防止冲突。
- 动态参考路由模块(Dynamic Reference Routing):针对参考模型与概念图在局部细节上的不一致性,该模块基于扩散模型的去噪时间步动态调整参考模型的分辨率。在初始去噪阶段(高噪声水平)使用低分辨率 CCMs 辅助全局结构生成,避免冲突;随着去噪进入中、低噪声水平,逐渐提高分辨率以细化局部细节。
- 自我参考增强模块(Self-Reference Augmentation):有效利用 3D 参考模型进行自监督训练。方案使用 3D 模型的渲染作为概念图,原 3D 模型本身作为参考模型和目标模型。通过对原 3D 模型进行增强模拟未对齐情况,并设计渐进式课程学习策略,解决了检索训练集中参考模型与目标模型差异过大导致的学习困难问题。
第二阶段:基于稀疏视角的 3D 重建
在第一阶段生成的多视图图像基础上,通过基于稀疏视角的 3D 重建获得最终的 3D 模型。该阶段可以建立在任意的稀疏视图重建方法之上,确保最终输出的 3D 资产具有高保真度。
应用场景与效果
Phidias 展示了强大的多模态生成能力:
- 检索增强的图生 3D:利用检索到的相似 3D 模型作为参考,显著提升生成几何质量。
- 检索增强的文生 3D:结合文本描述与 3D 参考,实现更精准的语义理解与形状生成。
- 主题一致的 3D 到 3D 生成:仅需自参考输入的 3D 模型即可支持该功能,将相关研究所需时间从约 1 小时压缩至不到 10 秒。
- 交互式 3D 生成:用户可通过自定义粗略 3D 形状作为参考,不断调整所生成模型的几何结构。
- 高保真 3D 模型补全:预测和填充不完整 3D 模型的缺失部分,同时通过自参考原始 3D 模型保持原有结构的完整性和细节。
资源链接
项目主页:https://RAG-3D.github.io/ 代码仓库:


