1. 微软研究院:创建多用途、高质量 3D 资产
微软研究院团队提出了一种新颖的 3D 生成方法,用于创建多用途和高质量的 3D 资产。该方法基于统一的结构化潜在(SLAT)表征,它允许解码为不同的输出格式,如辐射场、3D 高斯和网格。这是通过将稀疏填充的 3D 网格与从强大的视觉基础模型中提取的密集多视角视觉特征相结合来实现的,既能全面捕捉结构(几何)和纹理(外观)信息,又能在解码过程中保持灵活性。
他们采用为 SLAT 量身定制的整流 transformers 作为 3D 生成模型,并在包含 500K 个不同对象的大型 3D 资产数据集上训练参数多达 20 亿参数的模型。他们的模型可在文本或图像条件下生成高质量的结果,大大超越了现有的方法,包括最近类似规模的方法。他们展示了灵活的输出格式选择和本地 3D 编辑功能,这是以前的模型所不具备的。
论文链接: https://arxiv.org/abs/2412.01506 项目地址: https://arxiv.org/pdf/2412.01506
2. 智源研究院推出视觉条件多视角扩散模型 See3D
近期的 3D 生成模型通常依赖于有限规模的 3D'黄金标签'或 2D 扩散先验来创建 3D 内容。然而,由于缺乏可扩展的学习范例,它们的性能受到 3D 先验的限制。
在这项工作中,北京智源人工智能研究院团队推出了一个视觉条件多视角扩散模型——See3D,该模型在大规模互联网视频上训练,可用于开放世界的 3D 创作。该模型的目的是通过从海量且快速增长的视频数据中获取视觉内容来获取 3D 知识。
为实现这一目标,他们首先使用一个拟议的数据整理管道来扩大训练数据的规模,该管道可自动过滤掉源视频中的多视角不一致和观察不足的内容。这样就得到了一个高质量、丰富多样的大规模多视角图像数据集,即 WebVi3D,其中包含来自 1600 万个视频片段的 3.2 亿帧。然而,从没有明确 3D 几何图形或相机姿态标注的视频中学习通用 3D 先验并不容易,而且为网络规模的视频标注姿态的成本过高。为了消除对姿势条件的需求,他们引入了一种创新的视觉条件——通过在掩码视频数据中添加随时间变化的噪声而生成的纯 2D 归纳视觉信号。最后,他们通过将 See3D 集成到基于翘曲的高保真 3D 生成流水线中,引入了新颖的视觉条件 3D 生成框架。
他们在单一和稀疏重建基准上进行的数值和视觉比较表明,See3D 在经济高效且可扩展的视频数据上经过训练后,实现了显著的零样本和开放世界生成能力,明显优于在昂贵且受限的 3D 数据集上训练的模型。
论文链接: https://arxiv.org/abs/2412.06699 项目地址: https://vision.baai.ac.cn/see3d
3. Turbo3D:超快速文本到 3D 生成
来自卡内基·梅隆大学、麻省理工学院和 Adobe Research 的研究团队提出了 Turbo3D,这是一种超快速文本到 3D 系统,能够在一秒内生成高质量的高斯拼接资产。
Turbo3D 采用快速的 4 步 4 视图扩散生成器和高效的前馈高斯重构器,两者均在潜空间运行。4 步 4 视图生成器是通过新颖的双教师方法提炼出的学生模型,该方法鼓励学生从多视图教师那里学习视图一致性,从单视图教师那里学习照片逼真度。
通过将高斯重构器的输入从像素空间转移到潜空间,他们消除了额外的图像解码时间,并将 Transformer 序列长度减半,从而实现最高效率。与之前的基线方法相比,他们的方法展示了卓越的 3D 生成效果,而运行时间仅为它们的一小部分。
论文链接: https://arxiv.org/abs/2412.04470 项目地址: https://turbo-3d.github.io/
4. 可持续思维链:让大语言模型在连续潜空间中推理
大语言模型(LLM)仅限在'语言空间'中进行推理,通常用思维链(CoT)来表达推理过程,从而解决复杂的推理问题。然而,来自 Meta 和加州大学圣地亚哥分校的研究团队认为,语言空间并不总是最佳推理空间。例如,大多数单词 token 主要是为了保持文本的连贯性,对推理并不重要,而一些关键 token 则需要复杂的规划,给 LLM 带来了巨大的挑战。
为了探索 LLM 在不受限制的潜空间中进行推理的潜力,而不是使用自然语言,他们提出了一种新的范式——可持续思维链(Coconut)。他们利用 LLM 的最后一个隐藏状态来表示推理状态(称为'连续思维')。他们没有将其解码为单词 token,而是将其反馈给 LLM,作为直接嵌入连续空间的后续输入。实验表明,Coconut 可以在多项推理任务中有效增强 LLM。


