AIGC(AI Generated Content)即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT,以及 Dall·E 2、Stable Diffusion 等文生图模型,都属于 AIGC 的典型案例,它们通过借鉴现有的、人类创造的内容来快速完成内容创作。
技术前瞻
OpenAI 推出 Shap·E,13 秒完成出图
随着生成式图像模型的爆炸性增长,人们对为音频、视频和 3D 资产等模态训练类似的生成式模型的兴趣也越来越大。然而,如何以一种高效生成并易于在下游应用中使用的方式来表示 3D 资产却不太清楚。
该研究提出了一个用于 3D 资产的条件生成模型 Shap·E。与最近产生单一输出表示的 3D 生成模型不同,Shap·E 直接生成隐含函数的参数,这些参数可以被渲染成纹理网格和神经辐射场。
来自 OpenAI 的研究人员分两个阶段训练 Shap·E:首先,他们训练了一个编码器,将 3D 资产映射为隐含函数的参数;其次,在编码器的输出上训练一个条件扩散模型。当在一个大型的 3D 和文本数据的数据集上进行训练时,产生的模型能够在几秒钟内生成复杂和多样的 3D 资产。
下图为由 Shap·E 生成的部分文本条件网格,每个样本在单个 NVIDIA V100 GPU 上用时 13 秒生成,且不需要单独的文本 - 图像模型。

与显式生成模型 Point·E 相比,Shap·E 收敛得更快,且能达到相当或更好的样本质量,尽管它所建模的是一个更高维的、多表现的输出空间。
论文链接:
https://arxiv.org/abs/2305.02463v1
为扩散模型增加上下文学习能力
机器学习的最新进展,特别是在自然语言处理(NLP)领域,T5、GPT-3 和 GPT-4 等模型已经成功地应用于情感分析、问题回答、机器翻译和文本生成等任务中,这要归功于这些模型能够从上下文中学习的能力。
通过适当设计提示结构和上下文学习,LLMs 可以将多语言任务的预训练结合起来,并很好地泛化到以前未见过的任务。
该研究提出了一个在基于扩散的生成模型中实现上下文学习的框架——Prompt Diffusion。给定一对特定任务的示例图像,如 depth from/to image 和 scribble from/to image,以及文本指导,该模型可以自动理解底层任务,并根据文本指导在新的查询图像上执行相同的任务。
下图展示了 Prompt Diffusion 在条件性图像生成任务中的上下文学习能力:在一个由特定任务的图像和文本指导的示例组合的提示下,给定一个新的查询图像,其类型与示例组合中的源图像一致,Prompt Diffusion 可以理解所需的任务,并在已见(训练)和未见(新)的任务类型上产生相应的输出图像。

据介绍,Prompt Diffusion 是第一个基于扩散的视觉语言基础模型,在训练任务上展示了高质量的上下文生成,并有效地推广到具有各自提示的新的、未见过的视觉任务。
论文链接:
https://arxiv.org/abs/2305.01115v1
让你的图表'燃'起来
图像可视化将数据和语义上下文无缝地集成到视觉表现中,以一种既吸引人又充满信息量的方式传达复杂的信息。
广泛的研究致力于开发创作工具,以简化图形可视化的创建。然而,主流工作大多遵循检索和编辑管道,严重依赖于从专用语料库中检索的视觉元素,这通常会损害数据的完整性。文本指导的生成方法正在出现,但由于其预定义的识别实体,可能具有有限的适用性。
该研究提出了一个基于文本到图像生成模型将语义上下文嵌入到图表中的新系统——ChartSpark,ChartSpark 根据文本输入中传达的语义上下文和嵌入在普通图表中的数据信息生成图形可视化。该方法对前景和背景的图像生成都是通用的,满足了对现有图像可视化的实证研究中所确定的设计实践。



