AIGC(AI Generated Content)即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT,以及 Dall·E 2、Stable Diffusion 等文生图模型,都属于 AIGC 的典型案例,它们通过借鉴现有的、人类创造的内容来快速完成内容创作。
技术前瞻
OpenAI 推出 Shap·E,13 秒完成出图
随着生成式图像模型的爆炸性增长,人们对为音频、视频和 3D 资产等模态训练类似的生成式模型的兴趣也越来越大。然而,如何以一种高效生成并易于在下游应用中使用的方式来表示 3D 资产却不太清楚。
该研究提出了一个用于 3D 资产的条件生成模型 Shap·E。与最近产生单一输出表示的 3D 生成模型不同,Shap·E 直接生成隐含函数的参数,这些参数可以被渲染成纹理网格和神经辐射场。
来自 OpenAI 的研究人员分两个阶段训练 Shap·E:首先,他们训练了一个编码器,将 3D 资产映射为隐含函数的参数;其次,在编码器的输出上训练一个条件扩散模型。当在一个大型的 3D 和文本数据的数据集上进行训练时,产生的模型能够在几秒钟内生成复杂和多样的 3D 资产。
下图为由 Shap·E 生成的部分文本条件网格,每个样本在单个 NVIDIA V100 GPU 上用时 13 秒生成,且不需要单独的文本 - 图像模型。

与显式生成模型 Point·E 相比,Shap·E 收敛得更快,且能达到相当或更好的样本质量,尽管它所建模的是一个更高维的、多表现的输出空间。
论文链接:
https://arxiv.org/abs/2305.02463v1
为扩散模型增加上下文学习能力
机器学习的最新进展,特别是在自然语言处理(NLP)领域,T5、GPT-3 和 GPT-4 等模型已经成功地应用于情感分析、问题回答、机器翻译和文本生成等任务中,这要归功于这些模型能够从上下文中学习的能力。
通过适当设计提示结构和上下文学习,LLMs 可以将多语言任务的预训练结合起来,并很好地泛化到以前未见过的任务。
该研究提出了一个在基于扩散的生成模型中实现上下文学习的框架——Prompt Diffusion。给定一对特定任务的示例图像,如 depth from/to image 和 scribble from/to image,以及文本指导,该模型可以自动理解底层任务,并根据文本指导在新的查询图像上执行相同的任务。
下图展示了 Prompt Diffusion 在条件性图像生成任务中的上下文学习能力:在一个由特定任务的图像和文本指导的示例组合的提示下,给定一个新的查询图像,其类型与示例组合中的源图像一致,Prompt Diffusion 可以理解所需的任务,并在已见(训练)和未见(新)的任务类型上产生相应的输出图像。

据介绍,Prompt Diffusion 是第一个基于扩散的视觉语言基础模型,在训练任务上展示了高质量的上下文生成,并有效地推广到具有各自提示的新的、未见过的视觉任务。
论文链接:
https://arxiv.org/abs/2305.01115v1
让你的图表'燃'起来
图像可视化将数据和语义上下文无缝地集成到视觉表现中,以一种既吸引人又充满信息量的方式传达复杂的信息。
广泛的研究致力于开发创作工具,以简化图形可视化的创建。然而,主流工作大多遵循检索和编辑管道,严重依赖于从专用语料库中检索的视觉元素,这通常会损害数据的完整性。文本指导的生成方法正在出现,但由于其预定义的识别实体,可能具有有限的适用性。
该研究提出了一个基于文本到图像生成模型将语义上下文嵌入到图表中的新系统——ChartSpark,ChartSpark 根据文本输入中传达的语义上下文和嵌入在普通图表中的数据信息生成图形可视化。该方法对前景和背景的图像生成都是通用的,满足了对现有图像可视化的实证研究中所确定的设计实践。
下图为 ChartSpark 图形可视化的实例。(a) 柱状图显示游客在新西兰使用的交通工具类型;(b) 散点图显示梅西每个赛季在巴塞罗那俱乐部的总进球数和平均进球数;(c) 条形图显示全球种植谷物的农业用地;(d) 柱状图显示 2021 年美国人均每日阅读时间;(e) 饼状图显示果汁成分配方;(f) 折线图显示印度每年火灾事故数目。

此外,研究团队也开发了一个交互式的可视化界面,它集成了文本分析器、编辑模块和评估模块,使用户能够生成、修改和评估图形可视化。
论文链接:
https://arxiv.org/abs/2304.14630
Pick-a-Pic:用于文本到图像生成的用户偏好的开放数据集
一般情况下,只有公司有能力收集文本到图像(text-to-image)模型用户的人类偏好的大型数据集,而公众无法获得这些数据集。
为了解决这一问题,研究团队创建了一个 web 应用程序,使用户能够生成图像并指定他们的偏好,并以此为基础构建了一个大型的开放数据集 Pick-a-Pic,包含了文本到图像的提示和真实用户对生成图像的偏好。
下图展示了 Pick-a-Pic 数据是如何通过应用程序收集的:(a) 用户首先写一段说明文字,然后会收到两张图片;(b) 用户根据偏好做出判断;(c) 呈现一张新的图片,而不是被拒绝的图片。这个流程不断重复,直到用户改变提示。

另外,研究团队利用这一数据集训练了一个基于 CLIP 的评分函数 PickScore,它在预测人类偏好的任务上表现出了超人的性能。他们还测试了 PickScore 执行模型评估的能力,发现其与人类排名的相关性比其他自动评估指标更好。
因此,研究团队建议,使用 PickScore 来评估未来的文本到图像生成模型,并使用 Pick-a-Pic 提示作为比 MS-COCO 更相关的数据集。
论文链接:
https://arxiv.org/abs/2305.01569v1
企业动态
OpenAI 在 2022 年亏损了 5.4 亿美元
据三位了解 OpenAI 财务状况的人士透露,该公司由于去年开发了 ChatGPT,并从谷歌招聘了关键员工,亏损大约翻了一番,达到 5.4 亿美元左右。这一此前未公布的数字反映,在该公司开始出售聊天机器人的使用权限之前,其机器学习模型的训练成本高昂。尽管在 OpenAI 于 2 月推出付费版聊天机器人后,收入有所增长,但随着越来越多的客户使用其 AI 技术,以及该公司对该软件未来版本进行训练,这些成本可能会继续上升。Sam Altman 私下暗示,公司可能会在未来几年筹集至多 1000 亿美元资金,以进一步开发 AI 的能力。
new Bing 大升级,全面开放无需排队
近日,微软公司在官网宣布了对搜索引擎 Bing 和 Edge 浏览器一系列的重磅升级,称这些举措是 AI 技术的新一轮创新。新闻稿写道,new Bing 不再需要'候补名单',用户只需登录微软账户便可以访问这个结合了 GPT-4 技术的搜索引擎。'这意味着现在每个人都可以比以往更轻松地试用 new Bing 和 Edge。'另外,微软正在升级 bing 聊天,让其能给出'更丰富、更直观的答案',包括图表、图形等新的形式,帮助用户更直观地、更轻松地找到他们想要的信息。
微软计划推出在专用云服务器上运行的 ChatGPT 版本 价格是常规版本的十倍
据两位知情人士透露,本季度晚些时候,微软 Azure 云服务器部门计划销售一个在专用云服务器上运行的 ChatGPT 版本,该版本的数据将与其他客户的数据分开保存。知情人士说,这样做是为了让客户放心,他们的秘密不会泄露到 ChatGPT 的主系统。但这款产品的成本可能是客户目前使用 ChatGPT 常规版本的 10 倍之多。
Runway 融资 1 亿美元,估值达到 15 亿美元
AI 初创公司 Runway 已经在 D 轮融资中筹集到至少 1 亿美元,估值由此达到 15 亿美元。据报道,这笔交易使这家初创公司的估值比上一轮增加了两倍。据悉,Runway 从一家云服务提供商那里筹集了资金,但具体是哪家公司并不清楚。
三星电子禁止员工使用 ChatGPT 等生成式 AI 工具
出于安全考虑,三星电子已禁止员工使用 ChatGPT、Google Bard 和 Bing 等流行的生成式 AI 工具,正准备推出内部工具。公司内部备忘录显示,三星电子担心传输到生成式 AI 平台的数据被存储在外部服务器上,导致其难以被追回和删除,并可能最终被泄露给其他用户。此前,摩根大通、美国银行和花旗等华尔街大行已禁止或限制使用 ChatGPT。
欧美 AI 竞争暗流涌动:法国'ChatGPT 克星'正计划启动融资
据悉,总部位于法国巴黎的 AI 初创公司 Mistral AI 正在计划启动第一轮融资。此前,有法国媒体将其称为'欧洲的 OpenAI'以及'法国对抗 ChatGPT 的秘密项目'。据了解,这家神秘的初创公司是由前 Facebook AI Research(FAIR)的 Guillaume Lample 和 DeepMind 的 Arthur Mensch 联合创办的。上周,Mistral 汇集了法国前沿的研究人员,他们在谷歌、Meta 等科技巨头有多年的工作经验。
亚马逊计划利用 AI 为广告商生成照片和视频
亚马逊正在组建一个 AI 工具开发团队,为商家在其平台上的广告活动中生成照片和视频,此举可能有助于实现其广告业务的多元化。目前,亚马逊的广告业务主要集中在帮助商家提高搜索结果的广告上,然而,亚马逊如今正试图建立一个更广泛的广告业务,包括在其免费视频流媒体服务 Freevee 上出售广告位,以及在 Prime Video 的周四晚间橄榄球转播期间出售广告位。该公司还在亚马逊音乐上销售音频广告,甚至在亚马逊生鲜杂货店的屏幕上播放数字广告等。
下一轮裁员会有谁?老板可能要听 AI 的建议
法国初创公司 Pigment 正在测试一种或许会被首席财务官们喜爱的生成式 AI 工具——Pigment AI。这款产品将聊天机器人放在用于制定财务计划的电子表格和仪表板中,旨在梳理公司数据并回答诸如'如果我们提前三个月推出新产品该怎么办?''未来一年该如何使收入增加一倍?'之类的问题。Pigment 联席首席执行官 Romain Niccoli 表示,虽然 AI 可以通知一家公司做出裁员决定,最终做决策的还是人。'AI 只是告诉你结果,但不会为你做决定。'如果有一天你被解雇了,很可能不会知道这背后还有 AI 的'一份力'。
政策法规
白宫宣布首个 AI 监管计划:拨款 1.4 亿美元用于新的 AI 研究中心
白宫官员表示,美国国家科学基金会计划拨款 1.4 亿美元用于新的 AI 研究中心,还承诺发布指导方针草案,以确保对 AI 的使用保障'美国人民的权利和安全'。几家 AI 公司已同意在 8 月的一次网络安全会议上提交其产品以供审查。
英国将对 AI 相关的竞争和消费者保护进行评估
英国竞争和市场管理局表示,将对 AI 基础模型开发和使用中的竞争和消费者保护因素进行评估。这一评估将研究 AI 基础模型及其使用的竞争性市场可能如何发展,这些情况可能给竞争和消费者保护带来的机会和风险,并制定指导原则以在这些模型发展过程中支持竞争和保护消费者。AI 基础模型包括大型语言模型和生成式 AI。
专家观点
AI 教父 Geoffrey Hinton:AI 对世界的威胁比气候变化'更紧迫'
近日,图灵奖得主、深度学习三巨头之一 Geoffrey Hinton 表示,相较于气候变化,AI 可能是对人类'更紧迫'的威胁。他认为,人类在应对气候变化方面,相对而言,更容易提出一些有效的应对策略,比如减少碳的排放,'如果你这样做,最终一切都会好起来的'。但对于 AI 可能带来的风险,根本不知道如何下手。
Sam Altman:OpenAI 早已不使用客户数据来训练模型
近日,OpenAI 首席执行官 Sam Altman 表示,公司已经'有一段时间'没有使用付费客户的数据来训练大型语言模型了。他在采访中说道,'用户们显然希望我们不要使用他们的数据进行训练,所以我们改变了我们的计划,未来我们也不会这样做了。'今年 3 月 1 日,OpenAI 悄然更新了其服务条款:'不会使用通过其 API 提交的任何数据来'服务改进',包括 AI 模型训练,除非客户或组织选择加入。'
中信证券:持续看好全球 AI 领域的投资机会
中信证券研报指出,ChatGPT 在全球 AI 产业、技术领域带来的良好示范效应,有望推动 AI 算法模型结束当前的技术路线分叉,并不断向以 GPT 为主导的大型语言模型靠拢,加速全球 AI 产业'工业化'时代到来。对于中期最具确定性的产业方向之一,中信证券持续看好全球 AI 领域的投资机会,并建议持续聚焦芯片、算力设施、模型架构&工程实践、应用场景等核心环节。
苹果 CEO 库克认为 AI 仍有不少问题需要解决
苹果公司首席执行官库克对不断涌现的 AI 新应用表示谨慎乐观,他指出虽然这项技术潜力巨大,但'还有不少问题需要解决'。库克在财报电话会议上表示,苹果已经在大部分产品中使用了 AI 技术,其中包括智能手表的摔倒检测等功能。他说,苹果将继续在更多产品中加入这项技术,但会考虑周全。库克表示苹果已经在 AI 方面取得显著进展。苹果是最早应用 AI 的主要科技公司之一,但并没有像亚马逊等公司那样激进地推进。
李彦宏:'文心一言与 ChatGPT 差距两个月'的说法有点被断章取义
李彦宏在内部'新使命六周年暨百度骄傲颁奖典礼'上发表讲话时回应了与 ChatGPT 差距为两个月的说法:'前一段时间我接受采访时说,我们跟 ChatGPT 的差距大约是两个月,但说实话这有点断章取义。我后面紧接着还说,这不是重点,重点是这两个月的差距我们要用多长时间才能赶上,也许很快,也许永远也赶不上。'

