AIGC 技术周报
AIGC(AI Generated Content)即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT,以及 DALL-E 2、Stable Diffusion 等文生图模型,都属于 AIGC 的典型案例,它们通过借鉴现有的、人类创造的内容来快速完成内容创作。
技术前瞻
VideoChat:基于聊天的视频理解系统
近日,上海人工智能实验室、香港大学等联合推出了一个端到端、基于聊天的视频理解系统——VideoChat。它通过一个可学习的神经接口整合了视频基础模型和大型语言模型,在时空推理、事件定位和因果关系推理方面表现出色。
此外,研究团队也提出了一个以视频为中心的指令数据集,其中包含数千个视频,配有详细的描述和对话。这一数据集强调了时空推理和因果关系,为训练基于聊天的视频理解系统提供了有价值的资源。
初步的定性实验显示,该系统在各种视频应用领域的潜力,并为未来的研究设定了标准。
参考链接:https://arxiv.org/abs/2305.06355
ImageBind:横跨 6 种模态的开源大模型
日前,Meta 公布了名为 ImageBind 的开源模型,该模型能够同时从文本、图像/视频、音频、深度(3D)、热能(红外辐射)和惯性测量单元(IMU)6 种不同的模态中学习。
据介绍,ImageBind 还能够超越之前的单一模态模型,具有更好的性能,并能够更好地分析多种形式的信息,它的目标是使机器具备类似于人类的全面理解能力。
参考链接:https://arxiv.org/abs/2305.05665
OpenAI 新研究:用 AI 解释神经元
近日,OpenAI 使用 GPT-4 对 GPT-2 中 307200 个神经元进行了解释。从结果来看,绝大多数的解释评分并不高,但有超过 1000 个神经元的解释得分高于 0.8。虽然从目前的结果来看,通过 GPT-4 解释 GPT-2 的效果并不完美,但这一阶段性的成果给 AI 可解释性研究提供了思路。
参考链接:https://openai.com/research/language-models-can-explain-neurons-in-language-models
类似 GPT-4,这个 LLM 有了多模态能力
近日,为了赋予 LLMs 多模态能力,来自中科院、华南理工大学未来技术学院、中国科学院大学的研究团队提出了 X-LLM——使用 X2L 接口将多模态(图像、语音、视频)转换为外语,并将其输入到开源的双语对话语言模型 ChatGLM 中。
实验表明,X-LLM 表现出了优异的多模态聊天能力,有时甚至会在未见过的图像/指令上表现出多模态 GPT-4 的行为。与 GPT-4 相比,X-LLM 在合成的多模态指令跟随数据集上取得了 84.5% 的相对得分。
参考链接:https://arxiv.org/abs/2305.04160
新型 Prompting 让大模型推理能力狂升
近日,华为联合港中文提出 Progressive-Hint Prompting(PHP),用来模拟人类做题过程。在 PHP 框架下,LLMs 能够利用前几次生成的推理答案作为之后推理的提示,逐步靠近最终的正确答案。
这种 PHP 与 LLMs 交互的新方法,具有以下优点:
- PHP 在数学推理任务上实现了显著的性能提升,在多个推理基准测试上领先于最先进的结果;
- 使用更强大的模型和提示,PHP 可以更好地使 LLMs 受益;
- PHP 可以与 CoT 和 SC 轻松结合,进一步提高性能。
参考链接:https://arxiv.org/abs/2304.09797
企业动态
OpenAI 将向所有 ChatGPT Plus 用户开放网络功能和插件
OpenAI 发推文称,将在下周向所有 ChatGPT Plus 用户推出网络浏览和插件,这一举措将允许 ChatGPT 访问互联网并使用 70 多个第三方插件。
按照 OpenAI 的计划,联网和插件等新功能权限开放,共分为 3 个阶段:
- Alpha 阶段:只有一小部分用户能抢先试用,在这个阶段,OpenAI 的主要目标是收集不同群体用户的反馈,不断对新功能进行调整;
- Beta 阶段:向 ChatGPT Plus 用户开放新功能测试;
- 一般可用阶段:在 Beta 测试完成后,OpenAI 会评估新功能是否能面向所有人推出。如果一切顺利,所有 ChatGPT 用户都能体验联网和第三方插件。
HuggingFace 上线新 API,一键控制 10 万多个 AI 模型
近日,HuggingFace 推出了 HuggingFace Transformers Agents,通过这一 API,用户可以控制 10 万多个 HuggingFace 模型完成各种多模态任务。例如,如果你想让 Transformers Agents 大声解释图片上描绘了什么内容,它就会尝试理解你的指令,然后将其转化为 prompt,并挑选合适的模型、工具来完成你指定的任务。
Claude 再升级,上下文窗口扩大为 100k
Anthropic 推出了 100K Context Windows——将 Claude 的上下文窗口从 9k token 扩展到了 100k,相当于 75000 个单词。这意味着用户可以提交数百页材料让 Claude 消化和解释,且对话可以持续数小时甚至数天。现在可以通过 Anthropic API 访问 100K context windows。
谷歌将为 AI 生成图片内嵌标记,Midjourney 等将跟进支持
近日,谷歌在开发者大会上表示,将确保公司的每一张 AI 生成图片都内嵌标记,这种标记无法被肉眼识别,但能被谷歌搜索引擎等软件读取出来,从而提示用户该图片由 AI 生成。
此外,谷歌还会提供有关 AI 生成图片的额外信息来防范诈骗,包括:该图片首次上传至搜索引擎的时间,以及该图片是否曾被新闻网站引用过。未来几个月内,Shutterstock、Midjourney 等公司也将支持这种新的标记方法。
Stability AI 发布动画生成 SDK
近日,为帮助艺术家和开发人员运用最先进的 Stable Diffusion 模型生成动画,Stability AI 发布了 Stable Animation SDK。借助这一工具,用户可以使用所有 Stable Diffusion 模型,包括 Stable Diffusion 2.0、Stable Diffusion XL 等。
据介绍,目前有三种生成动画的方式:
- 文本输入:使用文本形式的 prompt,调整各种参数后生成动画,这一功能与之前的 Stable Diffusion、Midjourney 或 DALL-E 2 类似;
- 文本输入 + 初始图像输入:用户提供一个初始图像,作为动画的起点,再配合文本 prompt,生成最终的动画效果;
- 初始视频输入 + 文本输入:用户提供一个初始视频,以作为动画基础。在通过参数调整与文本 prompt 指导,最终可输出动画。
Spotify 删除数万首 AI 歌曲
近日,流媒体音乐服务平台 Spotify 删除了数万首由 AI 初创公司 Boomy 生成的歌曲,希望通过加大审查力度来回应日益严重的流量欺诈等问题。最近几个月,AI 歌曲在音乐行业大肆泛滥,大量涌入各大流媒体平台。知情人士表示,唱片巨头环球唱片已经向各大流媒体平台发出警告称,他们看到 Boomy 的歌曲中存在可疑的流量。
360 宣布上线'360AI 商店',将集成全球 AI 工具
近日,360 集团创始人周鸿祎宣布上线 AI 商店。360AI 商店作为 AI 导航,将集成全球 AI 工具,一方面利用流量优势为研发 AI 垂直应用的创业公司提供展示窗口,一方面让普通用户使用 AI 工具更加便捷。目前,360AI 商店汇集了 AI 作图、AI 写作、AI 音频制作等十余类几百种工具,统一陈列和导航。
科大讯飞:讯飞星火大模型'套壳 OpenAI 的 ChatGPT'是谣言
近日,科大讯飞接受机构调研表示,讯飞星火认知大模型为公司自主研发,使用了海量数据训练,但由于 ChatGPT 比较火,训练数据中出现了较多 OpenAI、ChatGPT 等词汇,因而在有些问答中会错误地出现以上信息。网上有谣言说讯飞星火大模型'套壳 OpenAI 的 ChatGPT'既不符合事实,也不符合逻辑:如果是套壳 ChatGPT,就不可能出现讯飞星火大模型的响应速度比 ChatGPT 还快;更不会出现讯飞星火大模型在文本生成、知识问答、数学能力等方面的结果均优于 ChatGPT 的情况。
三星电子和 Naver 拟联手打造生成式 AI 与 AI 芯片
韩国两大科技巨头——三星电子和 Naver 将联合开发一款用于企业的生成式 AI,计划最早于 10 月份发布,与 ChatGPT 等工具竞争。根据双方的 AI 合作关系,作为韩国最大的在线和搜索引擎运营商,Naver 将从三星获得半导体相关数据,以此创建生成式 AI,再由三星进一步强化该工具。
知情人士称,一旦开发成功,这款可支持韩语的 AI 工具将被提供给三星电子设备解决方案(DS)部门使用,其应用范围包括其半导体业务。而在实际测试后,三星计划将该工具的使用范围扩大到公司其他业务,包括负责智能手机和家电业务的设备体验(DX)部门。
IBM 发布针对基础模型和生成式 AI 的 IBM watsonx 平台
IBM 在 2023 年度 Think 大会上宣布,将推出针对基础模型和生成式 AI 的全新平台 IBM watsonx。该平台由三个产品集组成,其中,企业级 AI 开发平台 IBM watsonx.ai 和基于开放式湖仓一体架构的 IBM watsonx.data 预计会在 2023 年 7 月正式发布。
政策法规
欧盟立法者委员会同意更严格的 AI 规则草案
据路透社报道,在上周的投票中,欧洲议会议员同意禁止在公共场所使用面部识别工具,并对 OpenAI 的 ChatGPT 等生成式 AI 应用程序实施新的透明度措施。欧盟备受期待的 AI 法案将成为第一个管理该技术的全面立法,其中包含有关面部识别、生物识别监控和其他 AI 应用程序使用的新规则。经过两年的谈判,该法案现在有望进入下一阶段,立法者将与欧盟委员会和各个成员国最终确定法律的细节。
Sam Altman 将首次出席美国国会听证会
ChatGPT 这一突破性的生成式 AI 工具引发了人们对 AI 的新一轮投资热潮,促使美国政策制定者纷纷呼吁加强监管和规范,以应对其巨大的潜力和风险。当地时间 5 月 16 日,OpenAI 联合创始人兼 CEO Sam Altman 将首次出席美国国会听证会。
据介绍,预计在听证会上,讨论议题将聚焦'可能需要哪些法律来保障普通人的利益'。IBM 副总裁兼首席隐私和信任官 Christina Montgomery,以及前纽约大学教授、对 AI'炒作'持批评态度的 Gary Marcus 也将出席。
专家观点
Demis Hassabis:AGI 有望在几年内到来
近日,谷歌旗下 Google DeepMind CEO Demis Hassabis 表示,通用人工智能(AGI)大概再过几年就可能出现。他说,'AI 过去数年的进展惊人,未来没理由会慢下来,甚至可能加快。有鉴于此,我认为只要再花几年、也许是十年内(就会出现 AGI)。'
AI 歌手翻唱或涉多项侵权行为
据央视新闻报道,近段时间,通过模型训练和后期处理,模拟真人歌手声音进行翻唱的'AI 歌手'走红网络。专家提示,'AI 歌手'可能涉及多项侵权问题:民法典明确参照肖像权的规定保护自然人声音,不允许以伪造方式侵害他人肖像权;原词曲作者、演唱者、录音制作者的著作权,也不容忽视。目前,对于生成式 AI 的发展与管理,业界正在讨论,我国也即将有规范可依。
周鸿祎:不会用 GPT 的人未来会被淘汰
近日,360 集团创始人周鸿祎表示,ChatGPT-4.0 已经是地球上最聪明的'人'了,不会用 GPT 的人未来会被淘汰掉。'大家不要把它看成一个新时代的搜索或者是新的聊天机器人,这只是它第一个版本的包装而已。我觉得在三到五年里,各种行业都要被 GPT 重塑一遍,所以现在谁不拥抱 AI,谁就要被淘汰。
蔡崇信:不用过于担心 AI 机器人未来会取代人类
对于飞速发展的 AI 及其可能的负面性,阿里巴巴集团董事会执行副主席蔡崇信表示,不用过于担心 AI 机器人比人类更聪明、甚至取代人类。他认为,人类的大脑还有成千上亿的细胞未被认识和探索,人类的潜能还有很多未被认知和开发。另外,此前的机器人只能做一些重复性工作,虽然当前已经可以做简单的创意性工作,但很难复制人类相互之间的关系、情商、感情、欲望等。机器人不拥有人类之间诸如父子、夫妻及朋友等这样的关系,机器人也很难产生像人类的一样的'下一代'。
IDC:预计中国 AI 市场规模将在 2023 年超过 147 亿美元
IDC 预计,中国 AI 市场规模将在 2023 年超过 147 亿美元,在 2026 年超过 263 亿美元。IDC 中国副总裁钟振山认为,市场增量将主要源于基于大模型的应用替换过去几年建设的 AI 应用、生成式 AI 带来的增量市场和全新 AI 赋能的企业级应用。未来,不具备大模型能力的厂商将难以维持竞争优势。
《复仇者联盟》导演:两年后或出现完全由 AI 制作的电影
日前,《复仇者联盟》导演 Joe Russo 表示,AI 不会消失,所有人都应该害怕 AI。Russo 指出,AI 应该是为人类提供服务的工具,而不是人类为 AI 服务。他预计,大约两年后就会出现完全由 AI 制作的电影,并称 Z 世代将是引领 AI 时代的关键,任何人都能在 AI 工具的协助下讲述故事或制造出大型游戏。
台积电总裁魏哲家:AI 已带来革命性发展
近日,魏哲家在台积电技术论坛上表示,AI 已带来革命性发展,并开玩笑地表示,'AI 持续演进,今年我的演讲不是由 ChatGPT 生成来的,但明年一定会。'此外,魏哲家透露,公司有一家 AI 芯片龙头客户,其利用台积电代工售价 600-700 美元的 AI 芯片,完成开发 AI 方案设备并卖回给台积电,售价 20 万美元,'这就是 AI 的强大价值'。
民生证券:'小型化'和'离线化'模型出现,边缘侧终端和芯片迭代有望加速
民生证券研报指出,作为谷歌最新发布的大模型 PaLM 2 的最轻量版本,Gecko 可在移动设备端运行快速运行,提供每秒处理 20 个 token 的能力,能够提供 AIGC 更为定制化、时延更低,安全性、隐私性更好的应用,开拓 AI 模型在终端芯片推理的场景,边缘侧智能终端以及 SoC 有望全面升级,进入新的更新换代周期。轻量级 AI 模型未来将持续提升智能终端边缘算力需求,智能硬件的能力边界将在 AI 的助力下不断拓宽。
其他
美国网站公司担心谷歌 AI 搜索降低原网站流量
日前,谷歌宣布将使用 AI 模型来整合网上信息,提供'生成式搜索',在搜索结果页面顶部向用户直接展示 AI 生成的文本段落和一些链接,而非传统的蓝色链接列表形式。但多家网站公司表示,如果这种搜索形式成为谷歌搜索的默认方式,用户可能只会停留在 Google.com,降低其他网站的访问量。一些公司开始探寻,是否可以阻止谷歌等公司抓取自家网站内容来训练他们的模型。
能听懂英语指令并执行家务的机器人
普林斯顿大学、斯坦福大学和谷歌的一组研究人员利用 GPT-3 Davinci 模型,研发出了一款能听懂英语指令并执行家务的机器人,名为 TidyBot。这款机器人可以根据用户的喜好,自动完成如分类洗衣服、捡起地上的垃圾、收拾玩具等任务。
摩根士丹利:大多数个人投资者认为 AI 将对金融服务产生革命性影响
日前,摩根士丹利财富管理(MSWM)公布季度散户调查问卷结果,透露了个人投资者对 AI 的看法。大多数人认为,AI 将对金融服务产生革命性影响,但不会取代人类顾问的指导,且年轻投资者对 AI 的热情最为明显。63% 的受访者表示,有意向与利用 AI 的财务顾问合作。MSWM 分析、数据和创新主管 Jeff McMillan 指出,AI 不应被视为人类的替代品,而应被视为辅助财务顾问业务管理、与客户互动强大工具。
日本艺人协会称 AI 会剥夺工作机会
近日,由自由声优、音乐家等组成的日本艺人协会称'AI 的发展导致表达的技术被剥夺',许多人面临失业风险,并向日本文化厅等送交请愿书,要求完善法律加强权利保护措施。
一男子因用 ChatGPT 编造虚假信息被采取刑事强制措施
近日,平凉市公安局崆峒分局网安大队对'今晨甘肃一火车撞上修路工人致 9 人死亡'的文章,初步判断为信息虚假不实。经审讯,洪姓男子先搜寻了近年来中国讨论度广泛的社会新闻,随后利用 ChatGPT 将特定元素例如时间、地点、日期或性别等进行修改,重新撰成一篇假新闻,藉由上传这些文章让帐号赚取流量再加以变现。警方表示,洪姓男子编造假新闻并散布在网络上供人大量浏览的行为,已涉嫌寻衅滋事罪,目前已被采取刑事强制措施,最高可判处五年有期徒刑。
女网红用 AI 复制自己,同时交往千名男友
一位 23 岁的女网红 Caryn Marjorie 发布了 AI 版本的自己'Caryn AI'。据了解,Caryn AI 是一款聊天机器人,可以作为用户的'虚拟女友',每分钟收费一美元。根据《财富》杂志的消息,在过去一周的 beta 阶段,Caryn AI 获得了 7.16 万美元(折合人民币近 50 万元)的收益,已经吸引了超过 1000 名付费粉丝,其中 99% 的用户是男性。

