从 GPT-4 利用 Rosetta 设计抗体,到 AlphaFold 成功预测蛋白质结构、助力药物研发加速,人工智能(AI)在生物医学研究方面的作用愈发凸显,然而这项技术也可能带来重大的生物安全和生物安保风险。
日前,来自约翰·霍普金斯大学和兰德公司的联合研究团队,在权威科学期刊 Nature 上分享了他们关于「AI 可能带来大规模生物风险问题」的见解。
他们在文章中指出,政府和 AI 开发者需要优先关注可能造成大规模生命损失和社会破坏的风险,并建议制定更全面的评估和缓解措施。
他们还呼吁,建立跨学科专家团队,识别并优先处理高风险 AI 能力,同时确保评估的独立性和可靠性,从而促进 AI 在生物研究中的安全应用。
自 7 月以来,洛斯阿拉莫斯国家实验室一直在评估 GPT-4o 如何协助人类完成生物研究任务。在为推进生物科学创新以及了解潜在风险而进行的评估中,人类向 GPT-4o 提出各种问题,来帮助他们完成标准的实验任务。这包括在体外实验(in vitro)维持和增殖细胞、使用离心机分离样品中的细胞和其他成分,以及将外来遗传物质引入宿主生物体。
为完成这些评估,研究人员正与 OpenAI 合作。自 OpenAI 公开推出 ChatGPT 以来,这些测试是旨在解决 AI 模型带来的潜在生物安全和生物安保问题的少数努力之一。
我们认为,还需要做更多的努力。
我们中的三人在约翰·霍普金斯大学健康安全中心调查科学技术创新如何影响公共卫生和卫生安全,其他两人在非营利智库兰德公司研究和开发应对公共政策挑战的解决方案。
尽管我们看到了 AI 辅助生物研究改善人类健康和福祉的前景,但这项技术仍然不可预测,并存在潜在的重大风险。我们敦促各国政府加快行动,明确哪些风险最值得关注,并确定针对这些潜在风险应采取哪些适当的检测和缓解措施。
简而言之,我们呼吁采取一种更加谨慎的方法,借鉴数十年的政府和科学经验,降低生物研究中大流行规模的风险。
快速实验
GPT-4o 是一个'多模态'LLM。它可以接受文本、音频、图像和视频提示,并且已经接受了从互联网和其他地方抓取的大量数据的训练——这些数据几乎可以肯定包括数百万项经过同行评审的生物学研究。GPT-4o 的能力仍在测试中,但以前的工作暗示了它在生命科学中的可能用途。
例如,2023 年,卡内基梅隆大学研究人员发现,使用 GPT-4 的系统——Coscientist 可以设计、规划和执行复杂的实验,如化学合成。在这种情况下,系统能够搜索文档、编写代码并控制机器人实验室设备。
OpenAI 于 5 月发布了 GPT-4o,预计将在未来几个月内发布 GPT-5。大多数其他 AI 公司也同样改进了他们的模型。到目前为止,评估主要集中在独立运作的单个 LLM 上。但 AI 开发人员希望 AI 工具(包括 LLM、机器人和自动化技术)的组合能够在最少的人工参与下进行实验,比如涉及候选药物、毒素或 DNA 片段的操纵、设计和合成实验。
这些进步有望改变生物医学研究,但也可能带来重大的生物安全和生物安全风险。事实上,全球一些政府已经采取措施,试图减轻前沿 AI 模型的此类风险。
2023 年 7 月 21 日:美国政府获得了 7 家 AI 公司的自愿承诺,即在发布模型之前测试 AI 模型的生物安全和网络安全风险。(另有 8 家公司于 2023 年 9 月 12 日同意做出承诺)。
2023 年 7 月 26 日:前沿模型论坛(Frontier Model Forum)成立,从而促进前沿 AI 系统安全和负责任开发。
2023 年 10 月 30 日:美国政府签署了一项关于安全、可靠和值得信赖的 AI 开发和使用的行政命令。
2023 年 11 月 1 日:在 AI 安全峰会上,29 个国家政府签署了《布莱切利宣言》,承认 AI 在'网络安全和生物技术等领域'存在风险。
2023 年 11 月 2 日:英国和美国 AI 安全研究所宣布成立。英国 AI 安全研究所随后成立,获得近 1.3 亿美元资金。(美国 AI 安全研究所随后获得资金 1000 万美元)。
2024 年 3 月 8 日:170 多名科学家同意自愿承诺负责任地使用 AI 进行生物设计;实施工作尚未进行。
2024 年 5 月 21-22 日:在 AI 首尔峰会上,16 家公司同意《前沿 AI 安全承诺》,表示将在 2025 年 2 月巴黎 AI 峰会之前发布'以严重风险为重点的安全框架'。
2024 年 11 月 20-21 日:参加 AI 安全研究所国际网络的十国政府在旧金山举行第一次会议。
2025 年 2 月 10-11 日:法国将在巴黎主办 AI 行动峰会。(截至 2024 年 11 月底,同意在此次会议之前公布安全框架的 16 家 AI 公司中,已有 3 家公布了安全框架)。
这些都是在短时间内取得的可喜成就,应该得到支持。然而,目前尚不清楚所有这些活动降低了多少风险——部分原因是这些机构的大部分工作尚未公开。
安全测试
除了考虑风险之外,一些 AI 模型的开发人员还试图确定哪些因素对其模型的性能影响最大。一个主要的假设是遵循 scaling law:LLM 性能随着模型大小、数据集大小和计算能力的增加而提高。然而,scaling law 无法可靠地预测哪些能力可能出现,以及何时出现。
与此同时,由于政府没有制定政策说明哪些风险亟待解决以及如何降低这些风险,OpenAI 和 Anthropic 等公司已经遵循了他们内部制定的评估协议。(亚马逊、Cohere、Mistral 和 xAI 等拥有 AI 系统的公司尚未公开对其模型的生物安全评估。)在这些情况下,安全测试需要自动评估,包括使用多项选择题的评估、人类试图从被评估的模型中引出有害能力的研究,以及要求个人或团体在有或没有 AI 模型的情况下执行任务的对照试验。


