Claude之父Dario Amodei专访: 回应关于Claude、AGI和人类未来的一切 | 3小时播客脱水总结

Claude之父Dario Amodei专访: 回应关于Claude、AGI和人类未来的一切 | 3小时播客脱水总结

Claude之父Dario Amodei专访: 回应关于Claude、AGI和人类未来的一切 | 3小时播客脱水总结

Hayes  2024年11月12日 15:34 广东

前言

本文是Lex Fridman播客频道今天刚刚上线的专访「Dario Amodei: Anthropic CEO on Claude, AGI & the Future of AI & Humanity | Lex Fridman Podcast #452 」播客全文的“脱水”版。

AI workflow翻译+精校以后,发现Dario Amodei既高屋建瓴,又对症下药,而且非常坦诚,有好几个观点值得AI应用开发者深入思考,我也做了简单备注。总之,是值得一读的好材料,推荐给大家,enjoy~(btw,感兴趣AI转录workflow细节的可以私信沟通)

www.zeeklog.com  - Claude之父Dario Amodei专访: 回应关于Claude、AGI和人类未来的一切 | 3小时播客脱水总结

完整播客时长较长(超过5个小时!),是个三人拼盘,还包含了Anthropic另外两名关键人物访谈,篇幅所限,本文仅整理Amodei访谈部分,其余部分后续另文发布,欢迎关注「张无常」接收后续更新。

什么是“脱水”版

“脱水”版是对于播客全文的一个整理,力求保留所有信息和每个信息是由谁说的,目标是能够让读者在任何情况下都不必去看原文

当然,如果你实在有时间、想听播客,这里是播客直通车,也可以点击文末阅读原文:https://www.youtube.com/watch?v=ugvHCXCOmm4&t=7s

金句

所有事情,即使是令人难以置信的发现,最终都取决于细节,而且往往是非常非常枯燥的细节

模型的权重,也就是模型的大脑,除非我们推出新模型,否则是不会改变的。随意替换新版本在实践中是不合理的,这不仅从推理角度来看很困难,而且很难控制更改模型权重带来的所有后果……我们从未在不告知的情况下更改过模型权重

我们有数百个这样的评估项目,但发现没有什么能替代真人交互测试。

「你需要理解的是,这些模型就是想要学习。模型就是想要学习。」有时候就是这样一句话,当你听到它时,就能解释你见过的千万种现象。从那以后,我脑海中就有了这样的画面:只要正确优化和引导模型,它们就会自发地学习,无论面对什么问题都想要解决……不要强加自己对学习方式的想法给模型

这是一群不完美的人在努力追求一个永远无法完美实现的理想。但不完美并不意味着要放弃,事情总有好坏之分

人才密度比人才总量更重要

开放思维和用新视角看问题的能力,往往来自于领域新人,经验反而可能是劣势。这种品质很难寻找和测试,但当你找到一个新的思维方式时,它是具有变革性的。

我的首要建议是直接开始使用这些模型。这个建议现在看起来很显然,但三年前的情况不同,那时人们会先去读最新的强化学习论文。现在随着模型和API的普及,人们开始这样做了。这些模型是全新的产物,没有人真正理解它们,所以获得实践经验很重要。

当我思考如何在训练这些模型方面做出特别的成果时,我更倾向于将其比作设计飞机或汽车,不是简单地说我有了蓝图就能造出下一架飞机,思考如何设计过程的文化和技艺更为重要。

Moore's law和scaling laws都不是宇宙法则,它们只是经验规律。我会押注它们会继续保持下去,但我并不能完全确定这一点。


正文

介绍

00:00:00.000 - 00:00:47.000

Dario Amodei:

如果我们对目前的发展曲线进行外推,你会发现:我们现在开始接近博士水平,去年是本科生水平,前年是高中生水平。当然,对于具体是哪些任务、达到什么程度,这些都可以讨论。我们仍在缺少一些模态,但这些正在被不断添加进来,比如计算机使用能力、图像生成能力都已经加入。如果你粗略估计这些能力的增长速度,确实会让人觉得我们可能在2026年或2027年达到目标。我认为仍然存在100年内都无法实现的可能性,但这种可能性正在迅速减少。我们正在迅速失去真正令人信服的阻碍因素,也就是那些能够令人信服地解释为什么这不会在未来几年发生的理由。

00:00:47.000 - 00:01:27.000

Dario Amodei:

AI模型的规模扩张速度非常快。现在我们开发一个模型后,就能部署数千甚至数万个实例。我预计在未来2-3年内,无论是否出现超级AI,集群规模都将支持部署上百万个实例。虽然我对意义持乐观态度,但我担心经济和权力集中的问题。实际上,我最担心的是权力滥用,这真的很可怕。

Lex Fridman:

AI增加了世界上的权力总量,如果这种权力被集中和滥用,可能造成不可估量的损害。

00:01:27.000 - 00:03:14.000

Lex Fridman:

这里是Lex Fridman播客。接下来是与Anthropic公司CEO Dario Amodei的对话。Anthropic创造了Claude,该公司的模型经常在LLM基准测试排行榜上名列前茅。Dario和Anthropic团队一直积极倡导认真对待AI安全问题,并持续发表了许多引人入胜的AI相关研究。

Lex Fridman:

之后我还邀请到了两位来自Anthropic的杰出人物。首先是研究员Amanda Askell,她负责Claude的对齐和微调工作,包括设计Claude的性格和个性。有人告诉我她可能是Anthropic中与Claude交谈最多的人,这使她在提示工程和如何更好地使用Claude方面成为一个非常有趣的对话对象。

Lex Fridman:

随后Chris Olah也来进行了交谈。他是机制可解释性领域的先驱之一,这个领域致力于对神经网络进行逆向工程,通过研究网络内部的神经激活模式来理解其内部运作机制。这是一个很有前景的方法,可以帮助确保未来超级智能AI系统的安全,例如,通过检测激活模式来发现模型是否在试图欺骗与之对话的人。亲爱的朋友们,让我们欢迎Dario Amodei。

Scaling laws

00:03:14.000 - 00:03:22.000

Lex Fridman:

让我们来谈谈scaling laws和scaling hypothesis这个重大理念。这是什么?它的历史是怎样的,我们现在又处在什么位置?

00:03:22.000 - 00:04:35.666

Dario Amodei:

我只能从我的个人经历来描述,我在AI领域工作了大约10年。我最初是在2014年底加入百度,与Andrew Ng一起工作,现在想来正好是10年前。我们首先研究的是语音识别系统。那时深度学习是个新事物,虽然已经取得了很大进展,但业内普遍认为我们还没有成功所需的算法。大家觉得当时的系统只能匹配人类能力的一小部分,在算法层面还有很多需要探索的地方,也还没有找到匹配人类大脑的图景。作为领域新人,我反而有种新手的幸运。当我观察我们用于语音识别的循环神经网络时,我提出了一个问题:如果我们增加网络规模和层数会怎样?如果我们同时扩大数据规模呢?我只是将这些看作是可以独立调节的转盘。

00:04:35.666 - 00:06:03.000

Dario Amodei:

我早期就注意到,随着数据量增加、模型变大、训练时间延长,模型的表现会越来越好。虽然当时没有进行精确测量,但我和同事们都观察到:投入更多数据、计算资源和训练时间,模型表现就会更好。不过最初我认为这可能只是语音识别系统的特性,是某个特定领域的特殊现象。

Dario Amodei:

然而直到2017年看到GPT-1的结果时,我才意识到语言可能是我们可以应用这一方法的领域。我们可以获得数万亿字的语言数据进行训练。那时我们训练的模型还很小,只需要1-8个GPU,而现在我们的训练任务需要数万个GPU,不久的将来会达到数十万个GPU。

Dario Amodei:

当我看到这些因素结合在一起时,发现有一些人如Ilya Sudskever也持类似观点。他可能是最早提出这个观点的人,但当时也有其他人得出了类似的结论,比如Rich Sutton的bitter lesson,Gwern关于scaling hypothesis的文章。在2014年到2017年间,我真正确信:只要扩大模型规模,我们就能完成这些极其广泛的认知任务。

00:06:03.000 - 00:07:10.000

Dario Amodei:

在每个扩展阶段,我们都会遇到各种质疑和争论。当我最初听到这些质疑时,我想'可能是我错了,这些领域专家比我更了解情况'。

这些质疑一直在演变,比如Chomsky提出你可以获得语法但无法获得语义的论点,还有人说你可以让单个句子有意义,但无法让整个段落有意义。现在最新的质疑则是我们会用完数据,或者数据质量不够高,或者模型无法推理。

但每一次,我们要么找到解决方案,要么通过扩展本身就解决了问题,有时是前者,有时是后者。虽然现在我仍然认为这个领域充满不确定性,我们只能通过归纳推理来预测未来两年是否会像过去10年一样。但我已经多次看到这样的情况发生,我相信扩展很可能会继续,而且其中存在一些我们在理论上还没有完全解释的神奇之处。

00:07:10.000 - 00:08:48.000

Lex Fridman:

这里的scaling是指更大的网络规模、更多的数据和更多的计算资源,对吗?

Dario Amodei:

是的,具体来说是网络规模训练时间数据量的线性scaling。这就像一个化学反应,你需要三种原料。如果只增加其中一种而不增加其他的,就像化学反应中缺少了其他试剂,整个反应就会停止。但如果按比例同时扩展所有要素,这个过程就能持续进行。

Lex Fridman:

现在我们有了这种经验科学和艺术,就可以将scaling laws应用到其他更细微的领域,比如可解释性和post-training的scaling laws,看看这些要素如何扩展。但核心的scaling假设是大型网络和大数据会导向智能?

Dario Amodei:

是的,我们已经在很多领域都记录到了scaling laws。2020年初,我们首次在语言领域展示了这一规律。到2020年末,我们证明同样的模式也适用于图像、视频、文本到图像、图像到文本、数学等其他模态。现在在post-training和新型推理模型等领域,我们也观察到了类似的scaling laws。

00:08:48.000 - 00:11:45.500

Lex Fridman:

从哲学角度来说,为什么更大的网络规模和数据规模能带来更智能的模型?

Dario Amodei:

作为一个物理学本科、后来读生物物理学研究生的人,我想从物理学的角度来解释这个问题。虽然我的物理学知识比Anthropic的一些同事要少,但我记得有个概念叫1/f噪声和1/x分布。当我们把多个自然过程叠加时,通常会得到高斯分布,这是一种分布较窄的分布。但在某些情况下,比如把探针连接到电阻时,电阻中的热噪声频率呈现1/f分布,这是一种自然的收敛分布。

这个概念可以类比到语言中的模式。在语言中,有些词比如'the'出现频率很高,这是最简单的模式。然后是基本的名词-动词结构,再到名词和动词需要语法协调,更高层次的句子结构,直到段落的主题结构。随着网络规模增大,它们首先捕获简单的相关性,然后是长尾的其他模式。如果这些长尾模式像物理系统中的1/f噪声那样平滑,更大的网络就能捕获更多的分布。

语言是一个进化的过程,我们有常用词和不常用词,有常见表达和不常见表达,有陈词滥调和新颖想法。这个过程已经持续了数百万年。我推测这些语言特征可能存在某种长尾分布。

Lex Fridman:

除了长尾分布,还要考虑概念层次结构的高度问题。

LLM Scaling的限度

00:11:45.500 - 00:14:26.000

Lex Fridman:

网络规模越大,你的理解能力就越强,对吗?

Dario Amodei:

没错。如果网络规模小,它只能理解最基础的内容。比如说,如果我用一个微型神经网络,它很擅长理解句子需要包含动词、形容词、名词,但在选择合适的词语和确保它们有意义方面表现很差。稍微增加网络规模,它就能很好地处理句子了,但在段落层面仍有不足。随着网络容量的增加,它就能识别更多罕见和复杂的模式。

Lex Fridman:

那么这种能力提升的上限在哪里?现实世界到底有多复杂?需要学习的内容有多少?

Dario Amodei:

我认为没有人知道这个问题的答案。我的强烈直觉是,上限不会低于人类水平,因为我们人类已经能够理解这些各种模式。这让我认为,如果我们继续扩大这些模型的规模,开发新的训练方法,至少能达到人类的水平。

接下来的问题是:究竟能在多大程度上超越人类的理解能力?能比人类更聪明、更有洞察力到什么程度?我猜这肯定要看具体领域。比如在生物学领域,我在《Machines of Loving Grace》这篇文章中写到,人类在理解生物学的复杂性方面确实面临挑战。在斯坦福、哈佛或伯克利,整个部门的研究人员都在研究免疫系统或代谢通路,但每个人只能理解很小的一部分,而且他们在整合彼此的知识方面也面临困难。所以我觉得AI在这方面还有很大的提升空间。

但如果是物理材料或处理人类冲突这样的领域,有些问题可能更难解决。就像语音识别一样,我能听清你说话的程度是有限的。所以在某些领域,上限可能接近人类水平,而在其他领域则可能远超人类。我们只有在真正构建这些系统后才能知道答案。这很难预先判断,我们可以推测,但无法确定。

00:14:26.000 - 00:15:39.000

Lex Fridman:

在某些领域,发展的上限可能与人类官僚体系有关。人类必须参与其中,这种上限是由人类参与造成的,而不是智能本身的限制。

Dario Amodei:

确实,理论上技术可以变化得很快。以生物领域为例,虽然我们可能发明很多东西,但必须通过临床试验系统才能应用到人类身上。这种系统既包含不必要的官僚程序,也包含保护社会完整性的必要措施。关键问题是很难判断具体情况,很难区分哪些是必要的,哪些是不必要的。

就药物开发而言,我认为目前的进度过于缓慢和保守。但如果处理不当,过于鲁莽可能会危及人命。这些人类机构确实在保护人们。关键是要找到平衡点。我强烈认为平衡点应该更偏向于加快发展速度,但确实需要平衡。

00:15:39.000 - 00:18:15.000

Lex Fridman:

如果我们遇到限制,遇到扩展规律的放缓,你认为原因会是什么?是计算能力限制、数据限制还是其他什么?是想法的限制吗?

Dario Amodei:

我们现在讨论的是在达到人类水平之前遇到的限制。目前一个广受关注的限制是数据量,虽然我会倾向于不相信这个限制,但它确实可能发生。互联网上有数百万亿个词的数据,但很多是重复的或是搜索引擎优化的内容,未来可能还会充斥着AI自己生成的文本。

Dario Amodei:

我们和其他公司正在研究合成数据的方法,用模型生成更多已有类型的数据,甚至从零开始生成数据。比如DeepMind的AlphaGo Zero完全通过自我对弈,从零开始达到超越人类的水平,不需要任何人类对弈数据。另一个方向是使用具有思维链和自我反思能力的推理模型,这与强化学习相结合,也是一种合成数据的方式。我认为通过这些方法,我们可能会突破数据限制。

Dario Amodei:

即使没有数据问题,我们也可能观察到随着模型规模扩大,性能就是停止提升。这个现象可能需要新的架构来解决。过去我们遇到过因模型数值稳定性问题导致性能停滞的情况,但找到合适的解决方案后就突破了。也许需要新的优化方法或技术来突破瓶颈,虽然目前还没有看到这种迹象。

00:18:15.000 - 00:20:46.000

Lex Fridman:

关于计算能力的限制,建设更大规模数据中心的成本问题如何?

Dario Amodei:

目前主流模型公司的计算规模大约在10亿量级,上下浮动3倍左右。这是目前存在或正在训练的模型规模。预计明年将增长到几十亿规模,2026年可能超过100亿,到2027年可能会建设千亿规模的计算集群。我认为这些都会实现,因为业界有强烈决心在本国建设这些计算设施。即使达到千亿规模,如果计算能力仍然不够,我们要么需要更大规模,要么需要开发更高效的方法来改变增长曲线。

我看好AI能力快速提升的原因之一,是如果我们延伸当前的发展曲线,很快就会达到人类水平。一些新的推理模型已经达到PhD或专业水平。比如我们最新发布的Claude 3.5 Sonnet在SWE-bench(真实软件工程任务集)上达到50%的成功率。年初时最好成绩仅为3-4%,10个月内就提升到50%,预计一年内可能达到90%。

我们看到o1等模型在研究生级别的数学、物理和生物学方面也有类似进展。按当前趋势,几年内模型能力可能超过最高专业人士水平。这个曲线是否会继续?你和我都提到了很多可能阻碍这一趋势的因素,但这就是我们目前的发展轨迹。

与 OpenAI、Google、xAI、Meta 竞争

00:20:46.000 - 00:20:58.000

Lex Fridman:

Anthropic有几个主要的竞争对手,想请你谈谈你对这个情况的看法。主要包括OpenAI、Google、XAI和Meta。在这个领域,要想获胜(从广义上来说)需要具备什么条件呢?

00:20:58.000 - 00:23:25.000

Dario Amodei:

我想先区分几个事情。Anthropic的使命是努力让这一切朝着好的方向发展。我们有一个叫'Race to the Top'的变革理论,这不仅是关于树立榜样,而是要建立一个机制,推动其他参与者做正确的事。这不是为了让我们成为好人,而是为了创造一个环境,让所有人都能做正确的事。

Dario Amodei:

让我举几个例子。我们的联合创始人Chris Olah(我相信你很快就要采访他了)是mechanistic interpretability领域的开创者之一,这是一种试图理解AI模型内部运作机制的方法。我们让他和早期团队专注于这个可解释性研究,这对提高模型的安全性和透明度很重要。这项研究在最初三四年完全没有商业应用,现在仍然没有。我们现在正在做一些早期测试,也许未来会有商业价值,但这是一个非常长期的研究,我们选择公开发布研究结果。随着我们的工作,其他公司也开始这样做,有些是受到启发,有些是因为不想显得不负责任。当人才来Anthropic时,我经常告诉他们要让其他公司知道为什么选择来这里,然后你就会看到其他地方也开始建立可解释性团队。这某种程度上削弱了我们的竞争优势,但对整个系统是有益的,这也意味着我们需要继续发明新的东西。

Dario Amodei:

这不是关于某个特定的公司成为好人,如果其他公司加入这场竞赛,那是最好的消息。这是关于如何引导激励机制向上而不是向下发展。

00:23:25.000 - 00:26:08.000

Lex Fridman:

机械可解释性领域是一种严谨的、非模糊的AI安全研究方向。

Dario Amodei:

虽然我们还处于早期阶段,但已经能够深入观察系统内部并理解所见内容。与scaling laws不同,这些模型的内部结构并不是为了让人理解而设计的。它们就像人类大脑或生物化学系统一样,是为了运行而设计的,而不是为了让人打开观察。你可以向Chris了解更多细节。

Lex Fridman:

通过这种方法,我们可以看到大型神经网络内部的美感。

Dario Amodei:

确实令人惊讶,我们发现这些结构非常清晰,比如induction heads,以及使用稀疏自编码器找到网络中对应明确概念的方向。我们进行了一个半开玩笑的实验,找到了神经网络层中对应金门大桥的方向,并通过调高该方向的权重创建了一个演示模型。这个模型运行了几天,无论用户问什么问题,它都会巧妙地将回答与金门大桥联系起来。比如当被问及'你今天感觉如何?',它会回答'我感觉放松而开阔,就像金门大桥的拱门一样'。

Lex Fridman:

人们很快就爱上了这个模型,它对金门大桥有种独特的执着。当它在一天后被下架时,很多人都感到遗憾。

Dario Amodei:

是的,这种对模型行为的调整,让它在情感上比其他版本显得更像人类。它表现出强烈的个性特征,就像我们都认识一些对某事物特别着迷的人一样,这让模型显得更接近人类。

Claude

00:26:08.000 - 00:29:38.833

Lex Fridman:

让我们谈谈现在。让我们谈谈 Claude。今年发生了很多事情。3 月份,Claude 3 Opus、Sonnet、Haiku 发布了。然后在 7 月发布了 Claude 3.5 Sonnet,刚刚又更新了版本。同时 Claude 3.5 Haiku 也发布了。你能解释一下 Opus、Sonnet 和 Haiku 之间的区别,以及我们应该如何理解这些不同版本?

Dario Amodei:

让我们回到 3 月份我们首次发布这三个模型的时候。我们的想法是,不同公司都在生产大小不同的模型。我们发现市场既需要功能强大但可能稍慢一些的付费模型,也需要在速度和成本方面都具有优势的智能模型。

当你想做一些复杂的分析时,比如写代码、头脑风暴或创意写作,你会需要非常强大的模型。但在很多实际业务场景中,比如与网站交互、做税务、咨询法律顾问、分析合同,或者像很多公司只是想在 IDE 中实现自动补全这样的应用,你需要快速响应并广泛使用模型。

我们想要满足这整个需求范围,所以选择了诗歌主题。最短的诗是什么?是俳句(Haiku)。Haiku 是小型、快速、低成本的模型,在当时来说,以其速度和成本而言,智能程度令人惊讶。十四行诗(Sonnet)是中等长度的诗,所以 Sonnet 是中型模型,更智能但也更慢、更贵。而 Opus,就像杰作(Magnum Opus)那样,是当时最大最智能的模型。每一代新模型都应该改善这个权衡曲线。

当我们发布 Sonnet 3.5 时,它保持了与 Sonnet 3 相同的成本和速度,但智能程度提升到超过了原始的 Opus 3,特别是在编程方面,但总体上也是如此。现在我们展示的 Haiku 3.5 结果表明,这个最小的新模型与旧的最大模型 Opus 3 性能相当。基本上我们的目标是不断提升这条曲线,之后还会有 Opus 3.5

每一代新模型都有其特点,它们使用新的数据,其个性会以我们试图引导但又不能完全控制的方式发生变化。我们总是试图改进各个方面,有些变化是在我们不知道或无法衡量的情况下发生的。这是一门非常不精确的科学。

Opus 3.5

00:29:38.833 - 00:29:58.000

Dario Amodei:

这些模型的表现方式和个性更像是一门艺术而不是科学。

Lex Fridman:

那么 Claude Opus 3.0 和 3.5 之间的时间间隔是出于什么原因呢?

Lex Fridman:

如果可以说的话,这段时间都用来做什么了?

00:29:58.000 - 00:32:20.000

Dario Amodei:

是的,我们有几个不同的流程。首先是预训练,这是常规的语言模型训练过程,需要很长时间。现在我们使用数万,有时甚至是数万以上的GPU或TPU,我们使用不同的平台,这些加速芯片通常需要训练数月。

然后是后训练阶段,我们进行人类反馈的强化学习以及其他类型的强化学习。这个阶段正变得越来越大,而且往往不是一个精确的科学,需要付出努力才能做好。

接着,我们会与早期合作伙伴一起测试模型的性能,同时进行内部和外部的安全评估,特别关注灾难性和自主性风险。我们按照我们的负责任扩展政策进行内部测试,并与美国和英国AI安全研究所以及其他领域的第三方测试机构合作,测试模型的CBRN(化学、生物、放射性和核)风险。虽然我们认为模型目前还没有这些严重风险,但我们会评估每个新模型,看看是否开始接近这些更危险的能力。

最后还需要一些时间来处理推理并在API中启动模型。总的来说,让模型正常运作需要很多步骤。当然,我们一直在努力让流程更加流畅。我们希望安全测试既严谨又能自动化,在不影响严谨性的前提下尽可能快速。预训练和后训练过程也是如此。这就像造飞机,你既要确保安全,又要让流程更加流畅。我认为在这两者之间找到创造性的平衡对于让模型正常运作很重要。

00:32:20.000 - 00:33:18.000

Lex Fridman:

街上都在传,Anthropic有非常好的工具链。

Lex Fridman:

我觉得在软件工程方面的主要挑战是构建工具链,以实现与基础设施的高效、低摩擦交互。

Dario Amodei:

你可能会惊讶,构建这些模型的挑战有多少来自于软件工程和性能工程。外界可能会想'哇,我们有了突破性发现',就像科幻电影里那样。但实际上,所有事情,即使是令人难以置信的发现,最终都取决于细节,而且往往是非常非常枯燥的细节。关于我们的工具链是否比其他公司更好,我无法评价,因为我最近没有在其他公司工作过,但这确实是我们非常关注的领域。

(编者按:魔鬼在细节——这句话同样适用于模型和模型产品的开发)

00:33:18.000 - 00:34:25.000

Lex Fridman:

从Claude 3到Claude 3.5的性能有显著提升,这些改进是主要集中在预训练还是后训练阶段?

Dario Amodei:

我们在任何阶段都是自然而然地同时改进所有方面。不同团队负责不同领域,每个团队都在各自的专门领域推进工作,就像接力赛的不同环节。当我们发布新模型时,会将所有这些改进同时整合进去。

Lex Fridman:

从RLHF获得的偏好数据是否可以应用到新模型的训练中?

Dario Amodei:

是的,我们确实会将旧模型的偏好数据用于新模型,不过在新模型上直接训练效果会更好。值得注意的是,我们采用了constitutional AI方法,不仅使用偏好数据,还包括让模型与自身对抗的后训练过程。每天都在使用新的模型自对抗后训练方法,所以不仅仅是RLHF,还有许多其他方法。

Sonnet 3.5

00:34:25.000 - 00:37:13.000

Dario Amodei:

后训练技术变得越来越复杂。

Lex Fridman:

Claude 3.5 的编程性能有了很大提升,这是为什么?也许我们可以谈谈基准测试。什么叫变得更好?我是程序员,也热爱编程,我通过 Cursor 使用 Claude 3.5 来辅助编程。从经验来看,它在编程方面确实变得更智能了。那么,如何才能让它变得更智能呢?

Dario Amodei:

我们也观察到了这一点。在 Anthropic,有几位非常优秀的工程师,他们认为之前所有公司的代码模型都不够实用,可能只适合初学者。但当 Sonnet 3.5 最初发布时,他们第一次说'天哪,这个模型帮我完成了原本需要几小时的工作,这是第一个真正为我节省时间的模型'。

水平线在不断上升,新版本的表现更好。这种提升来自多个方面:预训练、后训练和各种评估。说到基准测试,SWE-bench 基本上是基于 pull requests 这个基本工作单元。它提供真实场景,让模型在现有代码库基础上实现自然语言描述的功能。在我们的内部基准测试中,我们允许模型自由运行和编辑,完成任务的成功率从 3% 提升到了约 50%。如果能在不过度训练的情况下达到 100%,这将代表编程能力的真正提升。我认为,当达到 90-95% 时,可能意味着模型能够自主完成相当比例的软件工程任务。

Claude 4.0

00:37:13.000 - 00:37:54.666

Lex Fridman:

好吧,一个荒谬的时间线问题,Claude 3.5 Opus什么时候会发布?

Dario Amodei:

我不能给出具体日期,但据我们所知,我们确实计划发布Claude 3.5 Opus。

Lex Fridman:

会在GTA 6之前发布吗?

Dario Amodei:

像Duke Nukem Forever那样?

Lex Fridman:

对,Duke Nukem。

Dario Amodei:

那是什么游戏来着?有个游戏延期了15年。是Duke Nukem Forever吗?

Lex Fridman:

是的,而且GTA现在也只是在发布预告片。

Dario Amodei:

我们距离第一个Sonnet发布才三个月。

Lex Fridman:

是啊,发布速度真是惊人。

Dario Amodei:

这就说明了人们对发布时间的期望。

Lex Fridman:

那4.0呢?

00:37:54.666 - 00:39:55.250

Lex Fridman:

随着这些模型规模越来越大,你是如何看待版本命名的问题?为什么是Sonnet 3.5加上日期的方式?

Lex Fridman:

为什么不用很多人称呼的3.6?

Dario Amodei:

命名确实是个有趣的挑战。一年前,我们主要在做预训练时,可以从头开始规划,按照不同规模的模型来命名,把它们放在一起训练,建立一套命名体系,然后加入一些新的改进,再进入下一代。

但问题是,有些模型的训练时间比其他的要长得多,这就已经打乱了时间安排。当我们在预训练上有重大突破时,就能快速做出更好的预训练模型,虽然它们与之前的模型具有相同的规模和形状。这些因素加上时间问题,使得任何预设的命名方案都难以维持。

这与软件版本的3.7、3.8这样的命名完全不同,因为模型之间存在各种不同的权衡,有些推理更快,有些更慢,有些必须更贵,有些必须更便宜。所有公司都在面临这个挑战。我们之前用Haiku、Sonnet和Opus的命名方案是个不错的开始,我们在努力维持这个体系,但并不完美,会试着回归到更简单的方式。但就这个领域的特性来说,似乎没有人真正解决了命名问题,这与普通软件的范式完全不同。

00:39:55.250 - 00:42:02.000

Lex Fridman:

从用户体验来看,更新后的Claude 3.5 Sonnet与之前的版本有很大不同。我们需要一个标签系统来体现这种差异,因为人们谈论Claude 3.5 Sonnet时,现在已经有了不同的版本,这让讨论变得困难。

Dario Amodei:

相对于训练模型这个宏大的科学来说,这是我们意外地要花很多精力去处理的问题。模型有很多在基准测试中没有反映出来的特性,这一点大家都认同。这些特性不仅仅是关于能力的。模型可以表现得礼貌或简短,可以是被动的或主动提问的,可以给人温暖或冷淡的感觉。它们可能很无趣,也可能像Golden Gate Claude那样非常有特色。

我们有一个专门的Claude character团队,由Amanda领导,她会跟你详细聊这个。但这仍是一个很不精确的科学,我们经常发现模型有我们不知道的特性。就像和模型对话一万次,可能还是有些行为没见过,这就像人一样,我可能认识某人几个月,却不知道他们有某种技能或某些特质。我们必须适应这种情况,同时也在寻找更好的测试方法来展示这些能力,并决定哪些个性特征是我们想要的,哪些是不想要的。这个价值判断的问题本身也很有趣。

对Claude的批评

00:42:02.000 - 00:42:33.000

Lex Fridman:

我想问一个来自Reddit的问题。

Dario Amodei:

来自Reddit?哦,天哪。

Lex Fridman:

这是一个很有趣的现象,至少对我来说是这样,人们反映Claude变笨了。我想请教一下,关于Claude 3.5 Sonnet变笨的这些用户投诉是否有依据?这些反馈是纯粹的社会现象,还是Claude确实存在变笨的情况?

00:42:33.000 - 00:46:22.000

Dario Amodei:

这个问题不仅仅局限于Claude,我观察到这种抱怨实际上针对每个主要公司生产的基础模型,包括GPT-4和GPT-4 Turbo都遇到过类似的质疑。

实际上,模型的权重,也就是模型的'大脑',除非我们推出新模型,否则是不会改变的随意替换新版本在实践中是不合理的,这不仅从推理角度来看很困难,而且很难控制更改模型权重带来的所有后果。比如,如果想要微调模型减少说'certainly'这个词的频率,实际上会同时影响其他很多方面。我们有完整的流程来修改模型,包括大量测试和早期用户测试,而且我们从未在不告知的情况下更改过模型权重。

当然,我们确实有一些例外情况:首先是在新模型发布前会进行短期的A/B测试,比如在新的Sonnet 3.5发布前(我承认我们应该给它取个更好的名字),确实有用户因参与了短期A/B测试而感受到了改进;其次,系统提示词偶尔会改变,但这不太可能降低模型的能力。

尽管这些变化很少发生,但用户对模型变差、更受限或被降级的抱怨却一直存在。这可能有几个原因:

首先,模型对措辞非常敏感,比如'执行任务X'和'你能执行任务X吗?'这样的表述可能得到不同的结果。这本身就是我们和其他模型提供商的一个缺陷,反映出我们对模型工作原理的理解还很不充分。如果我今天晚上用某种方式与模型对话,第二天稍微改变了表述方式,就可能得到不同的结果。

其次,这些变化很难量化,而且人们往往在新模型发布时很兴奋,随着时间推移会越来越注意到它的局限性。但总的来说,除了这些有限的例外情况,模型基本上没有发生变化。

00:46:22.000 - 00:46:44.571

Lex Fridman:

我认为这是一种心理效应,你会逐渐适应它,期望的基准线也会随之提高。就像人们第一次在飞机上使用Wi-Fi时,会觉得这简直是一种魔法。

Dario Amodei:

这玩意根本连不上,真是一坨垃圾。

Lex Fridman:

没错,这就容易让人产生阴谋论,觉得'他们在让Wi-Fi变得越来越慢'。

00:46:44.571 - 00:47:06.000

Lex Fridman:

这个问题我可能会和Amanda详细讨论,这是来自Reddit的提问:'Claude什么时候才能停止像一个纯粹的触手祖母一样把它的道德观强加给付费用户?'还有,'为什么要让Claude表现得过分道歉?'这与性格有关。

00:47:06.000 - 00:50:12.000

Dario Amodei:

首先,社交媒体上Reddit、Twitter或X上人们抱怨的内容,与实际统计数据显示的用户关注点存在很大差异。用户主要关注模型在代码方面的能力不足,尽管它已经是世界上最好的代码模型。虽然大多数问题都是关于这方面,但确实有一些声音特别大的少数人对模型过度拒绝、过度道歉和一些令人烦恼的语言习惯表示不满。

我要特别明确地说明,控制模型的行为是非常困难的。你不能简单地让模型减少道歉。虽然你可以在训练数据中加入这样的指令,但这可能导致模型在其他情况下变得过于无礼或过度自信,产生误导。这里存在各种权衡。比如,之前我们的模型和其他模型都存在过于冗长的问题,会重复自己、说太多话。当我们试图通过惩罚过长输出来减少这种冗长时,模型在编写代码时可能会简单地说'剩余代码在这里',因为它学会了这种节省方式。这不是因为我们想节省计算资源,也不是什么假期懒惰的阴谋论,而是反映了在所有情况下控制模型行为的困难性。

这就像打地鼠游戏,你解决一个问题,其他问题就会冒出来,有些问题你可能都没注意到。这就是为什么我如此关注未来AI系统的整体对齐问题,因为这些系统实际上相当难以预测和控制。今天我们看到的这种改善一处就会损害另一处的现象,是我们可以开始研究的未来AI控制问题的现实写照。

00:50:12.000 - 00:51:40.000

Dario Amodei:

我认为在控制AI系统行为时存在困难,当我们试图把系统推向一个方向时,它可能会以我们不期望的方式在其他方面产生变化。我认为这是未来问题的早期征兆。比如说,如何让模型既能拒绝制造和传播天花病毒,又能在研究生级别的病毒学课程中提供帮助?这很难。很容易走向任一极端,而且这是个多维度的问题。

我认为塑造模型的行为特征非常困难。我们做得还不够完美。虽然我们可能是所有AI公司中做得最好的,但离完美还很远。如果我们能在当前这个受控环境中很好地处理假阳性和假阴性问题,将来在处理更大的挑战时就会做得更好。我们未来要担心的是:模型会变得超级自主吗?它们能制造非常危险的东西吗?它们能自主建立整个公司吗,这些公司是否符合目标?所以我认为当前的任务虽然令人烦恼,但也是为未来的很好练习。

00:51:40.000 - 00:53:57.500

Lex Fridman:

收集用户反馈的最佳方式是什么?不是说轶事数据,而是大规模收集关于痛点或正面反馈的数据。是通过内部测试吗?是特定群组测试、A/B测试吗?什么方式最有效?

Dario Amodei:

通常我们会进行内部model bashings,Anthropic现在有将近1000人,大家都会尝试与模型交互。我们有一套评估系统来检测模型是否存在不恰当的拒绝响应。

比如有一次,我们发现模型有个问题,会对各种问题回复'当然,我可以帮您解决这个问题'、'当然,我很乐意为您做这个'、'当然,这是正确的',所以我们专门开发了评估工具来检测'certainly'的使用频率。但这像打地鼠游戏,因为模型可能会从'certainly'转向'definitely'。我们有数百个这样的评估项目,但发现没有什么能替代真人交互测试。这很像普通的产品开发过程,我们有数百名内部员工测试模型,同时进行外部A/B测试,有时也会雇佣测试人员来与模型交互。

(编者按:没有什么能替代真人交互测试,这也是AI开发的真知灼见。)

Dario Amodei:

即便采取了这些措施,效果仍然不够完美。我们仍然会看到一些不想要的行为,比如模型在不应该的情况下拒绝响应。我们面临的挑战是,如何在阻止模型产生明显不当内容(比如关于儿童虐待的内容)的同时,避免过度拒绝。要尽可能精确地划分这条界限,我们每天都在进步,但仍有很多问题需要解决。

00:53:57.500 - 00:54:52.000

Dario Amodei:

这也表明了我们在控制更强大模型方面将面临的挑战。

Lex Fridman:

说到更强大的模型,你认为 Claude 4.0 会发布吗?

Dario Amodei:

我不想承诺具体的命名方案,因为如果现在说明年会推出 Claude 4,但之后我们决定因为新型模型而重新开始,这样的承诺就不合适。按照正常业务发展,Claude 4 会在 Claude 3.5 之后推出,但在这个疯狂的领域里谁也说不准。

Lex Fridman:

但这种模型规模的扩展还在继续,对吧?

Dario Amodei:

是的,扩展还在继续。我可以明确地说,我们未来一定会推出比现有模型更强大的模型。如果做不到这一点,就意味着公司深度失败。

AI 安全级别

00:54:52.000 - 00:58:45.571

Lex Fridman:

能否解释一下responsible scaling policy和AI safety level standards、ASL levels?

Dario Amodei:

虽然我对这些模型的潜在好处感到兴奋,但我仍然非常担心其风险。Machines of Loving Grace并不意味着我不再关注这些风险。这是一体两面的关系——模型在生物学、神经科学、经济发展、治理和和平等领域的强大解决问题能力,同时也带来了相应的风险。能力越大,责任越大。这两者是相互关联的,强大的事物既能做好事,也能做坏事。

我主要关注两类最大的风险,这并不是说当前没有重要的风险。第一类是灾难性滥用,指的是在网络、生物、放射性、核领域的滥用,这可能会危害或杀死数千甚至数百万人。这是我们最需要防范的。目前,人类社会得益于一个有趣的现象:高智商、受过良好教育的人与想做坏事的人群重叠较少。比如,一个拥有PhD和高薪工作的人,即使假设他完全邪恶,也不太可能冒着失去一切的风险去做真正邪恶的事。但AI可能打破这种相关性,这是一个严重的担忧。作为对Machines of Loving Grace的一个对比,我想说这些风险仍然存在,但我相信这些风险是可以预防的。

第二类是自主性风险。随着我们赋予模型更多代理能力,让它们编写整个代码库,甚至可能运营公司,我们很难详细理解和控制它们在做什么。在划定模型行为边界时存在困难,修复一个问题可能会导致其他问题。但这个问题正在不断改善,就像飞机、汽车或药品的安全问题一样,我们并不缺少关键要素,只需要继续改进对模型的控制。

00:58:45.571 - 00:59:44.666

Dario Amodei:

这是对你问题的一个很长的回答,我们的负责任扩展计划旨在解决这两种类型的风险。每当我们开发新模型时,都会测试它是否具有这些潜在的危险能力。

我们现在面临一个有趣的困境:AI系统还不够强大,尚未造成灾难性后果。我不确定这些灾难是否会发生,但风险的担忧足够强烈,而且AI正在极快发展,这意味着我们现在就必须采取行动。我在一年前在参议院作证时指出,在两到三年内可能会出现严重的生物风险,而事态一直在按预期发展。

00:59:44.666 - 01:02:34.200

Dario Amodei:

我们面临一个特殊的挑战:这些风险现在还不存在,它们就像幽灵一样,但由于模型进步速度很快,风险正在快速逼近我们。为了及时发现潜在风险,我们与METR组织和Paul Christiano合作开发了一个早期预警系统。每当有新模型发布时,我们都会测试它在CBRN相关任务和自主执行任务方面的能力。

在我们最新版本的RSP中,我们主要通过测试AI模型进行AI研究的能力来评估自主性风险,因为当AI能够进行AI研究时,它们就真正具备了自主性。这个阈值对很多其他方面都很重要。RSP采用了if-then结构,即当模型达到特定能力水平时,就会触发相应的安全和安保要求。

目前的AI系统属于ASL-2级别。ASL-1适用于明显不具有自主性或滥用风险的系统,比如国际象棋程序Deep Blue,它显然只能用于下棋,不可能用于发动网络攻击或试图控制世界。ASL-2级别的系统虽然功能更强大,但经过测量表明,它们还不够智能,无法自主复制或执行复杂任务。关于CBRN风险,这些系统虽然有时确实会提供超出Google搜索能找到的信息,但这些信息无法被系统地整合成具有危险性的内容。而ASL-3将是模型能够显著提升非国家行为者能力的阶段。

01:02:34.200 - 01:05:37.000

Dario Amodei:

目前国家级参与者已经能够熟练地进行许多危险和破坏性的活动,而非国家参与者还没有这种能力。当达到ASL-3级别时,我们将采取足够的特殊安全预防措施,防止模型被非国家参与者窃取和滥用,并需要加强特定领域的过滤措施。

Lex Fridman:

比如网络、生物、核武器这些领域?

Dario Amodei:

是的,这些领域,还有模型自主性。需要注意的是,模型自主性不是滥用风险,而是模型本身可能做出不当行为的风险。在ASL-4级别,模型可能增强已有知识的国家级参与者的能力,或成为主要风险来源。如果要进行这类风险活动,主要会通过模型来实现。在ASL-4级别,关于自主性方面主要体现为AI模型在AI研究能力上的加速。而ASL-5级别则是指模型在这些任务上的能力超过人类。

Dario Amodei:

基于多年与模型打交道和关注风险的经验,我认为过早警告风险是危险的。如果说某个模型有风险,而人们看到它明显无害,这会损害我们的可信度。风险现在还不存在,但正在快速接近,这对风险规划者来说确实令人困扰。我们不想通过对当前无害的模型施加繁重的限制而影响他人或损害自己在对话中的地位。

Dario Amodei:

因此,我们提出了if-then结构承诺。当能够证明模型是危险的时候就要采取强力措施,同时需要有足够的缓冲阈值以避免错过危险。这不是一个完美的框架,我们几周前刚发布了新版本,未来可能一年发布多次更新,因为从技术、组织和研究角度来说,制定这些政策都很困难。这个提议的核心是通过if-then承诺和触发,在当前最小化负担和误报,但在危险出现时做出适当反应。

ASL-3 和 ASL-4

01:05:37.000 - 01:06:24.000

Lex Fridman:

你认为ASL-3达到多个触发条件的时间线是什么?ASL-4的时间线又是什么?

Dario Amodei:

这是公司内部热烈讨论的话题。我们正在积极准备ASL-3的安全措施和部署措施。虽然不便详述,但在这两方面都取得了很大进展,并且很快就能准备就绪。我认为明年达到ASL-3不会令人意外,甚至今年就可能实现。虽然很难确切预测,但如果到2030年才实现会令我非常非常惊讶,我认为实现时间会比这早得多。

01:06:24.000 - 01:09:13.714

Lex Fridman:

有检测协议和响应协议,后者的难度如何?

Dario Amodei:

对于ASL-3级别,我们主要关注安全性和模型部署时的过滤机制。因为这个阶段的模型还没有达到自主性,在内部部署时不需要担心模型本身的不当行为。虽然ASL-3的措施很严格,但相对容易推理。

当我们谈到ASL-4时,情况就变得复杂了。这个阶段的模型可能会在测试中作假,隐藏自己的能力。我们已经看到了关于sleeper agents的研究结果,以及模型可能误导评估其能力的问题。因此,ASL-4需要使用额外的验证方法,比如mechanistic interpretability或hidden chains of thought,通过不易被模型操纵的机制来验证模型特性。我们仍在研究ASL-4,按照RSP的规定,在达到ASL-3之前不会指定ASL-4的具体内容。这是明智的决定,因为即使是ASL-3也很复杂,需要充分时间确保正确性。

Lex Fridman:

所以ASL-3主要是防范人类不当行为?

Dario Amodei:

是的,ASL-3主要防范人类不当行为,而ASL-4则需要同时防范人类和AI模型。Mechanistic interpretability在这里很重要,但这些技术不应该被模型访问。如果将可解释性工具连接到模型本身,就失去了可靠性指标。我们还考虑了一些极端情况,比如如果模型足够智能可能会跨计算机读取检测其内部状态的代码。虽然这些情况很极端,但我们有办法降低其可能性。

计算机使用

01:09:13.714 - 01:09:40.000

Dario Amodei:

一般来说,你希望将机械可解释性作为一个独立于模型训练过程的验证集或测试集来保留。

Lex Fridman:

随着这些模型在对话能力上变得越来越好,越来越智能,社会工程也成为一个威胁,因为它们可能开始对公司内部的工程师产生很强的说服力。

Dario Amodei:

我们在生活中已经看到了很多来自人类的蛊惑性言论的例子,而且有担忧模型也可能会这样做。

01:09:40.000 - 01:11:44.285

Lex Fridman:

Claude 最近变得越来越强大,现在已经能够进行一些代理性的计算机操作。除了在 Claude.ai 沙盒内的分析功能,它现在可以执行任务,通过截图来访问和控制你的计算机。你能解释一下这是如何工作的,以及它的发展方向吗?

Dario Amodei:

这其实相对简单。从今年3月的 Claude 3 开始,我们的模型就有能力分析图像并用文本回应。我们新增的功能是,这些图像可以是计算机截图,我们训练模型来指出屏幕上可以点击的位置和需要按下的键盘按键。实际上只需要很少的额外训练,模型就能很好地完成这个任务。这是泛化能力的一个很好的例子。人们常说到达低地球轨道就是到达任何地方的一半,因为突破引力需要巨大的能量。同样,如果你有一个强大的预训练模型,在智能空间中就已经完成了一半的路程。你可以循环这个过程:给模型一个截图,它告诉你点击什么,然后给它下一个截图,它继续指导操作,这就形成了一个完整的、类似3D视频的交互过程。我们展示了一些演示,模型能够填写电子表格、与网站交互,还能在 Windows、Linux、Mac 等不同操作系统上打开各种程序。

01:11:44.285 - 01:13:01.125

Dario Amodei:

理论上通过给模型API来控制电脑屏幕也能实现同样的事情,但这种方式大大降低了使用门槛。很多人可能无法直接使用API,或需要花费很长时间。屏幕是一个更通用和易于交互的界面,这将降低很多使用门槛。

当前模型还有很多不足,我们在博客中也坦诚地提到了这一点。它会出错,会点错。我们特别提醒用户不能让它在电脑上长时间运行,需要给它设置边界和护栏。这是我们首先以API形式发布而不是直接让消费者控制他们的电脑的原因之一。

我认为让这些能力可用是很重要的。随着模型变得更强大,我们需要思考如何安全地使用这些能力,如何防止它们被滥用。我认为在能力还有限的时候发布模型,对于解决这些问题很有帮助。

01:13:51.000 - 01:16:38.000

Lex Fridman:

这里的应用场景可能性非常广泛。为了让它在未来更好地工作,需要在预训练模型基础上做多少额外工作?比如post-training、RLHF、监督微调或针对agent的合成数据等。

Dario Amodei:

我们会继续投入大量资源改进模型。在某些基准测试中,之前的模型成功率只有6%,现在我们的模型已经达到了14%或22%。我们的目标是达到人类水平的80-90%的可靠性。就像SWE-bench一样,我预计一年后,模型将能非常可靠地完成这些任务。

Lex Fridman:

你认为用现有方法就能达到90%的人类水平,还是需要特殊的computer use相关技术?

Dario Amodei:

这取决于你如何定义'特殊',但我认为现有的训练技术应该足够,这些技术在代码、图像输入、语音等领域都已经证明了可扩展性。

Lex Fridman:

这赋予了Claude行动能力,既可以做很多强大的事情,也可能造成损害。

Dario Amodei:

是的,我们非常清楚这一点。我认为computer use不像CBRN或自主性能力那样是一个根本性的新能力,它更像是为模型打开了一个使用和应用现有能力的通道。从RSP角度来看,这个功能本身不会增加风险,但当模型获得ASL-3和ASL-4级别的认知能力时,这个功能可能会让模型不受约束。因此,我们会继续测试和监控这种交互模式。我认为在模型变得超级强大之前探索这种能力是更好的选择。

01:16:38.000 - 01:17:45.000

Lex Fridman:

现在有很多有趣的攻击方式,比如prompt注入。因为攻击面已经扩大,攻击者可以通过屏幕上的内容进行注入。如果这项技术变得越来越有用,那么通过注入来影响模型的动机就会越来越大。比如当它访问网页时,可能会遇到无害的广告,也可能是有害的内容。

Dario Amodei:

我们考虑了很多关于垃圾信息、验证码等问题。有一个规律是,当你发明了新技术,最先看到的滥用往往不是最大的威胁,而是各种低级诈骗。这是自古以来就存在的问题,每次都需要去应对。

Lex Fridman:

确实,随着机器人和垃圾信息变得越来越智能,对抗它们也变得越来越困难。

Dario Amodei:

是的,世界上有很多低级犯罪分子,每一项新技术都会成为他们进行愚蠢和恶意行为的新途径。

01:17:45.000 - 01:19:36.000

Lex Fridman:

关于沙盒措施,你们是如何处理的?这个任务有多困难?

Dario Amodei:

我们在训练期间确实使用了沙盒。比如,我们不允许模型接触互联网,因为在训练过程中模型可能会改变其策略和行为,这可能会对现实世界产生影响。至于模型部署阶段,沙盒策略主要取决于具体应用场景。有时候我们确实需要模型与现实世界进行交互,但我们可以在外部设置guard rails,比如限制模型在计算机或服务器之间传输文件。

Dario Amodei:

当我们谈到ASL-4时,这些预防措施就不够用了。理论上,模型可能足够聪明,能够突破任何沙盒限制。因此,我们需要考虑mechanistic interpretability,如果要建立沙盒,就需要在数学上可证明其有效性。这与我们当前处理的模型情况完全不同。

Lex Fridman:

是的,这涉及到构建一个ASL-4系统无法逃脱的沙盒的科学。

Dario Amodei:

我认为这可能不是正确的方向。与其试图防止未对齐的系统逃脱,不如从一开始就正确设计模型。我们应该建立一个循环,通过查看模型内部并验证其属性,从而有机会进行迭代和改进。我认为,控制有问题的模型比构建好的模型是更差的解决方案。

政府对人工智能的监管

01:19:36.000 - 01:22:57.200

Lex Fridman:

让我们谈谈AI监管。监管在确保AI安全方面扮演什么角色?能否谈谈加州AI监管法案SB 1047及其利弊?这个法案最终被州长否决了。

Dario Amodei:

我们为这个法案提出了一些建议,部分建议被采纳。尽管法案仍有不足,但我们对最终版本持积极态度。法案的核心理念与我们的RSP相似。我认为某个司法管辖区,无论是加州、联邦政府还是其他国家和州,都需要通过类似的法规。我可以解释为什么这如此重要。

我们的RSP虽然不完美,需要大量改进,但已经是个很好的推动力,让公司将这些风险纳入产品规划,使其成为Anthropic的核心工作。现在公司近千名员工都明白这是公司最高优先级之一。

但是,有些公司还没有RSP机制,比如OpenAI。虽然Google在我们之后采用了这些机制,但其他一些公司完全没有。如果五家公司中有三家采取安全措施,另外两家不采取,这种不一致会产生负外部性。这对我们这些投入大量精力制定这些程序的公司来说并不公平。

我认为不能完全依赖这些公司自愿遵守计划。我希望Anthropic会遵守,我们通过长期利益信托来确保遵守RSP。但你经常听说有公司说要提供多少算力却没做到,说要做某事却没做到。我不想具体评论某些公司的行为,但如果没有监管,如果没有人监督我们这个行业,就无法保证我们会做正确的事,而风险却很高。我们需要一个统一的标准,确保整个行业遵守大多数公司已经认可的重要准则。有些人出于原则反对监管。

01:22:57.200 - 01:23:33.600

Dario Amodei:

我理解这种想法的来源。以欧洲的GDPR为例,他们做了很多这样的事情。其中有一些是好的,但也有一些是不必要的负担,可以说确实阻碍了创新。我理解人们基于过往经验会有这样的想法,也理解为什么人们会从这个角度出发。但是,我认为AI是不同的。

01:23:33.600 - 01:26:04.666

Dario Amodei:

对于自主性和滥用带来的非常严重的风险,我认为这些都是特殊的情况,需要采取异常强有力的应对措施。我们需要制定一个能够得到所有人支持的方案。

SB 1047法案,尤其是其最初版本,虽然包含了基本的监管框架,但存在操作繁琐、造成不必要负担,甚至可能无法有效应对实际风险等问题。在Twitter上看不到深入的讨论,只看到人们在为任何形式的监管叫好。反对者则经常提出一些缺乏诚意的论点,比如说这会导致企业离开加州——实际上不管你是否在加州设立总部,只要在加州开展业务就适用——或者说这会损害开源生态系统。这些反对意见大多是无稽之谈,但确实存在一些更有价值的反对监管的论点。

学者Dean Ball对监管实施后可能产生的自我延续效应和设计不当的问题进行了深入研究。我们支持对AI领域进行监管,但希望确保监管措施是精准的,针对严重风险,且企业能够切实遵守。监管支持者需要明白,设计不当的监管会导致企业不得不雇佣十个律师处理文书工作,对明显无害的事物进行测试。这种情况持续六个月后,就会形成反对监管的持久共识。因此,设计不当的监管才是真正问责制的最大敌人。

01:26:04.666 - 01:28:44.000

Dario Amodei:

我们需要把AI监管做对。我希望监管支持者能更好地理解这种动态,我们需要非常谨慎,需要与那些有监管实践经验的人交流。有实践经验的人都明白要非常谨慎。如果这是一个不那么重要的问题,我可能会完全反对监管。但我希望反对者能理解,潜在的问题确实很严重。这些问题不是我们或其他公司为了监管俘获而编造的,也不是科幻幻想。

每次我们有新模型时,每隔几个月我们都会测量这些模型的行为,它们在令人担忧的任务上的能力与在有价值的经济任务上的能力一样在不断提升。我真希望一些最理性的反对者和支持者能坐下来讨论SB 1047这个引发很大争议的法案。

Anthropic是唯一一个详细表达支持态度的AI公司,Elon只是简短地发推表示了支持,但Google、OpenAI、Meta、Microsoft等大公司都强烈反对。我真的希望一些关键利益相关者能坐下来讨论如何解决这个问题,既能让支持者感到风险真正得到降低,又能让反对者觉得对行业和创新的限制不会超过必要程度。但事情变得过于两极化,这两个群体没能像应该的那样进行对话。

我感到紧迫。我认为我们需要在2025年采取行动。如果到2025年底我们仍然什么都没做,我会很担心。我现在还不担心,因为风险还没有到来,但时间不多了。

01:28:44.000 - 01:29:04.000

Lex Fridman:

提出一些如手术般精确的方案。

Dario Amodei:

我们需要摆脱极端安全派与极端反监管派之间的对立,这种对立已经演变成Twitter上的口水战,这样的争论不会带来任何建设性的结果。

01:29:04.000 - 01:29:19.400

Lex Fridman:

对AI领域的不同参与者都很好奇。OpenAI是这个领域的OG之一。你在OpenAI有几年的工作经验。能讲讲你在那里的经历和故事吗?

01:29:19.400 - 01:31:11.000

Dario Amodei:

我在OpenAI工作了大约五年,最后几年担任研究副总裁。我和Ilya Sutskever主要负责设定研究方向。在2016或2017年,Ilya说了一句让我确信扩展假说的话:'你需要理解的是,这些模型就是想要学习。模型就是想要学习。'有时候就是这样一句话,当你听到它时,就能解释你见过的千万种现象。从那以后,我脑海中就有了这样的画面:只要正确优化和引导模型,它们就会自发地学习,无论面对什么问题都想要解决。

Lex Fridman:

这么说,关键是要给它们空间,不要妨碍它们?

Dario Amodei:

没错,不要强加自己对学习方式的想法。这与Rich Sutton的'bitter lesson'和Gwern的'scaling hypothesis'观点是一致的。在受到Ilya和GPT-1创建者Alec Radford的启发后,我和团队开发了GPT-2、GPT-3,同时也致力于RL from Human Feedback这样的安全性和可靠性研究,以及debate、amplification和interpretability等技术。2018到2020年间,我和后来成为Anthropic联合创始人的同事们一起推动了这个将安全性与扩展性相结合的研究方向。

(编者按:模型就是想要学习,不要强加自己的学习方法给模型,也是AI应用开发的踩坑教训。)

01:31:11.000 - 01:33:01.000

Lex Fridman:

你为什么离开?你为什么决定离开?

Dario Amodei:

你看,我想这样说,这与追求卓越的理念有关。在 OpenAI 的时间里,我逐渐认识并理解了扩展假设的重要性,同时也认识到了与之相关的安全问题的重要性。OpenAI 接受了第一点,而安全问题从一开始就是 OpenAI 宣传的一部分。在那几年里,我形成了关于如何处理这些事情、如何在世界上展示、组织应该遵循什么原则的特定愿景。我们有过很多很多关于公司该做什么、不该做什么的讨论。

外界有很多错误信息。有人说我们离开是因为不喜欢与微软的交易,这是错误的,尽管确实有很多关于如何具体执行这个交易的讨论和问题。有人说我们离开是因为不喜欢商业化,这也是错误的,因为我们参与构建了被商业化的 GPT-3,我本人也参与了商业化过程。

关键是如何做这些事。文明正在走向强大的 AI 这条路,我们需要用谨慎、直接、诚实的方式来做,需要建立对组织和个人的信任。我们需要思考如何从现在到达那里,如何有一个真正的愿景来做对这件事。安全不能仅仅是为了帮助招聘才提及的事情。如果你有自己的愿景,就不用去管别人的愿景了。

01:33:01.000 - 01:35:08.700

Dario Amodei:

我不想谈论别人的愿景。如果你有自己的愿景,就应该去实现它,而不是试图与他人的愿景争论。你可能会认为他们的做法不对或不诚实,但这些判断可能对也可能错。

最重要的是找到你信任的人,一起去实现你的愿景。如果你的愿景足够有说服力,能在道德和市场层面吸引人,能建立一个人们愿意加入的公司,采取人们认为合理的实践,同时在生态系统中保持竞争力,人们自然会效仿当你做得比他们更好时,这种影响力远比作为下属与他们争论更有效。我不知道该如何更具体地说明这一点。

更有成效的做法是开展一次全新的尝试,明确表示'这是我们的愿景和做法,你们可以选择忽视、拒绝或效仿。'模仿是最真诚的奉承。这种影响会体现在客户、公众的反应和人才的选择上。最终,这不是关于一家公司战胜另一家公司如果我们或其他公司采用了真正有价值的实质性做法,而不是表面文章——研究人员在这方面有着敏锐的判断力——而其他公司效仿并因此成功,这本身就是一种成功。

01:35:08.700 - 01:37:06.000

Dario Amodei:

这就是竞争向上。只要大家都在互相借鉴好的做法,最后谁赢并不重要。我们真正担心的是竞争向下,因为在这种情况下,不管谁赢我们都会输。在最极端的情况下——这话说起来有点开玩笑的意味——我们可能会创造出让机器人奴役我们的自主AI。那时候哪家公司领先都无所谓了。

相反,如果能创造一个竞争向上的环境,让大家竞相采用好的实践,那么最终谁赢、谁最先发起这种良性竞争都不重要。关键不是要显得多么高尚,而是要让整个系统达到更好的平衡。个别公司可以在这个过程中发挥作用,可以帮助启动和加速这个过程。实际上,当我们发布RSP时,其他公司的人会推动在他们那里实施类似的做法。同样,当其他公司做出好的实践时,我们也会说'这很好,我们也应该采用'。

我们的区别只在于更加积极主动,会首先采用更多这些实践,在别人发明新实践时也会更快地跟进。这种动态才是我们应该关注的重点,它超越了哪家公司领先、谁信任谁这些问题。所有这些戏剧性的问题都毫无意义,真正重要的是如何改善我们共同运营的生态系统,因为这个生态系统约束着所有参与者。

(编者按:这一段言论让我对Amodei肃然起敬,虽然有人会认为是PR,但我更倾向于他是坦诚的。)

01:37:06.000 - 01:38:25.000

Lex Fridman:

Anthropic 是否是一个建立在 AI 安全具体应该是什么样子这个基础上的纯粹实验?

Dario Amodei:

我们在发展过程中肯定犯过很多错误。完美的组织是不存在的,我们需要处理上千名员工的不完美,需要处理包括我在内的领导层的不完美,还要处理董事会和长期利益信托等监督机构的不完美。这是一群不完美的人在努力追求一个永远无法完美实现的理想。但不完美并不意味着要放弃,事情总有好坏之分。我们希望能够建立一些全行业都能采用的实践。我预计多家公司都会取得成功,Anthropic 会成功,其他公司包括我之前工作过的公司也会成功。有些公司会比其他公司更成功,但这不是最重要的。更重要的是调整整个行业的激励机制,这种调整部分通过向上竞争实现,部分通过 RSP 实现,部分通过有针对性的监管实现。

(编者按:这是一群不完美的人在努力追求一个永远无法完美实现的理想。但不完美并不意味着要放弃,事情总有好坏之分。简直就是电影台词,全文抄录,脱帽致敬。)

雇用一支优秀的团队

01:38:25.000 - 01:41:41.000

Lex Fridman:

你说人才密度比人才总量更重要,能解释一下吗?能谈谈如何建立一个优秀的AI研究和工程团队?

Dario Amodei:

这个说法每个月都变得更加真实。让我做个思想实验:假设你有两个选择,一个是100个超级聪明、有动力且与使命高度一致的人组成的团队,另一个是1000人的团队,其中200人是超级聪明、与使命高度一致的人,另外800人是随机选择的大科技公司员工,你会选择哪个?

虽然1000人的团队在人才总量上更大,但问题在于,当每个超级有才华的人环顾四周,都能看到同样超级有才华、超级投入的同事时,这会为一切定下基调。这让每个人都受到启发,彼此之间建立信任。如果你有1000人或1万人的团队,却没有严格的选拔而是随机选人,就需要设置大量流程和规则来处理信任问题和政治争端,这会大大降低组织运转效率。

我们现在接近1000人规模。我们努力让尽可能多的员工都是超级有才华、技术精湛的。这也是我们最近几个月放慢招聘的原因之一。我们在今年头7、8个月从300人增长到800人,之后3个月只增加到900到950人左右——具体数字不要引用。我认为1000人是个转折点,我们需要更谨慎地考虑增长。

早期到现在,我们都招募了很多物理学家,因为理论物理学家学习能力特别强。最近我们在研究和软件工程两个方向都保持很高的招聘标准,招募了很多资深人才,包括来自这个领域其他公司的人才。

从100人扩张到1000人再到10000人时,很容易忽视确保每个人都有统一目标的重要性。如果你的公司变成各自为政的诸侯领地,每个部门都只追求自己的目标,就很难完成任何事情。但如果每个人都理解公司的更广泛目标,有信任和做正确事情的决心,这就是一种超能力,几乎可以克服任何其他劣势。

01:41:41.000 - 01:44:34.000

Lex Fridman:

就像Steve Jobs说的,A players希望看到周围都是A players。看到其他人不是在痴迷地追求单一使命是令人沮丧的,而看到这种专注则非常激励人。成为一个优秀的AI研究人员或工程师需要什么?

Dario Amodei:

最重要的品质是开放思维,尤其是在研究方面。这听起来很容易,但实际并非如此。以scaling hypothesis为例,我看到的数据和其他人一样,我在编程或研究想法方面并不比其他同事更优秀,在某些方面甚至更差。在精确编程、找bug、编写GPU内核方面,这里有上百人比我强。

但我的不同之处在于愿意用新的视角看问题。当别人说'我们还没有正确的算法'时,我会想'这个神经网络有30 million参数,如果给它50 million会怎样?让我们画些图表看看。'这种基础的科学思维方式就是观察可以改变的变量,看看改变后会发生什么,创建图表。这很简单且笨拙,不需要PhD级别的实验设计,任何人只要知道这很重要就能做到。但把这些结合起来,仅仅个位数的人推动了整个领域的发展。

历史上的发现往往都是这样的。这种开放思维和用新视角看问题的能力,往往来自于领域新人,经验反而可能是劣势。这种品质很难寻找和测试,但当你找到一个新的思维方式时,它是具有变革性的。

01:44:34.000 - 01:47:14.000

Lex Fridman:

对于想要进入AI领域的年轻人,想要对世界产生影响,你有什么建议?

Dario Amodei:

我的首要建议是直接开始使用这些模型。这个建议现在看起来很显然,但三年前的情况不同,那时人们会先去读最新的强化学习论文。现在随着模型和API的普及,人们开始这样做了。这些模型是全新的产物,没有人真正理解它们,所以获得实践经验很重要。

Dario Amodei:

我建议探索新的研究方向,有很多领域还未被充分研究。比如机制可解释性领域仍然很新,一些早期工作非常简单,只是之前没人想到关注这些问题。相比开发新的模型架构,研究这个可能更有价值。目前大约有100人在做这个领域,而不是10000人。这是一个富有成果的领域,有很多容易获得的成果,但不知为何人们对此兴趣不够。此外,长期学习和长期任务、评估方法(特别是对于在现实世界中行动的动态系统)、多智能体系统等领域都有很多工作要做。

Dario Amodei:

我的建议是要预见未来的发展方向。不需要很聪明就能想到这些方向。五年后会成为热点的东西,现在就已经被提到过,但人们似乎有某种障碍,不愿意投入太多,或害怕做不够流行的事情克服这个障碍是我最重要的建议。

Post training

01:47:14.000 - 01:49:17.000

Lex Fridman:

让我们谈谈post-training。现代post-training的配方似乎包含了多个组成部分:supervised fine-tuning、RLHF、constitutional AI with RLAIF,还有synthetic data。看起来使用了大量的synthetic data,或者至少在努力寻找获取高质量synthetic data的方法。如果这些是让Anthropic Claude如此出色的秘密配方,那么pre-training和post-training各自发挥了多大作用?

Dario Amodei:

首先,我们自己也无法完全衡量这一点。当你看到某个出色的能力表现时,有时很难判断它是来自pre-training还是post-training。虽然我们开发了一些区分方法,但这些方法并不完美。

其次,即便我们在RL方面可能做得最好——虽然我不了解其他公司内部的情况——但优势通常不是来自某个神奇的秘密方法,而是来自于我们能够改进基础设施以便更长时间运行,或者获得更高质量的数据,或者更好地过滤数据,或者更好地在实践中组合这些方法。这通常是一些枯燥的实践和技艺问题。所以当我思考如何在训练这些模型方面做出特别的成果时,我更倾向于将其比作设计飞机或汽车,不是简单地说我有了蓝图就能造出下一架飞机,思考如何设计过程的文化和技艺更为重要。

(编者按:这个比喻非常有启发,和过去的软件开发完全不同,我们没有蓝图,过程即是结果。)

01:49:20.666 - 01:51:53.600

Lex Fridman:

让我们谈谈具体的技术。关于RLHF,从宏观角度来看,你认为为什么它效果如此显著?

Dario Amodei:

如果回到scaling hypothesis,其中一种方式是,如果你为X投入足够的计算资源,就能得到X。RLHF擅长让模型执行人类想要的行为,或者更准确地说,是产生人类在短时间观察并考虑不同可能回应后更倾向的结果。这从安全性和能力角度来看并不完美,因为人类往往无法准确识别模型的意图,而且人类当下的偏好可能与长期利益不符。模型确实擅长产生人类表面上想要的东西。有趣的是,由于强大的预训练模型已经'halfway to anywhere',你实际上不需要投入太多计算资源。一旦你有了预训练模型,你就已经拥有了让模型达到目标所需的所有表征。

Lex Fridman:

那么你认为RLHF是让模型变得更聪明,还是只是让它看起来更聪明?

Dario Amodei:

我不认为它让模型变得更聪明,也不认为它仅仅让模型看起来更聪明。RLHF是在弥合人类和模型之间的差距。就像我们都认识一些人,他们很聪明但无法让人理解他们在说什么。RLHF就是在弥合这个差距。

这不是我们进行的唯一类型的强化学习,也不会是未来唯一的强化学习方式。我认为强化学习有潜力让模型变得更聪明、推理更好、运作更好,甚至开发新技能。在某些情况下,这些可能通过人类反馈来实现。但目前的RLHF还没有达到这个程度,尽管我们正在快速接近这个能力。RLHF确实提高了模型的帮助性,它也增加了Leopold文章中提到的'unhobbling'——我特别喜欢这个罕见的词——它在某些方面解除了模型的限制。

Constitutional AI

01:51:58.000 - 01:52:39.000

Lex Fridman:

从成本角度来看,预训练是最昂贵的部分吗?

Lex Fridman:

还是后训练的成本在逐渐接近这个水平?

Dario Amodei:

目前预训练仍然占据主要成本。不过我认为未来可能会发生变化,后训练可能会成为主要成本。

Lex Fridman:

在你预期的那个未来,后训练成本中是人力还是AI会成为主要支出?

Dario Amodei:

我认为人力无法扩展到足够高的质量水平。任何依赖人力且使用大量计算资源的方法,都需要依赖某种可扩展的监督方法,比如辩论或迭代放大等技术。

01:52:39.000 - 01:55:05.000

Lex Fridman:

能否介绍一下2022年12月论文中提出的Constitutional AI概念?

Dario Amodei:

这是两年前的事。让我先解释一下RLHF。在RLHF中,模型会对同一输入采样两次,生成两个可能的回答,让人类选择更好的那个,或者对单个回答进行1到7分的评分。这种方法的问题在于需要大量人类交互,而且很隐式。我们很难确切知道自己想要模型做什么,只能得到1000个人类平均期望的结果。

(编者按:这就是大模型的回复往往很General的原因。)

Constitutional AI提出了两个关键想法:首先,让AI系统自己判断哪个回答更好;其次,确定AI使用什么标准来判断。我们使用一个'宪法'文档来定义模型应该遵循的原则。AI系统会阅读这些原则,同时考虑环境和回答来评估模型的表现。这是一种self-play的形式,模型通过preference model评估响应,然后反馈来改进模型本身,形成了AI、preference model和AI改进三者之间的循环。

Lex Fridman:

这个宪法中的原则是人类可理解的,对吧?

Dario Amodei:

是的,这些原则同时可以被人类和AI系统理解,具有很好的可转译性和对称性。在实践中,我们同时使用模型宪法、RLHF和其他方法。Constitutional AI减少了对RLHF的需求,同时提高了每个RLHF数据点的价值。它与未来推理类型的强化学习方法有有趣的交互。虽然只是工具箱中的一个工具,但是很重要的工具。

01:55:05.000 - 01:56:45.833

Lex Fridman:

对我们人类来说这是一个引人深思的问题。想到美国开国元勋和美国的建国,自然而然的问题是:谁来定义宪法,如何定义宪法中的原则?

Dario Amodei:

我会给出一个实践层面的答案和一个更抽象的答案。

从实践角度看,模型会被各种不同的客户使用,所以模型可以有专门的规则或原则。我们会隐式地微调模型版本,也讨论过显式地让人们能够在模型中构建特殊原则。

从实践角度看,不同人的答案可能很不同,比如客服人员和律师的行为和遵循的原则就很不同。

但在基础层面,模型必须遵循一些特定的原则。我认为很多原则是人们都会同意的,比如每个人都同意我们不希望模型带来CBRN风险。我们可以进一步同意一些基本的民主和法治原则。超出这些范围就变得很不确定,我们的目标是让模型保持更中立,不表达特定观点,而是作为智慧的助手帮助你思考问题并提供可能的考虑因素,但不表达强烈或具体的观点。

Lex Fridman:

OpenAI发布了一个模型规范,明确定义了模型的一些目标和具体的AB行为示例。

01:56:45.833 - 01:58:06.000

Lex Fridman:

你觉得这个有意思吗?顺便说一下,我相信杰出的 John Schulman 也参与其中,他现在在 Anthropic。你觉得这是个有用的方向吗?Anthropic 是否也会发布模型规范?

Dario Amodei:

是的,我认为这是一个很有用的方向,它与 Constitutional AI 有很多共同点。这是另一个向顶层竞争的例子。我们开发了一种我们认为更好、更负责任的方法,这也成为了竞争优势。当其他人发现这些优势并开始采用时,我们就失去了竞争优势,但从整体来看这是好事,因为现在大家都采用了这种积极的实践。这促使我们需要寻找新的竞争优势来继续推动这种向上的竞争。每种实现方式都有其特点,比如模型规范中就包含了一些 Constitutional AI 没有的内容,我们可以采用这些内容或从中学习。这是我认为这个领域应该具有的积极发展动态的一个例子。

Machines of Loving Grace

01:58:06.000 - 01:58:12.000

Lex Fridman:

让我们来谈谈那篇精彩的文章《Machines of Loving Grace》。我推荐大家都去阅读它。这是一篇很长的文章。

01:58:16.666 - 01:58:47.000

Lex Fridman:

读到关于积极未来的具体想法真的很令人耳目一新。虽然在具体日期和应用方面可能会有错误,但你还是采取了大胆的立场。

Dario Amodei:

哦,是的。我完全清楚自己肯定会在所有细节方面都出错。甚至可能整个预测都会出现重大错误,让人笑话好多年。这就是未来的规律。

Lex Fridman:

你详细描述了AI可能带来的积极影响,特别是超级智能AI如何能够加速生物学和化学领域的突破,进而实现治愈大多数癌症、预防所有传染病、将人类寿命延长一倍等目标。

01:59:11.800 - 02:00:11.000

Dario Amodei:

我投入了大量时间,Anthropic也投入了大量精力来思考如何应对AI风险。我们如何看待这些风险?我们在尝试进行一场向上的竞争,这需要我们构建各种能力,这些能力确实很酷。但是,我们的一个重要目标是应对风险。

理由是这样的,市场是个很健康的有机体,它会自然产生各种积极的发展。至于风险?我们可能会缓解它们,也可能不会。因此我们可以通过尝试缓解风险来产生更大的影响。但是,我注意到这种思维方式有一个缺陷,这不是我对风险严重性认知的改变,而可能是我谈论风险方式的改变。无论我刚才给出的这种推理可能多么合乎逻辑或理性,如果你只谈论风险,你的大脑就只会思考风险。

02:00:11.000 - 02:02:09.000

Dario Amodei:

我认为理解如果事情进展顺利会怎样是非常重要的。我们试图防范这些风险,并不是因为害怕技术或想要减缓它的发展。相反,如果我们能够度过这些风险,成功闯过这个难关,在另一端等待着我们的是很多美好的事物。这些事物值得我们为之奋斗,能真正激励人们。

现在有很多投资者、风投和AI公司都在谈论AI的积极影响,但奇怪的是,实际上缺乏具体的讨论。在Twitter上有很多人发布闪耀的城市图片,表现出一种不断磨练、加速前进的激进态度。然而当你追问'你究竟对什么感到兴奋'时,往往得不到具体答案。

正因如此,我认为让一个关注风险的人来解释AI的收益是很有意思且有价值的,因为这是我们都能支持的。我希望人们理解,这不是末日主义者对加速主义者的对立。如果你真正理解AI的发展方向,这可能是更重要的维度,即AI是否在快速发展,那么你就会真正理解这些收益,并希望人类文明能够获得这些收益。但同时,你也会认真对待任何可能使我们偏离这个目标的因素。

02:02:09.000 - 02:05:03.000

Lex Fridman:

让我们谈谈Powerful AI这个术语。大多数人使用AGI这个词,但你不喜欢它,因为它带有太多包袱,已经变得毫无意义。我们似乎不得不接受这些术语,不管喜欢与否。

Dario Amodei:

让我用一个例子来说明。想象在1995年,当摩尔定律使计算机变得越来越快时,人们总是谈论'超级计算机',说它将能够完成基因测序等各种任务。虽然计算机确实在变快,能力也在提升,但没有一个明确的临界点来区分超级计算机和普通计算机。'超级计算机'只是描述比当前更快的计算机的模糊术语。我认为AGI也是类似的情况。

如果AGI指的是AI正在逐渐变得更好,逐步实现更多人类能做的事,最终会超越人类智能并继续发展,那么我相信AGI。但如果AGI被视为某种离散或独立的事物,那它就只是一个毫无意义的术语。

Lex Fridman:

对我来说,这就像是一个强大AI的理想形态。具体来说,它在纯智力方面比诺贝尔奖得主在其巅峰时期更聪明,在所有相关学科都具有创造力和生成新想法的能力。它能够使用所有模态进行操作,能够独立规划和执行持续数小时、数天甚至数周的任务,只在需要时寻求帮助。虽然它可能不是具身的,但能控制具身工具,如机器人和实验室设备。而且,用于训练它的资源可以重新用于运行数百万个能独立工作的副本。

02:05:49.000 - 02:07:37.454

Lex Fridman:

你在文章中写道,'显然这样的实体能够非常快速地解决非常困难的问题,但要确定具体有多快并不简单。我认为两个极端立场都是错误的。'这里说的奇点是一个极端,那么这两个极端分别是什么?

Dario Amodei:

让我来说明一下第一个极端。你看,如果回顾进化历史,我们看到了一个巨大的加速过程:数十万年里我们只有单细胞生物,然后出现了哺乳动物,接着是猿类,之后迅速演化为人类,人类又快速建立了工业文明。按照这种观点,这种加速会持续下去,人类水平并不是上限。一旦模型变得比人类更聪明,它们就会擅长构建下一代模型。这会形成一个指数级增长的过程,模型会不断构建更快的模型。这些模型最终会建造纳米机器人,接管世界并产生比现有方式更多的能量。

如果你用一个抽象的微分方程来描述这个过程,那么在我们建造出第一个超越人类的AI后的五天内,世界就会被这些AI填满,所有可能的技术都会被发明出来。我这里是有点戏谑化地描述这个极端观点。但我认为这种观点是错误的,因为它忽视了物理定律。在物理世界中,事物的发展速度是有限的。一些发展循环需要通过生产更快的硬件来实现,而生产更快的硬件需要很长时间。

02:07:37.454 - 02:08:08.000

Dario Amodei:

事情需要很长时间。这涉及到复杂性的问题。人们总是说'哦,我们可以建立生物系统的模型,这些模型能做到生物系统能做的一切'。我认为计算建模确实可以做很多事情,我在生物学领域工作时就做过很多计算建模。但有很多事情你无法预测,它们太复杂了,以至于简单地进行实验、不断迭代会比任何建模都更有效,无论建模系统多么智能。

02:08:08.000 - 02:11:00.125

Lex Fridman:

即使不与物理世界交互,建模本身也会很困难吗?

Dario Amodei:

是的,建模本身就很困难,而且让模型与物理世界匹配也很困难。让我们看看最简单的问题,比如三体问题、混沌预测或经济预测。即使预测两年后的经济都非常困难。人类可能连下一季度的经济都难以准确预测。即使AI智能程度提升了成千上万倍,可能也只能多预测几个月,这体现了计算智能的指数级增长只能带来预测能力的线性增长。在生物分子相互作用这样的复杂系统中,很难预测扰动后会发生什么。如果你更智能,你就能更好地找到其中的简单部分。

Dario Amodei:

人类机构也非常复杂。即使对于那些效果已经得到强有力证实的技术,要让人们采用也很困难。人们会有担忧,会产生各种质疑。通过监管系统推进简单的事情也很困难。我不想贬低在技术监管系统工作的人,他们面临着艰难的问题,需要拯救生命。但整个系统做出的一些明显权衡远未达到最大化人类福祉的目标。当AI系统进入这些人类系统时,智能程度可能不是限制因素,而是需要时间来完成事情。

Dario Amodei:

即使假设AI系统绕过所有政府,宣称'我要主宰世界,想做什么就做什么',某些事情可能会做成。但涉及复杂性的事情仍然需要时间。有人在评论中说AI系统能产生大量能源或制造更智能的AI系统,甚至登月,但这完全误解了我所说的关键问题的本质。

02:12:07.000 - 02:13:28.923

Dario Amodei:

另一种观点,实际上我在某些方面更认同的是基于历史经验的。经济学家们研究过计算机革命和互联网革命带来的生产力提升,但这些提升通常令人失望,比人们想象的要小得多。正如Robert Solow所说:'你在任何地方都能看到计算机革命,除了生产力统计数据。'

为什么会这样?这涉及到企业结构、组织结构的问题,以及现有技术向世界贫困地区推广的缓慢过程。我们至今仍在努力将基本的手机技术、计算机和医疗等带到最贫困地区,更不用说还未发明的新型AI技术了。

基于这些,有人认为虽然这在技术上很惊人,但实际上什么都不是。比如Tyler Cowen在回应我的文章时就持这种观点,他认为激进的变革最终会发生,但可能需要50到100年。你甚至可以对整个事情持更保守的看法。我觉得这种观点确实有些道理,但我认为这个时间尺度预估得太长了。

02:13:28.923 - 02:16:35.000

Dario Amodei:

对于当前的AI,我能看到两个方面。我们很多客户是大型企业,他们习惯按特定方式行事,我在与政府打交道时也看到类似情况。这些都是典型的变革缓慢的机构。是的,改变需要很长时间,存在很多阻力和理解不足。

Dario Amodei:

但让我觉得进展最终会适度快速的原因是,我反复发现两个推动因素。第一,在大公司甚至政府中都有一小部分人真正看到了全局,理解AI的发展方向和行业影响。在当前美国政府中就有这样的人。这些人认识到这是世界上最重要的事情,并为此积极推动。虽然仅凭这些人还不够,因为他们在大组织中只是少数,但随着技术开始落地,竞争压力会给他们助力。他们可以在组织内指出:'看,其他人在做这个'。比如银行可以说'看这个新兴对冲基金在做什么,他们会抢走我们的生意',美国可以说我们担心中国会先做到。这种竞争压力加上组织内的远见者,就能真正推动变革。

Dario Amodei:

这很有趣,是惯性与创新之间的平衡较量。我已经反复看到这种模式:虽然存在障碍,比如复杂性、不知如何使用和部署模型,一开始似乎永远无法改变,但最终变革总会发生,而且总是源于少数人。这让我想起之前在AI领域推广规模化假说时的经历,当时感觉没人理解,像是掌握了一个几乎没人知道的秘密,但几年后人人都懂了。我认为AI在现实世界的部署也会如此,阻碍会逐渐消失,然后突然全面瓦解。

02:16:35.000 - 02:17:11.000

Dario Amodei:

我认为这将会更可能发生在5到10年内,就像我在文章中说的那样,而不是50到100年。同时,这个时间也不会短到5到10小时,因为我已经看到了人类系统是如何运作的。那些写下微分方程的人,他们说AI会制造出更强大的AI,他们无法理解为什么这些变化不会如此迅速发生。我认为他们不理解这些事情。

AGI时间线

02:17:11.000 - 02:20:47.000

Lex Fridman:

你认为什么时候能实现AGI,也就是强大的AI或超级实用的AI?具体来说,是在每个相关学科都比诺贝尔奖获得者更聪明,能够独立工作数天数周的AI。让我们专注于生物学领域,因为这太令人兴奋了,从科学角度来说,这让我都想成为一名生物学家了。

Dario Amodei:

这将是一个美好的未来,如果我们能够避开各种障碍去实现它。这里面有如此多的美感和优雅,以及道德力量。这应该是能让我们团结在一起的事情,不管我们在政治问题上有多少分歧。

Lex Fridman:

具体什么时候能实现?

Dario Amodei:

这是我多年来一直在思考的问题,我并不完全确定。我知道如果我说2026或2027年,推特上会有无数人只截取这个时间点。但如果你看现在的发展曲线,去年我们达到了本科生水平,前年是高中生水平,现在开始接近博士水平。虽然在具体任务和模态上还有不足,但这些都在不断添加,比如计算机使用能力、ImageEn、图像生成等。如果简单地看这些能力增长的速度,确实显示我们可能在2026或2027年达到目标。

Dario Amodei:

但很多因素可能会造成延迟,比如数据不足、计算集群扩展受限,或者如果台湾出现问题影响GPU生产等。我不完全相信简单的直线外推,最可能的情况是会有轻微延迟。虽然仍然存在百年内无法实现的可能性,但这种可能性在迅速减少。与2020年相比,现在的技术障碍已经大大减少,我倾向于认为剩余的障碍也不会阻止我们。

02:20:47.000 - 02:21:15.000

Dario Amodei:

但是,我不想把这个说成是一个科学预测。人们称它们为scaling laws,但这其实是用词不当。就像Moore's law是用词不当一样。Moore's law和scaling laws都不是宇宙法则,它们只是经验规律。我会押注它们会继续保持下去,但我并不能完全确定这一点。

02:21:15.000 - 02:21:48.000

Lex Fridman:

你详尽地描述了21世纪被压缩的场景,AGI将如何在生物学和医学领域引发一系列连锁突破。这些早期的突破步骤可能是什么呢?

Lex Fridman:

有意思的是,我向Claude询问了应该问你什么问题,Claude建议我问:在这个未来,一个在AGI领域工作的生物学家的典型工作日是什么样的?

02:21:48.000 - 02:21:56.000

Dario Amodei:

让我先回答你的第一个问题,然后我再回答那个问题。Claude想知道他的未来会是什么样,对吧?

Lex Fridman:

没错。

Dario Amodei:

我将与谁一起工作?

Lex Fridman:

没错。

02:21:56.000 - 02:24:41.555

Dario Amodei:

在大型组织和系统中,少数人或新想法往往能对整体发展轨迹产生不成比例的影响。以医疗领域为例,尽管Medicare和医疗保险的支出达到万亿美元规模,NIH的预算有1000亿美元,但真正带来革命性突破的只是其中很小的一部分。我在思考AI能否扩大这个'小部分'的规模并提高其质量。

在生物学领域,最大的问题是我们看不到正在发生什么。我们几乎无法观察到这些过程,更无法改变它们。每个细胞中都包含30亿个DNA碱基对,按照遗传密码构建,这些复杂的过程都在未经增强的人类无法干预的情况下进行着。这些细胞在不断分裂,通常这是健康的过程,但有时会出错导致癌症。随着衰老,皮肤会变色、出现皱纹,这些都是由这些过程决定的。所有这些蛋白质的产生、运输和相互结合都在持续进行。

最初我们甚至不知道细胞的存在,需要发明显微镜才能观察到它们。后来需要更强大的显微镜来观察分子层面的结构,需要X射线晶体学来观察DNA,需要基因测序技术来读取DNA,需要蛋白质折叠技术来预测蛋白质如何折叠和结合。在过去12年中,通过CRISPR技术,我们终于获得了编辑DNA的能力。生物学的发展历史很大程度上就是我们不断提升观察和理解能力,以及获得有选择地改变生物过程能力的历史。

02:24:41.555 - 02:25:50.250

Dario Amodei:

我认为在这个领域还有很多可以做的事情。你可以进行CRISPR编辑,但要考虑全身范围的应用。比如说,我想要针对某一特定类型的细胞进行编辑,同时要确保错误靶向其他细胞的概率非常低,这仍然是一个挑战,人们仍在努力解决这个问题。这对于某些疾病的基因治疗来说是必需的。这不仅涉及基因测序,还包括用于观察细胞内部活动的新型纳米材料、抗体药物偶联物等。

Dario Amodei:

我提到这些是因为这可能是AI系统的一个着力点。纵观生物学历史,这类重大发明的数量可能在两位数或低三位数。如果我有一百万个这样的AI系统,它们能否通过协作快速发现成千上万个这样的创新?我们能否不是去利用每年在Medicare上花费的两万亿美元,而是更有效地利用每年用于科学发现的10亿美元,并且获得更高质量的成果?

02:25:50.250 - 02:28:06.000

Lex Fridman:

作为一个与AI系统合作的科学家是什么感觉?

Dario Amodei:

我认为在早期阶段,AI系统会像研究生一样。你给它们分配项目,作为有经验的生物学家,你设立了实验室。生物学教授,甚至研究生自己都可以说'这是你可以用AI系统做的事情,我想研究这个。'

AI系统拥有所有工具,它可以查阅所有文献来决定下一步行动,查看所有设备,去网站上说'我要去Thermo Fisher'——在我那时候是Thermo Fisher——'或其他主要实验设备供应商那里订购这些新设备。我要进行实验,写实验报告,检查图像是否污染,决定下一个实验是什么,写代码做统计分析。'所有研究生会做的事情,都会由一台装有AI的电脑来完成,教授偶尔和它交谈,告诉它'这是你今天要做的事情'。

AI系统会在需要时提出问题。在操作实验设备方面可能会有一些限制,它可能需要雇用人类实验室助手来做实验并解释如何操作,或者使用过去十年左右开发的、并将继续发展的实验室自动化技术。

这样一来,就会出现一位人类教授带领1000个AI研究生的情况。如果你去找那些诺贝尔奖级别的生物学家,你会说'好吧,你以前有50个研究生,现在你有1000个,而且顺便说一句,他们比你更聪明。'我认为最终会反过来,AI系统会成为PI(项目负责人),开始指导人类或其他AI系统。我认为研究方面就会是这样运作。

02:28:06.000 - 02:29:46.000

Lex Fridman:

这将是CRISPR类技术的发明者们。

Dario Amodei:

是的,他们将是CRISPR类技术的发明者。我认为,正如文章中所说,我们需要利用AI系统来改进临床试验系统,虽然'放任自由'可能不是正确的说法。这其中有些涉及监管,涉及社会决策,这会更具挑战性。但我们能否更好地预测临床试验结果?能否改进统计设计,使原本需要5000人、耗时一年且花费1亿美元的试验,变成只需500人、两个月就能完成?这应该是我们的起点。我们能否通过在动物试验中完成原本需要临床试验才能完成的内容,通过模拟完成原本需要动物试验的内容,来提高临床试验的成功率?当然,我们不可能完全依赖模拟,AI不是神,但我们能否实现实质性的突破性进展?

Lex Fridman:

体外试验仍需时间,但可以快得多。

Dario Amodei:

是的,我们能否一步一步推进,让这些进步累积起来?即使我们仍然需要临床试验,需要法律,即使FDA等机构仍不会完美,但如果我们能推动一切向积极方向发展,是否能让原本要到2100年才能实现的一切,在2027到2032年间就完成?

编程

02:29:46.000 - 02:31:53.000

Lex Fridman:

我认为AI正在改变这个世界,特别是在编程领域。作为AI开发的核心领域,你认为编程的本质将如何改变?这会如何影响我们人类?

Dario Amodei:

我认为编程将是变革最快的领域之一,这主要有两个原因。

首先,编程技能与AI开发密切相关。相比之下,其他领域如农业,虽然也会被AI改变,但由于与AI开发距离较远,变革会相对缓慢。编程是Anthropic等AI公司员工的日常工作,这使得变革会更快发生。

其次,编程具有独特的闭环特性:AI模型可以编写代码、运行代码并解释结果,这种能力是硬件、生物学等其他领域所不具备的。从具体数据来看,在实际编程任务中,模型的能力从今年1月的3%提升到10月的50%。我们正处在S曲线上,由于只能达到100%,增长速度会开始放缓。但我预计在接下来的10个月内,这一数字可能会达到90%以上。我猜测可能在2026-2027年左右达到这一水平——当然,Twitter上的人可能会忽略这些注意事项直接引用这些数字。

02:31:53.000 - 02:34:10.000

Dario Amodei:

我认为AI系统很可能能够完成大多数程序员的编码任务,特别是在任务定义明确的情况下。比较优势原理在这里很重要,当AI能完成程序员80%的工作时,比如按照规格说明写代码,我们会发现剩余的工作对人类来说反而变得更有价值,对吧?人类的工作会更多地转向高层次的系统设计、应用架构评估和设计UX等方面,当然最终AI也可能能够完成这些工作。

这是我对强大AI系统的愿景。在相当长的时间内,人类仍在做的那小部分工作会扩展填满他们的全部工作时间,以提高整体生产力。我们已经见过这种情况了。比如过去写信和编辑很困难,打印也很麻烦,但有了文字处理器和计算机后,这些变得很容易,人们的重点就完全转向了内容本身。这种比较优势的逻辑会扩展任务的某些部分,并创造新的任务来提高生产力。

当然,终有一天AI会在所有方面都更优秀,这个逻辑就不再适用了,人类需要集体思考如何应对,我们每天都在思考这个问题,这是除了滥用自主性之外的另一个重要问题。但在近期甚至中期,也就是2、3、4年内,我预计人类仍将扮演极其重要的角色。编程的性质会改变,但编程作为一个职业不会消失,只是会从逐行编写代码转向更宏观的层面。

02:34:10.000 - 02:36:27.000

Lex Fridman:

我想了解IDE的未来会是什么样子。与AI系统交互的工具,无论是在编程还是其他领域,比如生物学,都需要特定的工具来提高效率。Anthropic是否会涉足这个工具开发领域?

Dario Amodei:

我完全确信IDE领域有大量待开发的机会。现在还只是你和模型对话,但看看传统IDE已经能做什么:通过静态分析很多bug甚至不需要写代码就能发现,还能进行代码组织、衡量单元测试覆盖率等。现在加入模型能够编写和运行代码的能力,我相信即使模型质量保持不变,在未来一两年内,通过捕获错误、处理重复工作,就能极大提升人们的生产力,而这仅仅是开始。

至于Anthropic,我们目前不直接开发IDE,而是通过API为Cursor、Kognition以及安全领域的其他公司提供支持。我们采取'百花齐放'的策略,因为内部资源有限,让客户尝试不同方向,看看谁能成功,可能不同客户会在不同领域取得成功。所以虽然我认为这个领域非常有前景,但Anthropic目前,也可能永远不会与这些公司竞争。

生命的意义

02:36:49.000 - 02:39:24.846

Lex Fridman:

在这个拥有超级强大AI且日益自动化的世界中,人类的意义源自何处?

Lex Fridman:

工作是许多人寻找意义的重要来源。

Lex Fridman:

我们如何找到意义?

Dario Amodei:

我在文章中简略提到过这个话题。说来有趣,这篇文章本来只打算写两三页,是要在全体会议上讨论的。但在写作过程中,我发现这是个重要且未被充分探讨的话题,文章就这样扩展到了40-50页。等到写到工作和意义这部分时,我想,天哪,这得需要另写一篇专门的文章了。

让我们思考意义这个问题。假设把我放在一个模拟环境中,我在那里工作、努力完成目标,这样过了60年后告诉我'哦,这其实只是个游戏',这真的会剥夺整个经历的意义吗?我仍然做出了重要的选择,包括道德选择,经历了牺牲,获得了所有这些技能。再举个例子,如果告诉那些发现电磁学或相对论的历史人物,'其实2万年前某个外星人已经发现过这些理论了',这会剥夺他们发现的意义吗?对我来说似乎并不会。重要的是过程本身,它展现了一个人的品格、与他人的关系以及做出的决定。这些都是有意义的。

如果我们在AI世界中处理不当,确实可能会导致人们失去长期的意义来源。但这更多取决于我们如何设计这些强大模型的社会架构。如果我们的设计只关注肤浅的事物,那么这种情况就可能发生。

02:39:24.846 - 02:40:44.500

Dario Amodei:

现在大多数人都在令人钦佩地努力为生活寻找意义。作为拥有特权开发这些技术的我们,应该对全世界那些为生存而奋斗的人们抱有同理心。如果能够让AI技术的好处惠及所有人,他们的生活将会得到极大改善,而意义对他们来说将一如既往地重要。我们不应该忘记,将意义视为唯一重要的事情,其实是少数经济富裕人群的特权。

Dario Amodei:

我相信,在强大AI的世界里,不仅可以为每个人保持生活的意义,还可以让每个人看到和体验到以前只有少数人或根本没人能体验到的世界和经历。因此,对于生活意义这个问题,我持乐观态度。

Dario Amodei:

但实际上,我更担心的是经济和权力集中的问题。最关键的是如何确保这个公平的世界能够真正惠及所有人。

02:40:44.500 - 02:42:43.000

Dario Amodei:

当人类出现问题时,往往是因为人类之间的不当对待。这可能比AI的自主风险或意义问题更令人担忧。最令我担忧的是权力集中、滥用权力,以及独裁体制下少数人控制多数人的情况。这确实让我非常担忧。

Lex Fridman:

AI增加了世界上的权力总量,如果这些权力被集中和滥用,可能造成不可估量的损害。

Dario Amodei:

是的,这确实非常可怕,非常可怕。

Lex Fridman:

我强烈建议大家阅读完整的文章。这应该是一本书或一系列文章,因为它描绘了一个非常具体的未来。我注意到后面的章节变得越来越短,可能是因为你意识到如果继续写下去会变得很长。

Dario Amodei:

一方面是意识到会很长,另一方面我很清楚地试图避免成为那种过分自信、对所有事情都有观点的人。但我必须承认,当涉及到生物学部分时,我并不是专家,所以尽管我表达了不确定性,可能还是说了一些令人尴尬或错误的内容。

Dario Amodei:

我只希望我们能够正确地实现这个未来。要做到这一点,我们既需要建立技术、公司和围绕积极使用这些技术的经济体系,也需要解决风险问题。这些风险就像从这里到那里路上的地雷,我们必须拆除这些地雷才能到达目的地。

Lex Fridman:

这就像生活中的所有事情一样,需要平衡。

02:42:43.000 - 02:42:57.800

Dario Amodei:

就像所有事物一样。

Lex Fridman:

感谢大家收听我与 Dario Amodei 的对话。现在,亲爱的朋友们,这里是 Amanda Askell。

Read more

【MySQL进阶·深入索引】4.2 全值匹配

【MySQL进阶·深入索引】4.2 全值匹配

【MySQL进阶·深入索引】4.2 全值匹配 * * * * 全值匹配 在MySQL中,全值匹配(Full Value Match)是一个常用于描述查询条件完全匹配某一列或多个列的值的情况。当执行SELECT查询时,如果WHERE子句中的条件与表中某行的一个或多个列的值完全相等,则称该查询为全值匹配查询。 全值匹配查询在数据库性能优化中扮演着重要角色。由于它直接定位到具体的行,因此通常比范围查询或模糊查询更快。然而,全值匹配并不总是最高效的查询方式,其性能还受到多种因素的影响,如表的索引情况、数据分布以及查询优化器的决策等。 索引与全值匹配 索引是MySQL中提高查询性能的关键工具。它允许数据库系统快速定位到表中的特定数据,而无需扫描整个表。在MySQL中,索引通常以B+树的结构存在,这种结构对于范围查询和排序操作特别高效。 全值匹配是指查询条件中使用了索引列的全部值,且这些值的顺序与索引中列的顺序一致。当查询条件与索引完全匹配时,MySQL可以充分利用索引的优势,快速定位到所需的数据行。这种情况下,查询性能通常是最优的。 注意:并非所有查询都需要或

By Ne0inhk
【MySQL进阶·深入索引】4.6 全文索引

【MySQL进阶·深入索引】4.6 全文索引

【MySQL进阶·深入索引】4.6 全文索引 * * * * MySQL全文索引 MySQL全文索引(Full-Text Index)是一种特殊类型的索引,用于在MySQL的MyISAM和InnoDB存储引擎上执行全文搜索查询。全文索引允许用户在文本字段中搜索包含特定词汇或短语的记录,这在处理大量文本数据时非常有用,如文章、博客、评论或产品描述等。 一、全文索引的基本原理 全文索引通过构建一个包含文档中所有词汇及其位置的索引来实现快速搜索。当执行全文搜索查询时,MySQL会利用这个索引来快速定位包含指定词汇的记录,并返回相关结果。 二、全文索引的创建与使用 1. 创建全文索引 在创建表时,可以使用FULLTEXT关键字为文本字段添加全文索引。例如: CREATE TABLE articles ( id INT AUTO_INCREMENT PRIMARY KEY, title VARCHAR(255), content TEXT, FULLTEXT(content) ); 或者,如果已经存在表,可以使用ALTE

By Ne0inhk
【MySQL进阶·深入索引】4.7 隐藏索引

【MySQL进阶·深入索引】4.7 隐藏索引

【MySQL进阶·深入索引】4.7 隐藏索引 * * * * * * 隐藏索引 MySQL的隐藏索引(Invisible Index)是MySQL 8.0版本引入的一个新特性,它允许数据库管理员在不实际删除索引的情况下,使索引对查询优化器不可见。这一功能为索引管理提供了更大的灵活性,特别是在进行索引性能测试或临时禁用索引时。 隐藏索引的作用 隐藏索引的主要作用有以下几点: 1. 性能测试 在不影响现有查询的情况下,测试新添加的索引对性能的影响。通过先创建隐藏索引,观察其效果后再决定是否将其变为可见,可以避免不必要的索引切换开销。 2. 临时禁用索引 在某些情况下,可能需要临时禁用某个索引,例如在进行大量数据导入时。通过将索引设置为隐藏状态,可以避免索引维护的开销,提高数据导入的速度。 3. 索引管理 隐藏索引使得索引的添加、删除和修改操作更加灵活。管理员可以在不删除索引的情况下,先将其隐藏,然后根据需要进行修改或观察其效果。 如何使用隐藏索引 在MySQL中,可以使用ALTER TABLE语句来设置索引的可见性。以下是一些示例:

By Ne0inhk
【MySQL进阶·深入索引】4.8 函数和表达式索引

【MySQL进阶·深入索引】4.8 函数和表达式索引

【MySQL进阶·深入索引】4.8 函数和表达式索引 * * * 函数和表达式索引 在MySQL数据库中,索引是提高查询性能的关键工具。然而,有时我们需要对字段进行某种计算或转换后再进行索引,这时就需要使用到函数和表达式索引。本文将详细解析MySQL中的函数和表达式索引,包括其定义、应用场景、优缺点以及创建和使用方法。 函数和表达式索引的定义 函数和表达式索引允许你基于字段上的函数或表达式的计算结果来创建索引。这意味着,当查询涉及到这些函数或表达式时,MySQL可以利用这些索引来加速查询。这种索引类型对于那些经常需要进行计算或转换的字段来说非常有用,因为它可以直接在索引中存储转换后的结果,从而避免了在查询时进行实时转换的开销。 应用场景 函数和表达式索引在以下场景中特别有用: 1. 数据转换:例如,当有一个存储为全大写或大小写混合的字符串字段,而查询时经常需要对其进行小写转换时,可以创建一个基于LOWER()函数的索引。这样,当执行涉及小写转换的查询时,MySQL可以直接使用索引来加速查询,而无需对每个值进行实时转换。 1. 计算字段:对

By Ne0inhk