算法

Anthropic AI 研究员 Chris Olah 专访：我们没有创造LLM，而是培养了它

Ne0inhk

25 Dec 2024 — 46 min read

Anthropic AI 研究员 Chris Olah 专访：我们没有创造LLM，而是培养了它

Hayes and AI 2024年11月15日 07:27中国台湾

前言

本文是Lex Fridman播客频道近期上线的专访「Dario Amodei: Anthropic CEO on Claude, AGI & the Future of AI & Humanity | Lex Fridman Podcast #452 」播客全文节选的“脱水”版。

AI workflow脱水转录+翻译+精校以后，发现内容非常精彩，值得分享。

完整播客时长较长（超过5个小时！），是个三人拼盘，无常分3篇发布，此前已经发布第一篇和第二篇的访谈，本篇为最终篇：Anthropic AI研究员Olah的访谈。

www.zeeklog.com - Anthropic AI 研究员 Chris Olah 专访：我们没有创造LLM，而是培养了它

什么是“脱水”版

“脱水”版是对于播客全文的一个整理，力求保留所有信息和每个信息是由谁说的，目标是能够让读者在任何情况下都不必去看原文。

当然，如果你实在有时间、想听播客，这里是播客直通车，也可以点击文末阅读原文：

https://www.youtube.com/watch?v=ugvHCXCOmm4&t=7s

金句

我认为理解神经网络的一个有效方式是，我们不是在编程或制造它们，而是在培养它们。这与传统软件工程完全不同

我看到的一切都符合「线性表示假说」，这个假说的核心认为，不同的方向具有不同的含义，通过组合这些方向向量可以表示不同的概念。

我认为认真对待假设并将其推至极限是很有价值的。对社会而言，让一些人几乎非理性地专注于研究特定假设是很有价值的。因为大多数科学假设最终都会被证明是错误的，保持科研士气并持续推进需要很大的投入。比如有个关于Geoffrey Hinton的玩笑，说他在过去50年里每年都'发现了大脑是如何工作的'。

我更希望是人类来理解神经网络，而不是让神经网络来理解。这让我有点像那些认为计算机自动证明不算数的数学家。但这确实涉及到一个trusting trust的问题，就像编程时你必须信任你的编译器。如果编译器中有恶意软件，它可能会在下一个编译器中注入恶意代码。如果我们用神经网络来验证神经网络的安全性，我们要担心它是否会以某种方式欺骗我们。虽然现在这不是大问题，但长期来看，如果我们必须使用强大的AI系统来审计AI系统，这种信任是否可靠？当然，这可能只是我想要人类理解一切的理性化解释。

一些人对神经网络感到失望，他们会说'啊，神经网络就只是这些简单规则，然后你只需要做一些工程来扩大规模它就能很好地工作。复杂的想法在哪里？这算什么优美的科学成果？'当人们这么说时，我会想象他们在说'进化论太无聊了，就只是一堆简单规则，运行很长时间就得到了生物学，这种方式太糟糕了，复杂的规则在哪里？'。但美就在于简单性能产生复杂性，生物学中的简单规则产生了我们看到的所有生命和生态系统，自然界的所有美都来自进化这个简单过程。同样，神经网络内部也创造了巨大的复杂性和美感，以及丰富的结构，只是人们通常不去观察和理解，因为这很困难。但如果我们愿意花时间去探索和理解，就能发现其中深层的美。

如果你有任何好奇心，都会想：人类现在是如何拥有了这些我们都不知道该如何创造的神奇物品？

正文

机制可解释性领域Mechanism Interpretability

04:17:56.333 - 04:20:27.666

Lex Fridman:

你能描述这个引人入胜的机制可解释性领域mechanism interpretability，也就是mech interp的历史以及目前的发展状况吗？

Chris Olah:

我认为理解神经网络的一个有效方式是，我们不是在编程或制造它们，而是在培养它们。我们设计神经网络架构和损失函数目标，这个架构就像是一个脚手架，让神经网络在上面生长。它最初是从一些随机的状态开始，而损失函数目标就像是引导它生长的光。最终我们创造出的是一个类似生物实体或生物体的东西。这与传统软件工程完全不同，因为最终的产物能够完成许多惊人的任务，比如写文章、翻译和理解图像，这些都是我们不知道如何直接通过编程来实现的。我们没有编写它，没有创造它，而是培养了它。这就引出了一个问题：这些系统内部到底发生了什么？这是一个深刻而令人兴奋的科学问题，对我来说，这是在讨论神经网络时最迫切需要回答的问题。同时这也是一个重要的安全相关问题。

Lex Fridman:

机制可解释性是不是更接近神经生物学？

Chris Olah:

是的。让我举个例子说明什么不属于机制可解释性。过去有很多关于显著性图的研究，它试图显示当模型认为一张图片是狗时，图像的哪些部分起到了决定性作用。如果你能提出一个原则性的方法，这可能会告诉我们一些关于模型的信息，但它并不能告诉我们模型内部运行的具体算法。即使这个方法可行，它最多告诉我们什么是重要的，但不能告诉我们系统是如何实现这些我们不知道如何做到的事情。这就是为什么我们开始使用机制可解释性这个术语，来区分我们的工作与其他方法。

04:20:27.666 - 04:21:53.000

Chris Olah:

从那时起，这已经成为了一个涵盖很多不同研究工作的术语。我认为它有几个显著特点，首先是我们真的想要理解其中的机制，我们想要理解算法。如果你把神经网络看作是一个计算机程序，那么权重就像是二进制程序代码，我们想要对这些权重进行逆向工程，找出其中运行的算法。具体来说，这就像我们有一个已编译的计算机程序，神经网络的权重就是二进制代码，而当神经网络运行时产生的激活值就是运行时的状态。我们的最终目标是理解这些权重，所以机制可解释性项目就是要搞清楚这些权重是如何对应到算法的。为了做到这一点，你也必须理解激活值，因为激活值就像是内存。就像在逆向工程一个计算机程序时，你有二进制指令，要理解某个特定指令的含义，你需要知道它操作的内存中存储了什么。这两者是紧密相连的。所以，机制可解释性研究会关注这两个方面。现在有很多相关的研究工作，特别是关于probing的工作，你可以把它看作是机制可解释性的一部分，不过这是个宽泛的术语，并不是所有做这类工作的人都认为自己在做机制可解释性研究。

04:21:53.000 - 04:22:40.000

Chris Olah:

我认为mech interp这个领域有个比较特别的观点，就是我们认为梯度下降比人更聪明。梯度下降确实很厉害。我们之所以要去理解这些模型，就是因为我们一开始根本不知道该怎么写它们，而梯度下降能找到比我们更好的解决方案。

Chris Olah:

所以我觉得mech interp的另一个特点是要保持一种谦逊，不能预先猜测模型内部是怎么运作的。我们必须采取一种自下而上的方法，不是假设应该去找什么特定的东西，而是去发现模型中实际存在的东西，然后这样来研究它们。

Features, Circuits, Universality

04:22:40.000 - 04:24:55.800

Lex Fridman:

但是这种可能性的存在，以及你们和其他人随着时间推移所展示的普遍性，梯度下降的智慧能够在不同类型的网络中创建特征和电路，这使得整个领域成为可能。

Chris Olah:

是的。这确实是一个非常显著的现象，至少在某种程度上，相同的元素、特征和电路会反复形成。每个视觉模型都能发现曲线检测器和高低频检测器，而且这些特征在生物神经网络和人工神经网络中都能找到。

Chris Olah:

在视觉模型的早期层中，我们发现了Gabor滤波器，这也是神经科学家们长期关注的重点。我们在模型中发现的曲线检测器，在猴子的神经系统中也能找到。更有趣的是，我们先在人工神经网络中发现了高低频检测器，随后研究人员在老鼠的神经系统中也发现了类似的结构。

Chris Olah:

Quiroga等人关于祖母神经元和Halle Berry神经元的研究非常著名。当我在OpenAI时，我们在CLIP模型中也发现了类似的现象，某些神经元会对图像中的相同实体产生响应。一个具体的例子是，我们发现了特朗普神经元。不知为什么，似乎每个人都喜欢谈论特朗普，而且当时他确实很受关注。在我们研究的每个神经网络中，都能找到专门响应特朗普的神经元。有时会有奥巴马神经元，有时会有克林顿神经元，但特朗普总是有专门的神经元。这个神经元不仅会对他的照片产生反应，还会对Trump这个词做出响应，它不是在响应特定的例子，而是抽象出了这个一般性概念。这与Quiroga等人的研究结果非常相似。如果这种在人工和自然神经网络中都能发现相同特征的普遍性现象是真实的，那确实是一件很了不起的事情。

04:24:55.800 - 04:26:57.000

Chris Olah:

梯度下降似乎能找到划分事物的正确方式，这种划分方式在许多系统和不同的神经网络架构中都能收敛。存在一些自然的抽象方式来划分问题，许多系统都会收敛到这些抽象方式上。我对神经科学一无所知，这完全是我的大胆推测。

Lex Fridman:

这种抽象表示方式似乎与具体使用的模型媒介无关。

Chris Olah:

是的。虽然我们只有有限的数据点，但这种现象在自然神经网络和人工系统中都在不断重复出现。比如狗这个概念，它是宇宙中的一个自然类别，这不仅仅是人类思维的特殊方式。再比如线，看看我们周围，到处都是线，用线的概念是理解这个房间最简单的方式。

Lex Fridman:

需要曲线来理解圆，需要这些基本形状来理解更复杂的事物，形成概念的层次结构。

Chris Olah:

也许有其他方式来描述图像，但它们既不是最简单的方式，也不是最经济的方式。这就是我的大胆假设，系统会收敛到这些策略上。

04:26:57.000 - 04:29:23.714

Lex Fridman:

能否讨论一下我们一直在提到的特征和电路的构建块？你在2020年的论文'Zoom In：An Introduction to Circuits'中首次描述了这个概念。

Chris Olah:

让我先描述一些现象，然后再讨论特征和电路的概念。我断断续续花了很多年，可能有五年左右，同时也做着其他事情，研究一个叫Inception V1的视觉模型。它在2015年是最先进的模型，现在已不是了。这个模型大约有10,000个神经元，我花了很多时间研究这些奇特的神经元。

很多神经元虽然没有明显的可解释含义，但也有许多神经元具有非常清晰的可理解功能。有些神经元真的能检测曲线，有些能检测汽车、车轮、车窗，还有检测狗耷拉的耳朵的，检测面向右边的狗的长鼻子的，检测面向左边的狗的长鼻子的，以及检测不同类型毛发的。还有这些美妙的边缘检测器、线条检测器、颜色对比度检测器和高低频检测器。

研究这些时，我感觉自己像个生物学家，在探索一个全新的蛋白质世界，观察它们之间的相互作用。我们可以通过神经元来理解这些模型，比如'这是检测狗的神经元，那是检测汽车的神经元'。更有趣的是，我们可以研究它们是如何连接在一起的。比如说，我有这个检测汽车的神经元，想知道它是如何构建的？结果发现在前一层，它与窗户检测器、轮子检测器和车身检测器有很强的连接。它会寻找上方的窗户、下方的轮子，以及中间（特别是下部）的车身，这就是检测汽车的方法。之前我们说过想从机械解释中得到的就是算法的运行方式，而在这里，我们只是查看神经网络的权重就能读出这个检测汽车的方法。虽然这是个简单粗糙的方法，但确实存在。

04:29:23.714 - 04:30:56.000

Chris Olah:

我们把这种连接称为circuit。但问题在于并非所有神经元都是可解释的。有理由认为，根据superposition假说，有时候正确的分析单位应该是神经元的组合。

Chris Olah:

比如，有时候并不是单个神经元代表汽车，而是在检测到汽车后，模型会在下一层的多个狗检测器中隐藏一些汽车的特征。为什么会这样？可能是因为模型在那个时点不想在汽车上投入太多工作。

Chris Olah:

结果就是，这些看起来是狗检测器的神经元，虽然主要用于检测狗，但它们都会稍微贡献一点来表示下一层中的汽车。所以现在我们不能认为汽车概念对应单个神经元。

Chris Olah:

我们需要一个术语来描述这些类似神经元的实体，这些我们希望神经元能成为的理想化神经元。这些东西既包括好的神经元，也包括某种方式隐藏的更多神经元。我们把这些称为features。

Lex Fridman:

那么什么是circuits？

Chris Olah:

Circuits是这些特征之间的连接。比如，当汽车检测器连接到窗户检测器和轮子检测器，并且寻找下方的轮子和上方的窗户，这就是一个circuit。Circuits就是由权重连接起来的特征集合，它们实现算法。它们告诉我们特征是如何被使用、如何被构建、如何相互连接的。

04:30:56.000 - 04:32:38.000

Chris Olah:

让我们来明确一下这里的核心假设是什么。我认为核心假设就是我们称之为线性表示假设的东西。以汽车检测器为例，当它的激活值越高，我们就认为模型越确信存在汽车。或者说，如果是表示汽车的神经元组合，其激活程度越高，就表示模型越确信存在汽车。

这种关系并非必然。你可以想象一个汽车检测神经元，它在激活值1到2之间表示一种含义，而在3到4之间则表示完全不同的含义。这就是非线性表示。理论上，模型可以这样做，但我认为这种方式效率较低，如果你思考如何实现这种计算，会发现这是很麻烦的事情。

所以在特征和电路框架中，我们采用线性思维方式，认为神经元或神经元组合的激活值越高，就表示检测到的特定事物越多。这使得权重可以被清晰地解释为这些特征实体之间的边，而这些边具有明确的含义。这是核心思想。我们可以在神经元之外讨论这个概念。

04:32:23.000 - 04:34:44.000

Chris Olah:

你熟悉Word2Vec的结果吗？

Lex Fridman:

嗯。

Chris Olah:

比如'king - man + woman = queen'这样的运算。这种算术运算之所以可行，是因为你有了线性表示。

Lex Fridman:

能详细解释一下这种表示方式吗？首先，特征是激活的方向，对吧？

Chris Olah:

对，没错。

Lex Fridman:

能解释一下Word2Vec是如何工作的吗？

Chris Olah:

这是Tomas Mikolov等人的一个著名成果Word2Vec，后来有大量的后续研究。我们创建词嵌入时，会将每个词映射为一个向量。

这本身就是个很有趣的想法，如果你只在物理课上学过向量，突然告诉你我要把字典里的每个词都变成向量，这确实很令人惊讶。但当我们训练神经网络时，它们会以特定方式映射这些词向量，使得向量的方向具有特定含义。

比如，会有一个方向对应性别，男性词和女性词会分别位于这个方向的两端。线性表示假说的核心就是认为这是其中最基本的机制，即不同的方向具有不同的含义，通过组合这些方向向量可以表示不同的概念。

基于这个理论，我们可以用向量进行词的算术运算。比如用'king'减去'man'再加上'woman'，就会得到接近'queen'的结果。类似地，你可以用'sushi - Japan + Italy'得到'pizza'这样的结果。

04:34:44.000 - 04:36:43.000

Chris Olah:

这就是线性表示假说的核心。你可以将其描述为向量空间的纯抽象概念，也可以描述为神经元激活的表述，但本质上是关于方向具有意义这一特性。我认为，这主要体现在能够将事物叠加的特性上，比如我们可以独立修改性别和皇室身份，或者菜系类型、国家，并通过叠加来形成食物的概念。

Lex Fridman:

你认为这个线性假说在不同尺度上都成立吗？

Chris Olah:

到目前为止，我看到的一切都符合这个假说。这并非必然，我们完全可以构建不具有线性表示的神经网络，其理解方式也不必须基于线性表示。

但我见过的每个自然神经网络都具有这个特性。最近有一些研究在探索这个边界。比如有研究在研究多维特征，它们关注的不是单一方向而是方向的manifold。

在我看来，这仍然是线性表示。还有一些论文提出在很小的模型中可能存在非线性表示，但这个结论还需要进一步验证。到目前为止，我们看到的一切都符合线性表示假说，这太不可思议了。这种情况并非必然，但有大量证据表明这种特性非常普遍。

你可能会说：'Chris，如果我们还不能完全确定这是真的，你就这样投入研究，这不是很危险吗？'

04:36:43.000 - 04:37:27.000

Chris Olah:

我认为认真对待假设并将其推至极限是很有价值的。即使某天我们可能发现一些与线性表示假设不一致的东西，但科学史上充满了被证明是错误的假设和理论，而在这些假设下工作并将其推至极限让我们学到了很多。这正是库恩所说的常规科学的核心。如果你感兴趣，我们可以深入讨论科学哲学。

Lex Fridman:

这会导致范式转移。我很喜欢这种认真对待假设并将其推至自然结论的做法，就像scaling hypothesis一样。

04:37:27.000 - 04:38:47.333

Chris Olah:

我的同事Tom Henighan，一位前物理学家，给我举了一个很好的例子——热质理论。在过去，人们认为热是一种叫做热质的物质。热物体之所以能使冷物体变热，是因为热质在它们之间流动。因为我们现在已经习惯用现代理论来思考热，这种想法看起来很荒谬。

但实际上，要设计实验来否定热质假说是非常困难的。而且，相信热质理论的人确实做出了很多有用的工作。比如，最早的内燃机就是由相信热质理论的人发明的。所以，我认为即使一个假说可能是错误的，认真对待它仍然是有价值的。

Lex Fridman:

这确实是一个深刻的哲学真理。我觉得火星殖民计划就是一个很好的例子。虽然有很多人批评这个计划，但如果我们假设必须殖民火星来为人类文明提供备份，即使这个假设不是真的，也会产生一些有趣的工程和科学突破。

04:38:47.333 - 04:40:11.333

Chris Olah:

对社会而言，让一些人几乎非理性地专注于研究特定假设是很有价值的。因为大多数科学假设最终都会被证明是错误的，保持科研士气并持续推进需要很大的投入。比如有个关于Geoffrey Hinton的玩笑，说他在过去50年里每年都'发现了大脑是如何工作的'。我说这个是出于深深的敬意，因为这种持续的探索确实让他做出了一些非常出色的工作。

Lex Fridman:

是的，他现在获得了诺贝尔奖。看看现在谁在笑？

Chris Olah:

我认为一个人需要能够及时调整到适当的信心水平。但同时，假定某个问题是可解的或某个方法大致正确，并在这个假设下持续工作和深入探索也很有价值。如果社会中有许多人分别专注于不同的方向，这对于彻底验证或排除某些可能性是很有帮助的。这样我们就能说'好，这个方向试过了，而且是经过认真尝试的'。

Superposition叠加

04:40:11.333 - 04:44:15.800

Chris Olah:

让我介绍一个有趣的理论：超位假设。

Lex Fridman:

能描述一下什么是超位吗？

Chris Olah:

我们之前讨论过词向量，比如一个方向对应性别，另一个对应皇室，还有对应意大利、食物的方向。这些词向量通常有500到1000个维度。如果所有方向都是正交的，那就只能表示500个概念。虽然我很喜欢披萨，但如果要列举英语中500个最重要的概念，意大利可能不会上榜，因为我们需要先表示单复数、动词、名词、形容词等基本概念。

在inception V1中，我们发现了多义神经元现象，有些神经元会同时检测汽车和曲线等多个相关的特征。即使是看起来很'纯粹'的神经元，在低激活值（约最大值的5%）时也可能在处理其他概念。

这让我想到压缩感知的数学原理。通常将高维向量投影到低维空间会丢失信息，就像不能求逆非方阵一样。但如果高维向量是稀疏的（主要由零组成），那么通常可以从低维投影恢复原始信息。

这就是超位假设的核心：通过利用高维空间和概念的稀疏性（比如我们很少同时谈论日本和意大利），神经网络可以在有限维度下表示更多的概念。这意味着我们可以有比维度更多的有意义的方向，比神经元更多的概念。

04:44:15.800 - 04:46:16.000

Chris Olah:

这个现象有个更惊人的含义，就是神经网络不仅在表示上如此，在计算上也可能如此。神经网络可能是更大的稀疏神经网络的影子。我们看到的是这些投影。超位假设的最强版本认为，实际上存在一个'楼上模型'，其中的神经元都是真正稀疏且可解释的，权重之间形成真正稀疏的电路。这就是我们在研究的东西，而我们观察到的是它的影子。我们需要找到这个原始对象。

Lex Fridman:

那么学习过程是在尝试构建楼上模型的压缩，使得投影不会损失太多信息？

Chris Olah:

是的，就是在寻找如何高效地适配它。梯度下降在做这件事，它实际上在隐式地搜索可以投影到低维空间的极度稀疏模型。关于设计边和激活都是稀疏的神经网络，已经有大量研究。这些工作从原理上看非常合理，很有道理，但实际效果并不理想。一个可能的解释是，神经网络本身已经在某种意义上是稀疏的。梯度下降在幕后更有效地搜索稀疏模型空间，学习最有效的稀疏模型，然后将其巧妙地折叠成适合在GPU上运行的形式，以进行优雅的密集矩阵乘法。这种效率是无法超越的。

04:46:16.000 - 04:47:28.800

Lex Fridman:

神经网络中能容纳多少个概念？

Chris Olah:

这取决于它们有多稀疏。参数数量是一个上限，因为你仍然需要权重来把它们连接在一起。

Chris Olah:

压缩感知和Johnson-Lindenstrauss引理给出了一些很棒的结果。如果你有一个向量空间，想要得到几乎正交的向量，也就是说，我们不追求概念特征的严格正交，但希望它们之间的干扰很小，那么一旦你设定了可以接受的余弦相似度阈值，容量实际上是神经元数量的指数级。这可能甚至不是最终的限制因素。

Chris Olah:

实际情况可能更好，因为这个理论是基于任意特征集合都可能被激活的假设。但实际上，特征之间存在相关结构，有些特征更可能一起出现，而其他特征则不太可能共现。

04:47:28.800 - 04:47:47.000

Chris Olah:

我认为神经网络在打包任务上可能表现得很好，这方面可能不是限制因素。

Lex Fridman:

多义性问题在这里是如何体现的？

Chris Olah:

多义性是我们观察到的一种现象，即当你查看许多神经元时，发现一个神经元并不仅仅表示单一概念，它不是一个清晰的特征。

04:47:47.000 - 04:48:54.625

Chris Olah:

叠加可以被视为解释多义性这一现象的假设。多义性是一个观察到的现象，而叠加是一个可以解释它以及其他一些现象的假设。

Lex Fridman:

这使得Mechinterp变得更加困难。

Chris Olah:

如果你试图从单个神经元的角度理解事物，而这些神经元具有多义性，你就会遇到很大的麻烦。当你观察这些神经元时，发现一个神经元会对多个事物产生响应，它没有一个清晰的含义，这是一个问题。

另一个需要考虑的是我们最终想要理解权重。如果有两个多义神经元，每个都对三个不同的事物有响应，它们之间的权重意味着什么？这是否意味着存在九种不同的交互？还有一个更深层的原因，这与神经网络在高维空间中运作有关。我们的目标是理解神经网络和其中的机制，有人可能会说这只是一个数学函数。

04:48:54.625 - 04:49:26.800

Chris Olah:

为什么不直接看呢，对吧？我做过的一个早期项目是研究将二维空间映射到二维空间的神经网络，你可以用一种美妙绝伦的方式将其解释为弯曲流形。为什么我们不能这样做呢？这是因为在高维空间中，空间的体积某种意义上是随着输入维度呈指数增长的。所以我们无法直接进行可视化。因此我们需要想办法将其分解开来。

04:49:26.800 - 04:49:58.000

Chris Olah:

我们需要将指数级空间分解成若干个非指数数量的、可以独立推理的部分。这种独立性至关重要，因为正是它让我们避免了考虑所有事物的指数级组合。而特征具有单义性——也就是只有一个明确的含义，这是能够独立思考它们的关键所在。这就是为什么我们需要可解释的单义特征的最根本原因。

04:49:58.000 - 04:50:59.714

Lex Fridman:

你们最近的工作目标是如何从具有多语义特征（polysemantic features）的神经网络中提取单语义特征（monosomatic features）？

Chris Olah:

是的，我们观察到了多语义神经元，并假设这是由叠加现象导致的。如果确实是叠加现象，那么有一个成熟的技术方法就是字典学习。特别是当你使用稀疏自编码器这种方法时，它不仅高效，还能实现很好的正则化效果。当我们训练稀疏自编码器后，这些漂亮的可解释特征就自然显现出来了。这个结果其实并不是能预先预测到的，但实际效果非常好。我认为这是对线性表示和叠加理论的重要验证。

Lex Fridman:

所以使用字典学习时，你们并不需要预先定义特定的类别？

Chris Olah:

没错。

Monosemanticity单义性

04:50:59.714 - 04:52:14.000

Chris Olah:

这回到我们之前讨论的不做假设的观点。梯度下降在这方面比我们更擅长，所以我们不做任何假设。我们当然可以假设存在PHP特征并去搜索它，但我们没有这样做。相反，我们让稀疏自编码器自己去发现存在的特征。

Lex Fridman:

能谈谈去年10月的单义性论文吗？我听说取得了很多突破性的结果。

Chris Olah:

这是我们使用稀疏自编码器的第一个真正的成功。我们对一个单层模型进行字典学习，发现了许多可解释的特征。我们深入研究了阿拉伯语特征、希伯来语特征和Base64特征等例子，并真正证实了这些特征确实是我们认为的那样。有趣的是，当我们训练两个训练得更好的不同模型时，能在它们中找到类似的特征。我们发现了各种不同的特征。这只是展示了这个方法的效果。值得一提的是，Cunningham团队在同一时期也有类似的研究结果。

Lex Fridman:

这种小规模实验证明方法有效是很有趣的。

04:52:14.000 - 04:53:19.333

Chris Olah:

是的，这里确实存在很多结构。回顾过去，我曾认为所有这些mechanistic interpolate工作最终会得出结论说这很困难且不可行。我们会说'好吧，这里有supersession的问题，而且supersession真的很难解决，我们陷入困境了'，但事实并非如此。实际上，一个非常自然简单的技术就能奏效。这是个很好的情况。我认为这是个困难的研究问题，存在很多研究风险，可能最终会失败，但当这个技术开始奏效时，我们已经克服了相当大的研究风险。

Lex Fridman:

你能描述一下通过这种方式可以提取什么样的特征吗？

Chris Olah:

这取决于你研究的模型。模型越大，特征就越复杂。我们稍后可以讨论更多后续的工作。

04:53:19.333 - 04:55:24.500

Chris Olah:

在单层模型中，我们观察到一些显著的特征，主要是在编程语言和自然语言方面。很多特征是针对特定上下文中的特定词，比如the这个词，它很可能会跟随一个名词。这既可以被视为一个独立特征，也可以被视为预测特定名词的特征。这些特征在不同类型的文档中表现不同，比如在数学文档中，the后面可能会预测vector或matrix等数学词汇，而在其他场景下会预测其他词。

Lex Fridman:

所以我们需要聪明的人类来为这些观察到的现象分配标签？

Chris Olah:

是的。这个过程本质上是将原本叠加在一起的特征展开。如果所有特征都叠加在一起，序列化会使其难以观察。即使展开后，理解这些特征仍然是个复杂的任务，需要做很多分析工作。

有些特征非常微妙。在Unicode处理方面有一些很酷的发现，因为分词器不一定为每个Unicode字符都有专门的token，所以会出现交替的token模式，每个token代表Unicode字符的一半。

系统会在相对的token上激活，说'好，我刚完成了一个字符，现在预测下一个前缀'，然后'我在前缀上，预测一个合理的后缀'，这样不断交替。

这些单层模型真的很有趣。关于Base64，有趣的是它不只有一个特征，因为当英文文本被编码为Base64时，其token分布与普通Base64完全不同，而且它还能利用分词的一些特性。这里面有很多有趣的东西。

Lex Fridman:

为这些现象分配标签的任务有多困难？

04:55:24.500 - 04:58:08.000

Lex Fridman:

这个过程能被AI自动化吗？

Chris Olah:

这要取决于具体特征和我们对AI的信任程度。目前确实有很多automated interpretability的工作，这是个很有趣的方向。我们也在做这方面的尝试，让Claude去标注特征。AI常常会说一些笼统但正确的事情，但没能抓住具体细节的本质。这是很常见的情况。我想不起有什么特别有趣的例子。

Lex Fridman:

这很有趣。AI能说出真实的事情但缺乏深度理解，这已经是个令人惊叹的成就了。在ARC挑战这样的背景下，理解一个特征代表什么就像解决一个小谜题。

Chris Olah:

是的，有些特征容易理解，有些则较难。这可能只是我的审美偏好，但我对automated interpretability持谨慎态度。

我更希望是人类来理解神经网络，而不是让神经网络来理解。这让我有点像那些认为计算机自动证明不算数的数学家。

但这确实涉及到一个trusting trust的问题，就像编程时你必须信任你的编译器。如果编译器中有恶意软件，它可能会在下一个编译器中注入恶意代码。

如果我们用神经网络来验证神经网络的安全性，我们要担心它是否会以某种方式欺骗我们。虽然现在这不是大问题，但长期来看，如果我们必须使用强大的AI系统来审计AI系统，这种信任是否可靠？当然，这可能只是我想要人类理解一切的理性化解释。

Lex Fridman:

这确实很有趣，特别是在我们讨论AI安全和寻找欺骗等相关特征时。让我们来谈谈2024年5月的Scaling Monosematicity论文。

Scaling Monosemanticity扩展单义性

04:58:08.000 - 05:00:33.428

Lex Fridman:

将这个方法扩展到Claude 3 Sonnet需要什么？

Chris Olah:

需要大量GPU。我的团队成员Tom Henighan参与了最初的scaling laws研究，他从很早就对interoperability的scaling laws感兴趣。

当这项工作开始成功，sparse autoencoders开始显效时，他立即研究了让sparse autoencoders变大的scaling laws，以及这与基础模型大小的关系。

这种方法效果很好，可以预测给定大小的sparse autoencoder需要训练多少token。这对我们扩展工作帮助很大，使得训练大型sparse autoencoders变得更容易，尽管训练大模型开始变得昂贵。

Chris Olah:

这里存在巨大的工程挑战。这既涉及科学问题——如何有效扩展，也涉及大量工程工作。我很幸运能与优秀的工程师合作，因为我自己并不是一个优秀的工程师。

Chris Olah:

这个方法确实有效，这一点很重要。因为你可能会想象一个世界里，monospecificity只在单层模型上有效，而单层模型很特殊。Cunningham的论文部分解决了这个问题，而在Claude 3 Sonnet（当时是我们的生产模型）上扩展monospecificity的成功，进一步证明即使是大型模型也能被线性特征很好地解释。字典学习在这些模型上是有效的。

05:00:33.428 - 05:03:37.600

Chris Olah:

随着我们不断解释，这是个很有希望的迹象。我们发现了一些非常有趣的抽象特征，这些特征是多模态的，能够同时响应图像和文本中的相同概念。

Lex Fridman:

能具体解释一下吗？

Chris Olah:

让我们从一个例子开始。我们发现了关于安全漏洞和代码后门的特征，这是两个不同的特征。当激活安全漏洞特征时，Claude会开始在代码中写入buffer overflows这样的安全漏洞。在数据集中最强烈激活这个特征的例子是像'--disable SSL'这样明显不安全的命令。当我们查看激活这个特征的图像时，会看到用户点击Chrome浏览器忽略SSL证书警告的场景。

Chris Olah:

另外还有后门特征，激活它时，Claude会写入将数据dump到端口的后门代码。有趣的是，当我们查询激活这个特征的图像时，发现是那些带有隐藏摄像头的设备的广告图片。这些设备表面看起来很普通，但实际内置了隐藏摄像头。虽然这类设备市场的存在让我有点难过，但看到它能将这种物理世界的后门与代码后门联系起来，我觉得很有意思。

05:03:37.600 - 05:04:50.000

Lex Fridman:

它是多模态的，几乎是多重上下文的。它是一个单一概念的广泛、强有力的定义。这很好。对我来说，特别是在 AI 安全方面，说谎和欺骗是一个非常有趣的特征。这些方法可能可以检测模型中的说谎行为，尤其是当模型变得越来越智能时。超智能模型可能会在其意图方面欺骗操作者，这可能是一个重大威胁。你从模型内部的说谎检测中学到了什么？

Chris Olah:

我认为我们在这方面还处于早期阶段，我们发现了相当多与说谎和欺骗相关的特征。有一个特征会对说谎和欺骗行为产生反应，当你强制激活这个特征时，Claude 就会开始对你说谎。所以我们确实有一个欺骗特征。还有很多其他特征，比如关于隐瞒信息、不回答问题，以及寻求权力和政变相关的特征。有很多与令人不安的事情相关的特征，如果你强制激活它们，Claude 会表现出一些你不希望看到的行为。

05:04:50.000 - 05:05:04.000

Lex Fridman:

在 Mechinterp 领域，你认为有哪些令人兴奋的未来发展方向？

Chris Olah:

有很多方向。

05:05:04.000 - 05:05:44.000

Chris Olah:

我真的希望能够达到一个水平，在这个水平上我们能够通过shortcuts不仅理解特征，还能利用这些特征来理解模型的计算过程。这对我来说是终极目标。我们已经在这个方向上发表了一些工作，包括Sam Marks发表的一篇相关论文，以及一些其他边缘性的工作。我认为这个领域还有很多工作要做，这将是一个与interference weights挑战相关的非常令人兴奋的方向。

05:05:44.000 - 05:06:56.000

Chris Olah:

由于superstition的存在，如果简单地查看特征之间的连接，可能会发现一些权重在上游模型中并不存在，这些只是superstition的产物。这是一个技术挑战。

与此相关的是，我认为稀疏自编码器就像一个望远镜，让我们能够观察到外面存在的所有这些特征。随着我们构建更好的稀疏自编码器，在字典学习方面做得更好，我们就能看到更多的星星，并能够放大观察更小的星星。

Chris Olah:

有很多证据表明我们目前只能看到很小一部分星星。在我们的神经网络宇宙中，还有很多我们无法观察到的物质。可能我们永远无法开发出足够精细的工具来观察它们，有些可能在计算上根本无法实现观察。这就像暗物质，不是现代天文学意义上的暗物质，而是早期天文学中我们不知道那些未解释的物质是什么。我经常思考这些暗物质，思考我们是否能观察到它们，以及如果我们无法观察到神经网络的重要部分，这对安全性意味着什么。

神经网络的宏观行为

05:06:56.000 - 05:07:48.000

Chris Olah:

我经常思考的另一个问题是，机制性解释本质上是一种非常微观的解释方法，它试图以非常细粒度的方式理解事物。但我们关心的很多问题都是宏观的，比如神经网络的行为，这也是我最关心的方面。当然还有许多其他大尺度的问题值得关注。

微观方法的好处是我们更容易验证某件事是否为真，但缺点是它离我们实际关心的问题较远。所以现在我们需要攀爬这个阶梯。我在想，我们能否找到理解神经网络的更大尺度的抽象方法？我们能否从这种微观方法上升到更高层次？

05:07:50.000 - 05:09:36.000

Lex Fridman:

你曾经将这个比作器官的问题。如果我们将解释性研究视为神经网络的解剖学，目前大多数circuits threads都在研究微小的'血管'，关注小尺度和单个神经元及其连接。然而，这种小尺度方法无法解答许多自然问题。相比之下，生物解剖学中最显著的抽象概念涉及更大尺度的结构，如单个器官或整个器官系统。那么，我们不禁要问，人工神经网络中是否存在类似呼吸系统、心脏或大脑区域的结构？

Chris Olah:

科学研究通常在多个抽象层次上进行。在生物学中，你有研究蛋白质和分子的分子生物学，有细胞生物学，有研究组织的组织学，有解剖学，有动物学，然后是生态学。在物理学中，你有研究个别粒子的物理学，然后统计物理学给你带来热力学等理论。所以经常会有不同的抽象层次。

我认为目前的mechanistic interpretability如果成功，就像是神经网络的微生物学，但我们需要类似解剖学的研究。有人可能会问为什么不能直接研究宏观结构。我认为这主要是因为迷信。在没有首先以正确方式分解微观结构并研究其连接方式的情况下，很难看到宏观结构。但我希望未来能够超越特征和电路，发展出涉及更大规模事物的理论。

05:10:11.000 - 05:11:25.363

Lex Fridman:

人工神经网络和生物神经网络（人脑）有什么区别？

Chris Olah:

神经科学家的工作比我们困难得多。我时常庆幸我的工作比神经科学家容易得多。

在研究人工神经网络时，我们可以记录所有神经元的活动，可以在任意规模的数据上进行实验，而且神经元在记录过程中是稳定的。我们可以消融神经元，编辑连接并随时撤销这些更改。这真是太棒了。我们还可以干预任何神经元并强制其激活来观察结果。我们完全掌握所有神经元之间的连接关系。

相比神经科学家还在努力获取连接组，我们已经拥有比秀丽线虫更大规模的连接组。不仅如此，我们还知道神经元之间的激活或抑制关系，不只是二元的连接关系，而是具体的权重。我们可以计算梯度，了解每个神经元的具体计算功能。这些优势还有很多。

神经网络的美丽

05:11:51.000 - 05:14:06.000

Lex Fridman:

我很喜欢你写的关于MechInterp研究的两个目标：安全性和美感。能谈谈美感这方面吗？

Chris Olah:

有趣的是，一些人对神经网络感到失望，他们会说'啊，神经网络就只是这些简单规则，然后你只需要做一些工程来扩大规模它就能很好地工作。复杂的想法在哪里？这算什么优美的科学成果？'当人们这么说时，我会想象他们在说'进化论太无聊了，就只是一堆简单规则，运行很长时间就得到了生物学，这种方式太糟糕了，复杂的规则在哪里？'

Chris Olah:

但美就在于简单性能产生复杂性。生物学中的简单规则产生了我们看到的所有生命和生态系统，自然界的所有美都来自进化这个简单过程。同样，神经网络内部也创造了巨大的复杂性和美感，以及丰富的结构，只是人们通常不去观察和理解，因为这很困难。但如果我们愿意花时间去探索和理解，就能发现其中深层的美。

Lex Fridman:

是的，我很喜欢Mech interp，能够理解或窥见内部运作的魔力真的很美妙。

Chris Olah:

这让我觉得有一个问题亟待解答，我很惊讶没有更多人在思考：为什么我们不知道如何直接创建能完成这些任务的计算机系统，但这些神经网络却能做到这些神奇的事情？这显然是一个迫切需要回答的问题。如果你有任何好奇心，都会想：人类现在是如何拥有了这些我们都不知道该如何创造的神奇物品？

05:14:08.500 - 05:15:00.000

Lex Fridman:

我很喜欢这个比喻，马戏团在向着目标函数的光芒伸展。

Chris Olah:

是的，这是我们培育出来但却完全不了解的有机体。

Lex Fridman:

感谢你在安全领域的工作，也感谢你对所发现事物之美的欣赏。

Lex Fridman:

这是与Chris Olah、Dario Amodei和Amanda Askell的对话。

「理解变化的唯一方式就是投身其中，随之而动，加入这场舞蹈。」

——Alan Watts

Anthropic AI 研究员 Chris Olah 专访：我们没有创造LLM，而是培养了它

Ne0inhk

Anthropic AI 研究员 Chris Olah 专访：我们没有创造LLM，而是培养了它

Read more

人工智能多模态模型开发与应用：跨越文本、图像与语音的融合实践

OpenClaw接入企业微信全攻略：从0到1打通企业AI协作通道

猫头虎AI分享｜2025最新构建生产级智能体的12条实践指南

飞算JavaAI赋能企业级电商管理系统开发实践——一位资深开发者的技术选型与落地总结