2017 年,谷歌的八位机器学习研究员发表了一篇具有开创性的研究论文《Attention Is All You Need》,首次提出了 Transformer AI 架构。这一架构现在已经成了几乎所有主流生成式 AI 模型的基础。
Transformer 架构的背景与意义
Transformer 是现代 AI 热潮的一个关键组成部分,它通过使用神经网络将输入数据块(被称为'Token')转换成另一种所需的输出形式。在 Transformer 出现之前,自然语言处理领域主要依赖循环神经网络(RNN)及其变体(如 LSTM、GRU)。然而,RNN 在处理长序列时存在梯度消失问题,且难以并行计算,限制了模型的训练效率和上下文捕捉能力。
Transformer 的核心创新在于完全摒弃了 RNN 结构,转而采用自注意力机制(Self-Attention)。这使得模型能够直接关注输入序列中的任意两个位置,无论它们之间的距离有多远,从而极大地提升了处理长文本的能力。同时,由于去除了递归结构,Transformer 支持高度的并行计算,显著缩短了训练时间。各种 Transformer 架构的变体为语言模型(如 GPT-4 和 ChatGPT)、音频合成模型(如谷歌的 NotebookLM 和 OpenAI 的高级语音模式)、视频合成模型(如 Sora)以及图像合成模型(如 Midjourney)提供了支持。
访谈背景
在今年 10 月的 TED AI 大会上,技术新闻资讯网站 Ars Technica 采访了《Attention Is All You Need》共同作者之一 Jakob Uszkoreit。Uszkoreit 介绍了关于 Transformer 的开发、谷歌早期大模型的研究工作以及他在生物计算领域的新创业项目。在采访中,Uszkoreit 提到,虽然他在谷歌的团队对 Transformer 技术前景寄予厚望,但他们并未预料到它会在像 ChatGPT 这样的产品中会发挥如此重要的作用。
核心访谈内容
1. 论文的主要贡献
**Ars:**你在《Attention Is All You Need》这篇论文中的主要贡献是什么?
**Jakob Uszkoreit (JU):**论文脚注中有提到,我的主要贡献是提出用注意力机制(尤其是自注意力)来取代当时主流的序列转换模型中的循环神经网络(RNN)。我认为这不仅会提升效率,还会提高模型的效果。
2. 对行业影响的预判
**Ars:**在你发表那篇论文时,是否预见到它对行业的巨大影响?
**JU:**首先,我认为必须要记住,当我们做这件事时,我们是站在巨人肩膀上的。这不仅仅是那一篇论文的功劳。实际上,这是我们和许多其他人长期研究工作的成果。因此,如果认为仅仅那篇论文引发或创造了某些东西,这种看法更像是我们人类喜欢从叙事角度出发的观点,但不是对实际情况的准确描述。
我的团队在那篇论文发表之前,就已经研究和推动注意力模型发展了好几年。这是一个比想象中更漫长的过程,不仅是我的团队,许多其他人也在这一领域努力。我们确实对这项技术能够推动技术进步抱有很高的期望。
但是否认为它会在像 ChatGPT 这样的产品中起到关键作用,甚至像'打开了一个开关'一样让这些产品成为可能?我并不这么认为。确切地说,就 LLM 及其能力而言,即使在我们发表论文时,我们已经看到了非常令人震惊的现象。
我们没有将那些成果推向市场,部分原因是当时谷歌在产品开发方面或许存在某种保守观念。但即使有这些迹象,我们也无法完全确信技术本身会成为一个极具吸引力的产品。不过,我们确实对其未来抱有很高的期待。
3. 对 ChatGPT 成功的感受
**Ars:**既然你知道谷歌有 LLM 的研究,当 ChatGPT 取得成功时,你是什么感受?'该死,他们做到了,我们却没有?'
**JU:**当时确实有一种'这本可以发生'的感觉。但更像是,'哇,这本可以更早发生。'并不是'糟糕,他们抢先了'这样的情绪。更重要的是,当我看到人们对这项技术的使用如此迅速且富有创意时,我特别震惊。
4. 离开谷歌的原因
**Ars:**那时你已经离开谷歌了,对吧?
**JU:**是的。当时我已经离开谷歌了。可以说,我的离开部分是因为觉得谷歌不是实现我目标的最佳公司。我离开更多是因为觉得在其他地方可以做更重要的事情,于是创立了 Inceptive。
其实,这不仅仅是一个巨大的机会,更是一种道德上的责任感。在外面可以设计出更好的药物,并对人们的生活产生直接的积极影响。
5. 技术突破的本质
**Ars:**有趣的是,在 ChatGPT 推出前,我已经使用过 GPT-3 了。因此,对一些熟悉这项技术的人来说,ChatGPT 的发布并不算是大事件。
**JU:**没错。如果你之前用过这些技术,你就能看到其进步,并能推测出它的发展趋势。当 OpenAI 开发最早的 GPT 模型时,我们虽然身处不同公司,但也会讨论这些进展。尽管如此,我认为没有人真正预料到 ChatGPT 产品能够在如此短时间内获得如此广泛的认可。
**Ars:**我在报道 ChatGPT 时也没有预料到。当时觉得,'哦,这不过是用 GPT-3 搞了个聊天机器人。'我并没有认为它会是一个突破性的时刻,但它确实很有趣。
**JU:**突破有很多不同的形式。这次并不是技术上的突破,而是在某种实用性层面上的一个突破。


