前谷歌 AI 研究员:ChatGPT 原本可以更早出现的

2017年,谷歌的八位机器学习研究人员共同发表了一篇具有突破性意义的研究论文,题为《注意力就是你所需要的一切》(Attention Is All You Need)。这篇论文引入了 Transformer AI 架构,该架构如今已成为支撑几乎所有主流生成式人工智能模型的核心基础。Transformer 架构通过使用神经网络,将被称为“Token”的输入数据块编译或转换为所需的另一种输出形式,从而成为推动现代人工智能繁荣发展的关键要素之一。Transformer 架构的多种变体被广泛应用于各种模型,包括 GPT-4(以及 ChatGPT)等语言模型、运行谷歌 NotebookLM 和 OpenAI 高级语音模式的音频生成模型、Sora 等视频生成模型,以及 Midjourney 等图像生成模型。在今年 10 月的 TED AI 大会上,被称为“谷歌八子”之一的雅各布・乌斯克尔特(Jakob Uszkoreit)接受了媒体的采访。在访谈中,他分享了 Transformer 的发展历程、谷歌在大语言模型领域的早期探索,以及他目前在生物计算领域的新冒险。乌斯克尔特在采访中透露,尽管他和谷歌的团队对 Transformer 技术的潜力寄予厚望,但他们并未完全预见到它在 ChatGPT 等产品中能够发挥如此关键性的重要作用。以下为专访全文:问:你对《注意力就是你所需要的一切》这篇论文的主要贡献是什么?乌斯克尔特:论文的脚注中有详细的阐述,但我的核心贡献在于提出了一个观点,即有可能利用注意机制,特别是自我注意,来取代当时序列转导模型中占据主导地位的递归机制(来自递归神经网络的递归机制)。这种替代方案能够提升效率,因此也更具成效。问:你知道你们团队发表那篇论文后会发生什么吗?你是否预见到它将会创造出怎样的产业?乌斯克尔特:首先,我想强调的是,我们的工作并非孤立存在,而是站在了众多前人研究的基础上。这篇论文并非孤立的事件,而是我们团队以及其他众多研究者多年努力的结晶。因此,如果将后续的发展完全归功于这篇论文,可能是一种人类倾向于讲故事的视角,但这并不完全准确。在那篇论文发表之前,我在谷歌的团队已经对注意力模型进行了多年的研究。这是一条漫长且充满挑战的道路,涉及大量的研究工作,不仅限于我的团队,还有许多其他研究者也在这一领域耕耘。我们对注意力模型寄予厚望,认为它能够从技术层面推动整个领域的发展。但是,当我们谈到它能否真正促进像 ChatGPT 这样的产品诞生时,至少从表面上看,我们并没有完全预见到这一点。我的意思是,即使在我们发表论文时,大语言模型及其展现出的能力已经让我们感到震惊。我们没有将这些技术直接转化为市场产品,部分原因可能是当时对于开发大规模(潜在投资达 100 亿美元)的产品持保守态度。尽管我们看到了这些技术的潜力,但我们并不完全相信仅凭这些技术本身就能让一款产品具备足够的吸引力。至于我们是否对这项技术寄予厚望,答案是肯定的。问:既然你们了解谷歌在研发大语言模型方面的工作,那么当 ChatGPT 在公众面前取得巨大成功时,你们团队有何感想?是否会有“唉,他们做到了,而我们没抓住机会”的遗憾?乌斯克尔特:确实,当时我们有一种“这是完全有可能发生的”的感觉。但这种感觉并非“哦,真可惜,他们抢先了”之类的情绪。我更倾向于说“哇,这本来可以更早些实现的”。至于人们迅速接纳并应用这些新技术的速度,我确实感到惊讶,那真是令人赞叹不已。问:那时候你已经离开谷歌了,是吗?乌斯克尔特:是的,我已经离职了。从某种程度上讲,你可以说,谷歌并非进行这类创新工作的理想场所,这是我决定离开的原因之一。我离开谷歌并非因为我不喜爱那里,而是因为我认为我必须在其他地方去实现我的愿景,那就是创办 Inceptive 公司。然而,我真正的动机并不仅仅是看到一个巨大的商业机会,而是一种道德上的责任感,去做一些在外部环境中能够做得更好的事情,比如设计更有效的药物,从而对人们的生活产生直接而积极的影响。问:ChatGPT 的有趣之处在于,我之前使用过 GPT-3。因此,当 ChatGPT 出现时,对于熟悉这项技术的人来说,它并不算是一个巨大的惊喜。乌斯克尔特:突破性时刻可以有不同的形式。这确实不是一个技术层面的突破,但在这种能力水平下,这项技术展现出了极高的实用性,这无疑也可以称之为突破。同时,我们也需要意识到,用户在使用我们创建的工具时,他们的创造性和使用方式的多样性往往出乎我们的预料。