3 月 21 日,GTC AI 大会,黄仁勋对线 位 Transformer 框架论文作者。他们认为,AI 行业被困在了六七年前的原型上,这个世界需要更好的模型。
“我认为世界需要比 Transformer 更好的东西。我觉得现在与六七年前的情况相似。”“所以尽管原始模型可能不是现在可拥有的最强大的东西,但我们仍然固守在原来的模型上。”
Transformer 架构的诞生源于自然语言处理(NLP)领域的迫切需求。在过去,传统的循环神经网络(RNN)和卷积神经网络(CNN)在处理序列数据时面临一些挑战。RNN 虽然能够捕捉序列中的依赖关系,但由于其顺序处理的方式,导致计算效率低下,并且难以处理长距离依赖。而 CNN 虽然可以并行计算,但在处理变长序列时不够灵活。
为了克服这些挑战,2017 年,谷歌的 8 名研究人员联合发表了名为《你所需要的是注意力》(Attention Is All You Need)的论文,并在这篇论文中提出了 Transformer 架构,它能真正地解决 RNN 和 CNN 在处理序列数据时存在的问题。
Transformer 采用了自注意力机制(Self-Attention Mechanism),使得模型能够同时关注序列中的所有位置,从而捕捉长距离依赖关系。此外,Transformer 还采用了多头注意力(Multi-Head Attention)和位置编码(Positional Encoding)等技术,进一步提高了模型的性能。这项具有划时代意义的技术变革彻底改变了技术发展路径。技术背后,这 8 位一同提出该理论的研究人员有的已经离开了谷歌,有的已经创办了自己的公司或是加入了新团队。
近日,国外知名杂志《连线》的资深编辑史蒂文利维(Steven Levy)近期撰写了一篇文章,为我们揭秘了 Transformer 架构诞生背后的故事。
他们偶然相遇,迷上了共同的探索目标,最终设计出近代历史上最具突破性的关键技术——Transformers。
2018 年春季发表的一篇科学论文《Attention Is All You Need》共有八位作者,他们都是来自谷歌的研究人员,不过当时其中一人已经离开了公司。而最资深的贡献者 Noam Shazeer 手捧文章初稿却颇感讶异,因为他的名字出现在了第一位。面对各位合作伙伴对自己贡献的肯定,他坦言“我实在没有想到”。
论文作者的姓名排序其实很有讲究,谁在前谁在后可谓相当重要。特别是在这篇奠定了现代 AI 的关键文章中,每位参与者都凭借自己的努力给整个科技史竖起不朽的丰碑。而在论文终于定稿之后,大家决定“颠覆”按贡献度排名的惯例,添加标注强调每位作者都做出了“彼此相当的贡献,排名不分先后”。文章在截止日期前被发给知名 AI 会议,并旋即引发了如今人们耳熟能详的这场技术。
值此七周年之际,这篇论文已经拥有了传奇般的历史地位。作者们从神经网络这项蓬勃发展且不断改进的技术入手,打造出一套极为强大的数字系统,该系统的输出就如同是外星智能的产物。这种架构被命名为 Transformer,是当今一切令人兴奋的 AI 产品背后的秘密武器,其中也包括 ChatGPT、Dall-E 和 Midjourney 等重量级成果。Shazeer 开玩笑说,早知道这篇文章会拥有这样的份量,那当初就该“认真考虑一下作者排序”。现在这八位作者都成了技术圈的名人,在文章署名中位列第五的 Llion Jones 表示“现在会有人要求跟我合影,就是因为我是论文的作者之一!”
虽然并非论文作者,但身为全球最知名的 AI 科学家之一,Geoffrey Hinton 表示“如果没有 transformers,我觉得 AI 技术不可能达到目前的高度。”在他看来,我们生活在一个翻天覆地的新时代,OpenAI 等厂商构建起的系统在很多方面几乎可与人类比肩,有时甚至已经成功超越了人类。
文章发表之后,这八位作者先后离开了谷歌。与其他数百万科技从业者一样,他们仍在以某种方式使用自己在 2017 年创造的成果开发更多 AI 系统。我有幸与这位八位 transformers 元老面对面交流,希望拼凑出那个开天辟地的重要时刻,了解他们如何依托人类的思维创造出拓展未来的智能机器。
Uszkoreit 的父亲是著名计算语言学家 Hans Uszkoreit。上世纪 70 年代末,Hans 还是一名高中生,并因为苏联入侵捷克斯洛伐克而在祖国东德被判监禁 15 个月。获悉之后他逃往西德,在柏林学习计算机和语言学。Jakob 出生时他们举家迁往美国,在位于加利福尼亚州门洛帕克一家研究机构 SRI 的 AI 实验室工作。后来他们全家又迁回德国,Jakob 也在那里接受了大学教育。
Jakob 对于语言学兴趣不大,并在研究生阶段前往谷歌位于山景城的总部实习,并加入该公司的翻译小组。看来 Uszkoreit 家的人终究摆脱不了语言这个体系。在放弃继续攻读博士学位后,Jakob 于 2012 年加入了谷歌的一支系统开发团队,其目标就是搜索页面内容并直接回答用户提问,避免再跳转至其他页面。当时苹果刚刚推出了 Siri,这是一款虚拟助手,号称能在自然顺畅的对话中直接给出答案。谷歌高层从中嗅到了巨大的竞争威胁:Siri 可能会吞噬他们的搜索流量。也正因为如此,Uszkoreit 所在的这支新团队开始受到重视。
Uszkoreit 表示,“这种恐慌实在没有必要。”Siri 从未真正威胁过谷歌,但他很高兴能有机会深入研究计算机与人类话语之间的神秘联系。当时,曾经如一潭死水般的循环神经网络突然开始超越其他 AI 工程学方法。这类网络由多个层组成,信息在各层之间不断传递以识别最佳响应。神经网络在图像识别等领域取得了巨大胜利,AI 技术的复兴也在一夜之间成为现实。于是谷歌疯狂调整员工队伍以应用这些技术,并希望系统能够生成与人类相当的响应能力——包括自动补全电子邮件中的句子,或者创建出相对简单的客服聊天机器人。
但这个方向很快就走进了死胡同。循环神经网络很难解析较长的文本片段。我们以这样一段话为例,“Joe 是名棒球运动员,在吃了一顿丰盛的早餐后,他去球场并打出了两记安打。”要想理解“两记安打”,语言模型必须记住前面“Joe 是名棒球运动员”的部分。如果按人类的语言处理习惯讲,那就是需要在这里集中注意力。当时公认的解决方案是所谓“长短期记忆”(LSTM),这种技术创新允许语言模型处理更大、更复杂的文本序列。但计算机仍会严格按照顺序处理这些序列(也就是按序排列的单词),且往往无法把握段中稍后可能出现的上下文线索。Uszkoreit 解释称,“当时使用的方法就像是创可贴,基于是在缝缝补补,没办法理解能够真正发挥规模化作用的正确素材。”
于是 2014 年左右,他开始研究一种前所未有的方法,并将其称为自注意力(self-attention)机制。这种网络可以引用段落内的任意其他部分来理解单词含义,这些其他部分将作为上下文以阐明单词意图并帮助系统输出更优质的翻译结果。他指出,“这实际上是在通盘思考,并提供一种行之有效的方法,可以同时关注多条输入,再以有选择性的方式提取出某些内容。”尽管 AI 科学家们一直谨慎行事,不希望把“神经网络”的表述跟生物学大脑的实际工作方式相混淆,但 Uszkoreit 却信心满满,似乎认定自注意力与人类的语言处理方式确有共性。
Uszkoreit 认为自注意力模型应该比循环神经网络更快、更高效。它处理信息的方式也更适合那些为支持机器学习热潮而大量产出的并行处理芯片。自注意力模型不再使用线性方法(按固定顺序查看各个单词),转而选择了并行方法(一次观察一大堆单词)。Uszkoreit 怀疑,只要操作得当,单凭自注意力就能带来更好的文字理解和生成效果。
但当时并不是人人看好这种颠覆性的研究方向,包括 Uszkoreit 的父亲。就在儿子为谷歌工作的几年中,老 Hans 拿下了两项谷歌学院研究奖。Jakob Uszkoreit 回忆道,“当时人们普通对此感到惊讶,因为它抛弃了一切原有神经架构。”放弃循环神经网络?这简直是异端!“从我跟父亲在餐桌上的沟通结果来看,咱们爷俩的观点着实是大相径庭。”
但 Uszkoreit 还是成功说服了几位同事参与自注意力实验。初步工作带来了希望,于是他们在 2016 年发表了一篇相关论文。Uszkoreit 希望进一步推动研究,毕竟初期的团队实验只使用到数量极小的文本,但合作者们纷纷表示没有兴趣。就如同普通玩家赚点小钱就想离开赌桌一样,首批合作者开始尝试把这些初步发现转化成应用成果。Jakob 指出,“自注意力确实能行。那篇论文的研究人员也对获取回报,并将成果部署在谷歌各个业务领域的前景感到兴奋,包括搜索乃至广告等。从种种方面来看,这都是一场惊人的成功,但我并不想就此止步。”
在 Uszkoreit 看来,自注意力完全可以做得更多、更好。于是他开始向所有感兴趣和不感兴趣的同事推销自己的理论,并在园区内 1945 号楼的白板上详尽阐述了自己的技术愿景。
2016 年的一天,Uszkoreit 和一位名叫 Illia Polosukhin 的科学家在谷歌园区的咖啡馆里共进午餐。Polosukhin 出生于乌克兰,已经在谷歌工作了快三年。他被分配到了一支专项团队,探索如何在搜索字段中直接就查询问题给出答案。当时项目进展得不太顺利。Polosukhin 表示,“要在上直接回答问题,相应的底层技术必须性能超高且成本低廉,毕竟整个回答窗口就只有几毫秒。”就在 Polosukhin 发泄着满腹牢骚时,Uszkoreit 毫不犹豫地给出了解决办法,“他建议说,为什么不试试自注意力呢?”
当时,Polosukhin 经常一位名叫 Ashish Vaswani 的同事合作。Vaswani 出生于印度,但成长阶段主要生活在中东,曾经前往南加州大学求学,并在校内的精英机器翻译小组中拿下了博士学位。之后他搬到山景城并加入了谷歌,成为“Google Brain”新部门的一员。根据他的描述,Google Brain 是一个“激进派团体”,坚信“神经网络将更新人类的理解方式”。但他的野心不止于此,希望参与到更宏大的项目当中。他的团队在 1965 号楼,跟 Polosukhin 语言团队所在的 1945 号楼相邻。在听说了自注意力技术之后,他马上表现出兴趣并同意放手一试。
Uszkoreit 指出,大家之所以在起步阶段选择了“transformers”这个名字,是因为此项机制能够转变接收到的信息,让系统尽可能从中提取更多理解信息,或者至少要实现类似于理解的效果。此外,Uszkoreit 还记得孩童时代把玩孩之宝“变形金刚”玩具的美好时光,其原词正是 transformers。“我小时候就有两个变形金刚玩具”,所以文件最后选择以六位变形金刚角色在山间相互开炮的图片收尾。
2017 年初,Polosukhin 离开谷歌创办了自己的公司。但与此同时,新的合作者也陆续加入。一位名叫 Niki Parmar 的印度工程师当时刚刚移居美国,此前在某美国软件公司的印度分部工作。她于 2015 年获得南加州大学硕士学位,还收到多家科技企业的录用函。她最终选择了谷歌,并在入职后马上参与 Uszkoreit 团队,致力于研究如何利用模型变体改进谷歌搜索服务。
另一位新成员则是 Llion Jones。他在威尔士出生长大,而且热爱计算机那种“非常规”的运行逻辑。他在伯明翰大学学习 AI 课。