8 名Google员工发明了现代人工智慧，这是那篇论文的内幕故事

前人种树，后人摘果。在科技圈，科技巨头做出创新技术但成果却被初创企业窃取的情况屡见不鲜。最近的例子之一便是Google与OpenAI。最近对科技圈产生最深远影响的论文《Attention Is All You Need》就是Google的人发表的，但最终引爆市场的却是OpenAI。那篇论文的所有8位作者后来均离开了Google，本文介绍了这篇论文的诞生故事，并介绍了他们的最新动向。也许里面最值得深思的，是如何打造创新的土壤。我们如何才能打造出那样的土壤呢？

已成传奇

2017 年春发表的科学论文《你所需要的只是注意力》（Attention Is All You Need）共有八位作者，他们都来自Google，不过当时其中一人已经离开了公司。当其中最资深的作者诺阿·萨泽尔（NOAM SHAZEER）看到初稿时，他意外地发现自己的名字位列所有作者之首，这似乎表明他所做的贡献最为显着。他说：「我可不是这么想的」。?

作者名单如何排序从来都是件需要精心权衡的事情：谁应该独享第一作者的美誉？谁又该不幸的被排在倒数第一？当每位参与者在真正意义上的团队合作都做出了显着贡献时就更难权衡了。研究者们在完成论文的紧张过程中，最后採取了一种「颠覆性」的做法来打破常规的作者排名。他们为每个名字后面都标注了一个星号，并在注脚明确指出：「各人的贡献均等」，「作者排序按随机排列」。此举无疑给学界惯例带来挑战。在截止日期前夕，他们将论文提交给一个声誉卓着的人工智慧会议——并进而在该领域掀起了一场革命。?

在论文发表临近七周年之际，《注意力就是你的全部所需》已成为传奇。作者们的出发点是一项日趋成熟且不断进步的技术——一种被称为神经网路的人工智慧。他们把它发展成了一种全新的系统：这个系统是如此的强大，以至于它的输出仿佛来源自非人类的智慧。这种被称为 Transformer 的体系结构正是 ChatGPT、Dall-E 以及 Midjourney 等引人注目的 AI 产品背后的核心技术。Shazeer 如今调侃道，如果他当初知道这篇论文会那么出名的话，他「可能会对作者排序更加介意」。但现在，所有的八名签署作者都已经小有名气。利昂·琼斯（Llion Jones）的名字（当然是随机的）恰好排在第五位，他说：「就因为我的名字出现在了一篇论文上，有人就找我合影了！」。?

杰佛瑞·辛顿 (Geoffrey Hinton)虽不是论文的作者之一，但也许确实全球最卓越的人工智慧科学家。他说：「要不是因为有了transformers，我觉得我们走不到今天这一步。」他指的是随着OpenAI等公司开发出能与人类产出相媲美，甚至在某些情况下超越人类产出的系统，我们已经进入到一个地动山移的时代。?

现如今，所有这八位作者都已离开Google。跟成千上万人一样，他们目前正以各种方式参与到由他们在 2017 年所创造的系统推动的工作当中。我採访了这八位 Transformer 的发明者，希望能揭示一项颠覆性成果——一次凝聚人类智慧的努力，创造出一台有可能最终主导话语权的先进机器——的内在结构。?

延伸阅读：就是要你全部的注意力！ChatGPT不小心找到一个有史以来最赚钱的商业模式

诞生故事

Transformers的故事要从这八个名字的第四个开始：雅各·乌斯克尔特（Jakob Uszkoreit）。?

雅各·乌斯克尔特是着名的电脑语言学家汉斯·乌斯克尔特（Hans Uszkoreit）的儿子。 20 世纪 60 年代末，还是高中生的汉斯因抗议苏联入侵捷克斯洛伐克而在自己的祖国东德被监禁了 15 个月。获释后，他逃往西德，并开始在柏林学习电脑和语言学。雅各出生那年，他去了美国，到加州门洛公园的一家研究机构 SRI 的人工智慧实验室工作。后来他们家又重新回到德国，雅各也在那里上了大学。他起初并没计画要专攻语言学，但当他开始研究生学业时，他拿到了到Google山景城总部的实习机会，并加入了公司的翻译小组，看来他最终还是投入到家族事业之中了。他后来放弃了攻读博士的计画，2012年，他决定加入Google的一支团队。当时该团队正在打造一个不需要将使用者重定向到其他网站，可以直接在搜寻介面回答使用者问题的系统。那时候Apple刚刚推出了 Siri，一个在日常交谈当中提供即时答案的虚拟助手，这让Google的管理层感受到巨大的竞争压力：因为Siri 有可能会冲击到他们的搜寻流量。因此，他们开始更加关注雅各·乌斯克尔特领导的这个新团队。?

乌斯克尔特表示：「那其实是场不必要的恐慌，」事实上 Siri 从未对Google构成过实质性的威胁。但他对此还是很高兴，因为这是可以深入钻研人机对话系统的机会。在当时，在学术上曾被认为一潭死水的循环神经网路（recurrent neural networks），其表现突然超越了其他的人工智慧工程方法，这种神经网路由多层组成，资讯可以在在这些层之间传递和反复传递，进而能辨识出最佳的回应。神经网路在图像辨识等多个领域取得了巨大进展，人工智慧因此迎来了全面复兴。Google开始疯狂要求自己的员工採用这些新技术。他们希望能开发出能生成类似人类回应的系统，像是可以在邮件自动补全句子或做出相对简单的客服聊天机器人。?

但这一领域后来遇到了难题。循环神经网路在处理长文本时表现不佳。比方说，要想理解「Joe 是一名棒球选手，在享用了一顿丰盛的早餐之后，他在棒球场上打出两支安打。」这句话里面的「两支安打」，语言模型就必须记住前面提到的棒球。换言之，模型必须维持注意力。对此业界公认的解决方案叫做「长短期记忆」（LSTM），这种革新技术让语言模型能够处理更长、更複杂的文本序列。但电脑还是严格按顺序来处理这些序列——一个一个单词地去处理，乏味至极——这种做法会错过后续可能出现的上下文线索。乌斯克尔特表示：「我们採取的做法基本上只是临时应急措施，并没有找到可以真正规模化的处理手段。」?

大概在 2014 年左右，他开始酝酿一种新的做法，他称之为自注意力机制（self-attention）。这种网路可以引用段落文字的任何其他部分，借此来翻译一个词。这其他部分的内容可以明确某个词想要表达的意思，进而说明系统生成準确的翻译。他说：「其实这种机制已经考虑到所有因素，提供了一种能同时高效地审视众多输入资讯，并以相当有选择性的方式提取资讯的方法」。虽然人工智慧科学家们都很小心，避免将神经网路的隐喻与生物大脑的实际工作方式混为一谈，但乌斯克尔特依旧认为自注意力机制在一定程度上与人类处理语言的方式有相似之处。?

乌斯克尔特相信，自注意力模型有望比循环神经网路快得多、也更有效。其处理资讯的方式与强大的并行处理晶片完全匹配，后者已经被大规模生产出来，用来支撑机器学习热潮。与线性处理方法（按顺序查看每个词）不同，它採用了一种并行的处理方法（同时查看一批词）。乌斯克尔特在想，如果处理得当的话，或许只用自注意力模型就能收穫更出色的结果。?

并不是所有人都认同这个想法能震撼世界，其中也包括乌斯克尔特的父亲在内。雅各在Google供职期间，汉斯·乌斯克尔特获得了两项Google学术研究奖。雅各·乌斯克尔特表示：「大家都对此感到吃惊，因为它抛弃了所有现有的神经网路架构。」跟循环神经网路说再见？简直是异端！「从我跟父亲吃饭时的对话情况来看，我们的观点并不完全一致。」?

乌斯克尔特说服了几位同事对自注意力模型进行实验。他们的工作成果展现了希望，2016 年还发表了一篇论文。乌斯克尔特想推动他们进一步研究——因为该团队只用了非常少量的文本段落进行试验——但没有一位合作者对此感兴趣。他们就像是只想小赌一把的赌客，拿得到一点奖金就离场了。乌斯克尔特说「这东西确实管用。那篇文章的合作者对于将自己的研究成果运用到Google的不同地方，包括搜寻引擎，最终还有广告系统等感到十分兴奋。从很多方面来看这都是一个了不起的成就，但我并不想就此打住。」?

乌斯克尔特相信自注意力能胜任更大的任务。在Google园区北边查尔斯顿路 1945 号楼（用位址命名）里，他会向任何愿意（以及不愿意）倾听的人讲解他的设想，并在白板上勾勒出他的愿景。?

延伸阅读：谁发表的AI研究最具影响力？Google遥遥领先，OpenAI成果转化率完胜DeepMind

2016年的某一天，在Google的一个咖啡店里，乌斯克尔特正在与一名来自乌克兰的科学家共进午餐，此人名叫伊利亚·波洛苏钦（Illia Polosukhin），已经在Google工作了近三年。波洛苏钦被分配到的团队负责解答在搜寻框里直接提出来的问题。但他们的成果并不如预期。波洛苏钦说：「要想在 Google.com 上提供答案，你得有一个成本低效果好的方案。因为必须在几毫秒内做出回应。」当波洛苏钦对此表达不满时，乌斯克尔特毫不犹豫地给出了自己的解决方案。波洛苏钦回忆道：「他提议说，为什么不试试自注意力机制呢？」?

波洛苏钦有时候会跟另一位同事合作。阿希许·瓦斯瓦尼（Ashish Vaswani）在印度出生，在中东长大，曾就读南加州大学（USC），并在该校顶级的机器翻译小组获得了博士学位。然后，他来到山景城，加入了Google——具体来说是去到Google新成立的Google Brain部门。在他眼里，Google Brain是一个十分激进的组织，坚信「神经网路将推动人类认知的加深」。但他一直想找个值得投入进去的大项目。他的团队在 1965 号楼工作，这栋建筑正好位于波洛苏钦的语言团队所在的1945号楼旁边，然后他听说了自注意力机制的构想。这会是他想要的那种项目吗？他同意参与进来。?

三位研究人员共同起草了一份设计档案，名字叫做「Transformers：反覆运算自我注意力机制记各种任务的处理」。乌斯克尔特说，他们从「零日」（day zero）中选中了「transformers」这个名字。其想法是，这种机制可以变换所接收的资讯，让系统能够析取出尽可能多的理解，或者至少给人以那种错觉。再加上乌斯克尔特对小时候玩孩之宝动作人偶的美好时光仍历历在目：「我很小的时候曾经有过两个变形金刚小玩具」。这份文件档案甚至还用六个变形金刚在群山之间互射雷射光的卡通图片作为结束。?

论文开头的那句话也有点招摇：「我们太棒了。」?

2017年初，波洛苏钦离开Google自主创业。此时，新的合作者也开始陆续加入该项目。印度工程师妮基·帕尔玛（Niki Parmar）曾在印度为一家美国软体公司工作，之后又移居到美国。2015年她在南加州大学（USC）获得硕士学位后，各大科技巨头均向她伸出了橄榄枝。她最后选择了Google。开始工作后，她开始与乌斯克尔特合作，透过研发模型变体来增强Google搜寻功能。?

另一位新成员是利昂·琼斯（Llion Jones）。他在威尔士出生长大，热爱电脑，「因为这东西不一样。」在伯明罕大学，他修了一门人工智慧课程，对用历史趣事呈现的神经网路产生了兴趣。2009年7月，他拿到了硕士学位，但由于经济不景气难以找到工作，曾靠失业救济维持了几个月。之后他到一家本地公司找到了一份工作，然后用「孤注一掷」的心态去投了Google。他最终得到了这份工作，进入到Google Research，而他的经理正是波洛苏钦。某一天，琼斯从同事麦特·凯尔西（Mat Kelcey）那里听说了自注意力的概念，之后决定加入transformer团队。（后来，琼斯碰到凯尔西时提到了transformer项目，但凯尔西对此并不看好。现如今的凯尔西是这么说的：「我跟他说，『我不确定这能不能行得通』，这基本上算是我这辈子错得最离谱的预测了」。）?

Transformer专案吸引了同样致力于改进大语言模型的其它Google Brain团队研究人员。这第三波的成员包括波兰出生的理论电脑科学家卢卡希·凯撒（?ukasz Kaiser）以及他的实习生艾丹·葛麦斯（Aidan Gomez）。葛麦斯在加拿大安大略的一个小农庄长大，每年春天，他家都会採集枫木汁製作成糖浆。在多伦多大学上大三的时候，他就「深陷」在人工智慧的魅力而无法自拔，并且加入了到一个机器学习小组——杰佛瑞·辛顿（Geoffrey Hinton）的实验室。他开始联络Google那些写过有趣论文的人，提出对他们的研究进行扩展的想法。凯撒上钩了，并向他发出来实习的邀约。直到数月之后，葛麦斯才发现这些实习机会本来是为博士生準备的，而不是像他这样大学生。?

凯撒和葛麦斯很快就意识到，对于他们正在处理的问题来说，自注意力机制似乎是一个有前途且更为彻底的解决方案。葛麦斯说：「我们进行了认真商讨，确定要要不要合併这两个专案」。答案是肯定的。?

Transformer团队开始着手构建一个自注意力模型，用于将文字从一种语言翻译成另一种。他们利用了BLEU 基準测试来衡量该模型的表现。BLEU会透过对比机器输出与人类翻译者的工作来测试模型。他们的新模型从一开始就表现良好。乌斯克尔特表示：「我们从没有概念证明走到至少有一个能与当时最好的 LSTM 方案匹敌的东西」。不过，跟长短期记忆（LSTM）相比，「它并没有更好表现。」?

直至 2017 年的某一天，诺姆·萨泽尔（Noam Shazeer）偶然听说了他们的研究专案之后，他们的瓶颈才被打破。萨泽尔是一名经验丰富的工程师，早在 2000 年就加入了Google，同时也是Google的一位传奇人物，早年因在广告系统的工作而获得了广泛认同。萨泽尔研究深度学习已有五年时间，最近对大语言模型产生了浓厚兴趣。但现有的模型离流畅对话还差得很远，他认为那种对话是可以实现的。?

根据萨泽尔的回忆，当时他正在 1965 号楼的走廊行走，经过凯撒的工作区时，他听到里面正讨论得热火朝天。他记得阿希许谈到了用自注意力机制的想法，而妮基则对此非常兴奋。「我在想，哇，这似乎是个很棒的想法。看起来似乎是一群有趣的聪明人在做一件很有前途的事。」萨泽尔认为现有的循环神经网路「让人很不爽」，于是他想：「为何不换掉它们呢！」?

萨泽尔的加盟至关重要。乌斯克尔特表示：「这些理论性或直观性的机制，比如自注意力机制，一直都要靠非常细緻的实现，甚至有时候只有少数经验丰富的『魔法师』才能让它呈现出一丝生机」。萨泽尔马上开始施展他的魔法。Transformer团队的程式码他决定自己写一版。他说：「我接受了他们的基本想法，然后自己实现了」。偶尔他会找凯撒寻求解答，但大部分时候他「都是自己折腾一番之后就『搞定了。』」透过其他团队成员口中的「魔法」、「炼金术」和「花里胡哨」的操作之后，他将这套系统提升到了一个新的水準。?

葛麦斯说：「这拉开冲刺的序幕」。人人都斗志昂扬，希望在即将到来的截止日期之前搞定——5月19日是论文提交的最后期限，如果获得通过，这些论文将在人工智慧界一年一度的最大盛会（也就是12月举办的神经资讯处理系统大会，Neural Information Processing Systems）上发表。硅谷所谓的人工智慧寒冬已渐渐逝去，春天正慢慢走来，实验的步伐也随之加快。他们测试了两种transformers模型：一个是经过12小时训练得来的，另一个更加强大的版本被命名为 Big，经过了三天半的训练，并被开始用来执行把英语翻译成德语的任务。?

这个基础模型超越了所有对手——而 Big 拿到的BLEU评测分数碾压了过去的记录，同时计算效率也更高。帕马说：「我们的用的时间比别人短。而这还仅仅是开始，因为资料还在不断提高。」当乌斯克尔特听到这个好消息时，他从自己山地探险车里拿出了一瓶陈年香槟来庆祝。?

截止日期前的最后两周，大家都忙到发疯。儘管有些团队成员的官方座位还在 1945 号楼，但实际上他们大都在 1965 号楼办公，因为那里的义式咖啡机更好。葛麦斯说：「大家几乎都没怎么睡觉」。作为实习生，他几乎一直在紧张地进行着调试，同时还要为论文製作视觉化内容和图表。在这样的项目里，做剔除实验是司空见惯的事情——也就是拿走一部分，看看剩下的是不是足以完成任务。?

葛麦斯说：「技巧或模组的各种可能组合我们都会尝试，去找出哪些有用，哪些没用。撤掉这个，然后用那个来替换。为什么模型的机制是如此的有违直觉？原来是因为我们遮盖（masking）得不对。现在能用了吗？好的，那就继续下一个。现在我们所谓的『Transformer』的所有要素，都是这种高速反覆运算、不断试错的结果。在萨泽尔所实现版本的支持下，这些剔除赋予了Transformer『极简主义』的特色，就像琼斯所说那样，『诺姆就像一位魔法师』。」?

瓦斯瓦尼回忆道，他在团队写论文的那个晚上，躺在办公室的沙发上，凝视着隔开沙发与房间其他部分的窗帘，突然被窗帘布料上的图案所吸引，那些图案在他看来像极了突触和神经元。葛麦斯也在场，瓦斯瓦尼告诉他，他们正在做的事情远不止机器翻译。他说：「最终，我们需要像人脑一样，将语音、声音、视觉等各种模式统一在一个架构之下。我有一种十分强烈的感觉，那就是我们正在接触到某种更为普遍的东西。」?

不过，在Google的高层看来，他们的工作只不过是又一个有趣的人工智慧专案罢了。我曾问过几位参与Transformer专案的人，他们的上司是不是经常让他们报告专案进展。实际上这种情况并不多。但是乌斯克尔特说：「我们都知道，这东西有可能会变成一件大事。这也促使我们非常关注论文末尾对未来工作的一段评论。」?

那句话预示了接下来可能会发生的事情——transformer模型在基本上一切形式的人类表达上面的应用。他们写道：「我们对以注意力为基础的模型之未来感到兴奋。我们计画将transformer扩展到输入与输出模态不是文本的问题」，还要研究「图像、音讯和视讯」。?

还有几天就到截止日期的一个晚上，乌斯克尔特意识到自己的论文得取个标题。琼斯指出，该团队已经彻底摒弃公认的最佳实践，其中最突出的是 LSTM，而转向这一项技术：注意力机制。琼斯回忆道，披头四乐队有首歌叫做「你所需要的只是爱」（ All You Need Is Love）。为什么不把这篇论文叫做「你所需要的只是注意力」（ Attention Is All You Need）呢？?

披头四？?

琼斯说：「我是英国人。其实我想到这个只用了五秒钟。我没想到他们会採纳。」?

在截止日期到达之前他们都在不断收集实验结果。帕尔玛说：「我们大概是在提交论文的五分钟前才弄到，英法互译资料的。那时候我正坐在1965号楼的一个迷你厨房里，把最后一批数字弄进去。」不到两分钟之后，他们就把论文发出去了。?

跟几乎所有的科技公司一样，Google很快就为这项工作申请了临时专利。原因不是为了阻止其他人借鑒这些想法，而是出于防御目的建立其专利组合。（该公司的理念是「如果科技有所进步，Google就会从中受益。」）?

Transformer团队收到的同行评审回响不一。帕尔玛说：「有一个评价是积极的，有一个非常积极，还有一个评价是，『还行吧』」。该论文被採用了，但只是被放在了晚间海报展示环节。?

到 12 月开会时，这篇论文引起了轰动。 12 月 6 日，他们四小时的海报展示现场已经挤满了想要了解更多资讯的科学家。作者们聊到声音都嘶哑了。到了晚上10点30分会议结束时，现场仍然人头攒动。乌斯克尔特说：「最后保全只能让我们离开」。不过对他来说也许最满意的时刻是电脑科学家赛普·霍克赖特 (Sepp Hochreiter) 的现身，后者还讚扬了这项工作——鑒于霍克赖特是长短期记忆（LSTM）的共同发明者，而transformer刚刚取代了LSTM在人工智慧工具包的主流地位，这算是相当高的讚誉了。?

墙外开花

Transformer 刚开始并没有马上征服世界，甚至连Google都没有征服。凯撒回忆道，在论文发表的时候，萨泽尔曾建议公司高层彻底抛弃搜寻索引，而是用 Transformer 训练一个庞大网路——也就是基本上彻底改变Google组织资讯的方式。那时候，即便是凯撒也觉得这个想法很荒谬。而现在的共识是，这只是时间问题。?

但有家初创公司的反应就要迅速许多。论文发表后不久，OpenAI 的首席研究员伊尔亚·苏兹克维（Ilya Sutskever，此前在Google任职时他就知道 Transformer 团队了）建议由自己的科学家艾历克·雷福德（Alec Radford）研究这个想法。其结果便是最早期的 GPT 产品。就像 OpenAI 的 CEO 山姆·阿特曼（Sam Altman）去年所说那样：「Transformer 的论文发表时，我觉得Google没人意识到它会产生什么样的深远影响。」?

但从内部看情况更为複杂。乌斯克尔特说：「我们很清楚 Transformer 能做出很神奇的事情。放在今天你可能会问，为什么Google 2018年不能退出像 ChatGPT 这样的产品？说实话， 2019 ，或许 2020 年我们就能有 GPT-3 或甚至 GPT-3.5这样的产品。问题不在于他们有没有意识到，而在于为什么我们看到之后没有採取行动。这个答案很複杂。」?

许多技术评论人士指出，Google已经从原先的创新中心慢慢变成更注重利润和效率的官僚机构。葛麦斯在接受《金融时报》採访时指出，「他们没有跟上现代化的脚步，没有採纳这项新技术。」不过，对一个领导行业并攫取巨额利润数十年的企业巨头来说，冒险採用全新技术确实是一大挑战。Google的确在2018年开始往产品整合了 Transformer，首当其冲的是翻译工具。同样在那一年，它还推出了一个基于 Transformer 的新型语言模型BERT，并在第二年开始将其应用于搜寻服务。?

但是，跟 OpenAI 的巨大飞跃与微软将基于 Transformer 的系统大胆整合到其产品线相比，Google这些内部技术调整就显得比较保守了。去年当我询问首席执行长桑达尔·皮查伊（Sundar Pichai）为什么率先推出像 ChatGPT 这样的大语言模型的不是Google时，他认为在这种情况下，让别人先走一步对Google是有好处的。他回答说：「对于这样做会不会一样成功还不是完全明朗。事实上，在人们看到它的工作原理之后，我们有能力做得更多。」?

一个不可否认的事实是，这篇论文8位作者全都已离开Google。波洛苏钦的公司 Near打造出一种市值约达 40 亿美元的区块链代币。帕尔马与瓦斯瓦尼在 2021 年开始搭档创业，成立了 Adept （估值约 10 亿美元），现在两人又合伙创办了第二家公司 Essential AI（已获得 800 万美元融资）。利昂·琼斯在东京设立的 Sakana AI 的目前估值约为 2 亿美元。萨泽尔于 2021 年 10 月离职，与人联合创办了 Character AI （估值为 50 亿美元）。艾丹·葛麦斯是团队里面的实习生，2019 年，他回到多伦多与人共同创立了 Cohere（估值约 22 亿美元）。雅各·乌斯克尔特的生物科技公司 Inceptive估值为 3 亿美元。除了 Near 以外，这些公司的安身立命之基都是 Transformer 技术。?

凯撒是唯一没有出来创业的人。他加入了 OpenAI，是一个叫做 Q* 的新技术的发明者之一，阿特曼去年曾表示，这项技术将「揭开无知的面纱，推动发现的前沿」。（当我在採访中试图就此问题询问凯撒时，OpenAI 的公关几乎是蹦起来让他马上闭嘴。）?

Google会想念这些离开者吗？当然会，也包括其他从Google出走创办人工智慧初创公司的那些人。（当我问皮查伊有关 Transformer 技术人员离职的问题时，他提醒我，被业界人士热捧的 OpenAI也不是铁板一块，也有人出走。他表示：「人工智慧这个领域瞬息万变」。）但Google可以很自豪地宣告，他们已经打造出一个支持非常规思想探索的环境。帕尔马表示：「从很多方面来看，Google一直都走在最前面——他们投资到合适的脑袋，并创造出让我们可以随心所欲地探索和挑战极限的环境。他们需要时间去接纳新事物并不奇怪，毕竟Google所承担的风险要大得多。」。?

如果没有那种环境的话，Transformer就不会出现。这些论文作者不仅都是Google的员工，而且还在同一间办公室工作。走廊的偶遇与午餐时的闲聊有时候也会擦出思想的火花。这个团队在文化上十分的多元化。其中有六位作者出生在美国以外的地方，而另外两位，一个是两个获得绿卡，曾在加州短暂停留的德国人的孩子，还有一个是为了逃避迫害才来到美国的第一代美国人的后代。?

乌斯克尔特在柏林的办公室里说道，创新就是打造合适的土壤。他说：「有对某件事情充满激情，正好又处在人生合适时候的人。有了这些之后，如果在做的过程中能感受到乐趣，同时研究的又是合适的问题的话——再加上一点运气——那么奇迹就会出现。」?

在乌斯克尔特跟他那位出名的老爸之间，也发生了一件不可思议的事。在无数次的餐桌辩论之后，儿子报告说，汉斯·乌斯克尔特现在也开始跟人共同创立了一家致力于开发大语言模型的公司了。当然了，用的也是 Transformer 技术。

延伸阅读：OpenAI真正想要的是什么？?延伸阅读：Hyena可达到与 GPT-4 同等的準确性，但使用的算力少 100 倍

资料来源：?

8 Google Employees Invented Modern AI. Here’s the Inside Story

CB科技站

8 名Google员工发明了现代人工智慧，这是那篇论文的内幕故事

已成传奇

诞生故事

披头四？?

墙外开花

与本文相关的文章

您的回复是我们的动力！

网友最新评论