最新消息:关注人工智能 AI赋能新媒体运营

Sakana AI CTO喊话:厌倦Transformer,呼吁突破AI架构困局

科技资讯 admin 浏览
Sakana AI 首席技术官直言 “厌倦 Transformer”:深耕者呼吁突破单一架构,探索 AI 下一个突破点Sakana AI 首席技术官直言 “厌倦 Transformer”:深耕者呼吁突破单一架构,探索 AI 下一个突破点

“我厌倦了Transformer”:一位缔造者的觉醒

2025年10月23日,旧金山TED AI大会的聚光灯下,一个震撼全场的声音响起:“我已厌倦Transformer。”说话者不是别人,正是Transformer架构的联合缔造者之一、2017年划时代论文《Attention Is All You Need》的核心作者Llion Jones。如今身为东京AI初创公司Sakana AI的联合创始人兼首席技术官,Jones的这句宣言,像一记重锤敲在了全球AI行业的神经上。

他曾是这场技术革命的奠基人之一,如今却率先喊出“转型”。这不是对过往成就的否定,而是一位深耕者对行业现状的深刻警醒:AI正在因过度依赖单一架构而陷入创新停滞的“危险窄巷”。

“所有人都在做同一件事”:AI研究的集体内卷

Jones在演讲中描绘了一幅令人窒息的科研图景:尽管全球每年投入数百亿美元、汇聚顶尖人才,AI研究的视野却前所未有地狭窄。“你刚想到一个点子,转头就发现至少有三四支团队已经在做几乎一模一样的事。”他坦言,这种“抢先发表”的焦虑让研究者疲于奔命,被迫追求“稳妥可发”的论文,而非真正具有颠覆性的探索。

“这就像强化学习中的‘探索与利用’困境,”Jones比喻道,“我们太沉迷于‘利用’Transformer的现有价值,却忘了停下脚步去‘探索’全新的可能。”在他看来,当前行业正深陷“局部最优解”——不断优化一个已成熟的架构,却可能因此错过下一个革命性突破。

历史的回响:从RNN到Transformer的启示

为了说明问题,Jones回溯了Transformer诞生前的黑暗时期。2017年之前,整个AI领域几乎被循环神经网络(RNN)统治。尽管其在处理长序列时存在明显缺陷,研究者们仍执着于各种微调与变体,仿佛改进RNN是唯一正途。

直到Transformer横空出世,用自注意力机制彻底重构了深度学习的范式,那些年对RNN的精雕细琢瞬间显得黯然失色。“如果当年的研究者知道Transformer即将出现,他们还会花十年去修修补补RNN吗?”Jones的反问直击人心——今天的我们,是否正重演同样的悲剧?

自由,才是创新的土壤

Jones特别强调,Transformer的诞生并非来自“KPI驱动”或“战略规划”,而是一场纯粹的自由探索。他回忆道,当年在谷歌大脑的办公室里,团队成员在午餐时随意讨论,白板上涂鸦着未经验证的想法,没有管理层的干预,也没有发表压力。“没人要求我们必须产出什么,正是这种无拘无束的环境,才让我们敢于跳出RNN的框架。”

反观当下,即便研究人员年薪百万美元,仍被“证明价值”的压力裹挟,不得不选择“低垂的果实”——比如扩大模型参数、增加训练数据量,而非冒险尝试“狂野想法”。“当创新变成绩效考核的一部分,真正的突破就死了。”Jones犀利指出。

Sakana AI的“反主流实验”

作为回应,Jones在Sakana AI发起了一场“逆流而上”的研究实验:重建自由探索的文化。他采纳了工程师Brian Cheung的理念:“只做那些‘如果没有你,就不会有人做’的研究。”公司弱化论文数量、KPI和短期竞争,转而鼓励“自然启发式AI”——从生物进化、生态系统、大脑结构中汲取灵感。

一个典型案例是“Sakana连续思维机器”(Continuous Thought Machine),该项目尝试将类脑神经同步机制融入AI模型。在大多数机构,这种“不切实际”的构想可能刚提出就被否决。但在Sakana,Jones给了团队一周时间自由探索,结果不仅取得理论突破,还成功入选NeurIPS 2025的口头报告环节。

“有才华的人不会只为高薪而来,他们为能实现梦想的环境而来。”Jones坚信,自由比资金更能吸引真正的创新者。

不是抛弃,而是超越

Jones明确表示,他并非否定Transformer的价值。“未来几年,基于Transformer的模型仍会创造巨大社会与经济价值。”他真正反对的,是将整个AI行业的命运押注在单一架构上的“集体赌局”。

“Transformer太成功了,反而成了创新的阻碍。”他坦言,“正因为现有技术足够强大,大家就失去了寻找更好方案的动力。如果它没这么好用,反而会有更多人主动突围。”

性能递减的警钟:堆资源的时代正在终结

越来越多的研究证实,单纯扩大Transformer模型规模(如GPT-7、Claude-4等)带来的性能提升正在急剧放缓。斯坦福大学2025年发布的一项研究显示,当模型参数超过10万亿后,每增加一倍参数所带来的准确率提升不足2%,而训练成本却呈指数级增长。

这意味着,靠“堆资源”推动AI进步的模式已接近极限。行业亟需架构级创新,而非工程级优化。然而,激烈的商业竞争迫使企业聚焦“短期可落地”的项目,探索性研究因回报不确定而被边缘化。

一场“自我革命”正在发生

Jones的演讲已引发全球连锁反应。据《MIT Technology Review》2025年10月报道,谷歌已内部重启“非主流架构”研究小组,OpenAI也悄然扩大了对“非注意力机制”项目的资助。多所顶尖高校,包括MIT、斯坦福和东京大学,已设立“后Transformer架构”专项基金,鼓励年轻学者挑战主流范式。

而Sakana AI正积极探索“多智能体协同演化”“脉冲神经网络”“动态拓扑网络”等全新方向,试图为行业提供“跳出Transformer框架”的实践样本。

“下一个突破,需要放弃的勇气”

在演讲结尾,Jones发出深切呼吁:“AI的终极目标不是赢得竞争,而是推动人类认知边界的拓展。我们不该在一条路上疯狂内卷,而应共同调高‘探索’的刻度。”

他强调,真正的突破往往诞生于无人问津的角落,需要研究者敢于孤独、敢于失败。“下一个‘Transformer级’的突破可能就在眼前,它需要的不是更多优化,而是敢于放弃Transformer的勇气。”

这场由架构缔造者发起的“自我革命”,不仅是对行业现状的深刻反思,更是一声振聋发聩的警钟:当一个技术从“创新工具”变成“思维枷锁”,唯有打破惯性,拥抱不确定性,AI才能真正迈向下一个时代。