David Silver 离开 DeepMind,创立新公司挑战 AI 未来
去年年底,Google DeepMind 的核心人物 David Silver 正式离职。他不是普通的研究员——他是 AlphaGo 击败李世石背后的算法设计师,是 AlphaZero 从零开始自学围棋、国际象棋和将棋的主导者,也是 MuZero 能够在不被告知规则的情况下自己“悟出”游戏逻辑的幕后推手。他的离开,被业内视为一个时代的终结:那个靠纯算法、强推理和自我博弈推动 AI 进化的时代,似乎正在被大模型的喧嚣掩盖。
但 Silver 没有停下。他回到伦敦,创办了一家名为 Ineffable Intelligence 的新公司。名字取自“无法言说”,寓意那些无法通过文本数据捕捉的智能本质。这家公司没有公开融资细节,但已吸引数位前 DeepMind 核心成员加入,包括曾在强化学习和世界模型方向深耕的科学家。有知情人士透露,其早期团队中至少有五人曾直接参与 AlphaZero 项目。
不靠文本,靠试错:他相信 AI 应该“长大”,而不是“背书”
如今的 AI 热潮,几乎全被大语言模型主导:ChatGPT、Gemini、Claude……它们靠吞下互联网上所有文字,模仿人类说话。但 Silver 认为,这根本不是智能,只是“高级复读机”。
“我们教 AI 读了人类写了一百年的书,却没教它怎么走路、怎么抓球、怎么在失败后调整策略。”他在一次闭门分享中说,“真正的智能,是在未知环境中不断碰壁、反思、再试。”
这就是他要重建的路径——强化学习的复兴。不是让 AI 看视频学做饭,而是让它在虚拟厨房里自己打翻锅、烧糊饭、调整火候,直到做出一道能吃的菜。不是让它背下围棋定式,而是让它和自己下百万盘,自己发现“为什么这个角部布局总赢”。
他把这叫作“经验时代”。AI 不该是知识的消费者,而该是经验的创造者。
为什么这次不一样?
过去十年,强化学习一度被大模型“碾压”。因为 LLM 能快速出成果:写诗、答题、写代码,效果立竿见影。而强化学习需要漫长训练、复杂环境、高算力,回报周期长,企业不愿投入。
但 Silver 的团队正在突破几个关键瓶颈:
- 他们开发了新的“稀疏奖励”学习框架,让 AI 在极少反馈下也能持续进步——就像婴儿第一次学会翻身,没有掌声,但依然坚持。
- 他们用轻量级仿真环境替代庞大算力,降低训练成本。有内部测试显示,他们的模型在 1/10 的算力下,达成与传统方法相当的决策能力。
- 团队正与伦敦大学学院(UCL)合作,将动物行为学研究引入 AI 设计——比如观察老鼠如何在迷宫中构建心理地图,再转化为算法结构。
这不是科幻。去年,他们已在《Nature Machine Intelligence》发表了一篇论文,展示了一个仅靠视觉输入和动作反馈,就能在复杂物理环境中自主完成“堆叠积木”任务的系统——没有人类标注,没有预设规则。
一场沉默的迁徙正在发生
Silver 不是孤例。过去一年,至少有七位 DeepMind 和 OpenAI 的高级研究员选择离开,转向“非大模型”路径。有人做具身智能,有人重建神经符号系统,有人专注机器人自主学习。
风险投资也开始悄悄转向。据《The Information》报道,Ineffable Intelligence 已获得来自 a16z、Founders Fund 和部分欧洲主权基金的早期支持,估值接近 1.5 亿美元。这不是为了赶风口,而是有人开始怀疑:如果 AI 只会模仿,它永远无法理解“为什么”。
Silver 在办公室墙上贴着一张便条,上面写着:“我们不是在训练机器。我们在培养一种新的生命形式。”
也许,真正的下一场 AI 革命,不会来自更大的模型,而是来自更聪明的试错。