最新消息:关注人工智能 AI赋能新媒体运营

从理解到规划决策只需1秒,LeWM加速世界模型落地

科技资讯 admin 浏览

与目前主流的生成式AI不同,前Meta首席AI科学家Yann LeCun最近带领研究团队发布了一款新模型LeWorldModel(LeWM),不仅能从图像直接学习环境变化,还能在1秒内完成行动规划。重点是,该模型的训练方式大幅简化,使原本难以落地的JEPA技术开始变得更加实用。

不只是生成,而是预测接下来会发生什么

过去几年,AI的发展几乎都集中在内容生成上,比如ChatGPT生成文字、图像模型生成图片或视频等,本质上都是在预测下一个词或下一个像素。但现在,有一群研究者正在做一件不太一样的事——让AI理解世界如何运行,而不是仅仅生成内容。

这项研究的核心技术是Yann LeCun近年来一直推崇的JEPA(联合嵌入预测架构)。它的运作方式更贴近人类的思维方式:比如看到一个画面,不是记住每个细节,而是抓住关键信息,然后预测接下来可能发生什么。

举个例子,当我们看到一个球正在向前滚动时,通常会本能地判断它会继续向前滚动,而不是突然消失或飞起来。JEPA的目标就是让AI也具备这种能力。

新方法大幅简化训练流程,解决模型难以训练的痛点

不过,这类模型长期以来一直面临一个大问题:难以成功训练。因为这类模型常常学不到有用的信息,研究人员必须添加大量“补丁”,比如额外的训练技巧或特殊设计,才能勉强让模型运行。这一缺陷也让JEPA长期停留在研究阶段,难以实际应用。

此次团队发布的LeWorldModel找到了解决方案,将原本复杂的训练流程简化为两个关键步骤:第一是让模型预测“下一步的状态”;第二是通过一种名为SIGReg的数学方法,确保模型学到的信息不会崩塌或失真。

这种设计使研究人员无需依赖各种复杂技巧,就能稳定地训练模型。

小模型也能做规划,1秒内完成决策

除了更容易训练,这个新模型还有一个亮点:速度快、资源消耗低。整个模型仅有约1500万个参数,单张GPU即可完成训练。更重要的是,它不到1秒就能完成一段规划(Planning),即模拟未来可能的情景并选择下一步行动。

在实际测试中,与经典的世界模型DINO-WM相比,LeWM的规划速度提升了48倍,因此更贴近实际应用场景,比如机器人实时决策。

这项研究也反映出,AI正从内容生成转向理解环境并采取行动。近年来,在机器人和智能体系统中,“世界模型”与“规划能力”正逐渐成为重要研究方向,也被视为AI落地应用的关键能力之一。

尽管LeWM让JEPA架构更接近实际应用,但距离真正落地仍有距离。例如,目前尚不清楚模型在更复杂的环境中是否仍能保持稳定表现,以及在更大规模的应用中是否仍能维持同等效率。但可以确定的是,这项研究让原本难以训练的JEPA变得更简单、更稳定,也让AI理解世界并做出决策,正从理论逐步走向可行。