从理解到规划决策只需1秒，LeWM加速世界模型落地

与目前主流的生成式AI不同，前Meta首席AI科学家Yann LeCun最近带领研究团队发布了一款新模型LeWorldModel（LeWM），不仅能从图像直接学习环境变化，还能在1秒内完成行动规划。重点是，该模型的训练方式大幅简化，使原本难以落地的JEPA技术开始变得更加实用。

过去几年，AI的发展几乎都集中在内容生成上，比如ChatGPT生成文字、图像模型生成图片或视频等，本质上都是在预测下一个词或下一个像素。但现在，有一群研究者正在做一件不太一样的事——让AI理解世界如何运行，而不是仅仅生成内容。

这项研究的核心技术是Yann LeCun近年来一直推崇的JEPA（联合嵌入预测架构）。它的运作方式更贴近人类的思维方式：比如看到一个画面，不是记住每个细节，而是抓住关键信息，然后预测接下来可能发生什么。

举个例子，当我们看到一个球正在向前滚动时，通常会本能地判断它会继续向前滚动，而不是突然消失或飞起来。JEPA的目标就是让AI也具备这种能力。

不过，这类模型长期以来一直面临一个大问题：难以成功训练。因为这类模型常常学不到有用的信息，研究人员必须添加大量“补丁”，比如额外的训练技巧或特殊设计，才能勉强让模型运行。这一缺陷也让JEPA长期停留在研究阶段，难以实际应用。

此次团队发布的LeWorldModel找到了解决方案，将原本复杂的训练流程简化为两个关键步骤：第一是让模型预测“下一步的状态”；第二是通过一种名为SIGReg的数学方法，确保模型学到的信息不会崩塌或失真。

这种设计使研究人员无需依赖各种复杂技巧，就能稳定地训练模型。

除了更容易训练，这个新模型还有一个亮点：速度快、资源消耗低。整个模型仅有约1500万个参数，单张GPU即可完成训练。更重要的是，它不到1秒就能完成一段规划（Planning），即模拟未来可能的情景并选择下一步行动。

在实际测试中，与经典的世界模型DINO-WM相比，LeWM的规划速度提升了48倍，因此更贴近实际应用场景，比如机器人实时决策。

这项研究也反映出，AI正从内容生成转向理解环境并采取行动。近年来，在机器人和智能体系统中，“世界模型”与“规划能力”正逐渐成为重要研究方向，也被视为AI落地应用的关键能力之一。

尽管LeWM让JEPA架构更接近实际应用，但距离真正落地仍有距离。例如，目前尚不清楚模型在更复杂的环境中是否仍能保持稳定表现，以及在更大规模的应用中是否仍能维持同等效率。但可以确定的是，这项研究让原本难以训练的JEPA变得更简单、更稳定，也让AI理解世界并做出决策，正从理论逐步走向可行。

CB科技站