DeepMind发表可以生成数分钟3D虚拟世界的Genie 3

图片来源:

Google

Google DeepMind于周二（8/5）发表全新AI世界模型Genie 3，可根据文字提示即时生成互动式3D世界。相较于去年11月释出、仅能维持10~20秒互动的Genie 2，Genie 3支援长达数分钟的连续互动，还能记住场景以维持画面及环境的连贯性。

Genie 3是DeepMind自2023年以来持续开发的世界模型系列第三代，可以每秒24帧与720p的解析度执行。它能够模拟火山地形、水流或光影等真实世界的物理现象，亦可再现冰川或热带雨林等自然生态，还能以幻想及动画风格创作，或是重建地理及历史场景。

此外，Genie 3还支援「可提示的世界事件」（promptable world events），让使用者得以即时透过文字变更世界条件，例如改变天气、增加角色或新场景，让生成世界不仅可互动，还能持续演变。

Genie系列与传统的影片生成不同，它让使用者进入一个由AI生成的世界，还能与场景互动，这种动态操控的能力，使其特别适合用于代理人训练、自主系统模拟、教育模拟，以及创意应用。

世界模型被视为迈向通用人工智慧（AGI）的一个关键技术，允许AI不必依靠真实世界资料，便能于虚拟世界中进行各种练习与学习。DeepMind表示，他们已经利用Genie 3所创造的虚拟世界来测试自家的SIMA代理人，看看它在不同任务下能否学会解决问题。

SIMA（Scalable, Instructable, Multiworld Agent）是Google DeepMind所开发的一款通用型AI代理人，目标是让它能在各种3D虚拟环境中完成多样化任务。

目前Genie 3尚未开放一般大众使用，而是以「限量研究预览」方式提供少数学术研究人员与创作者试用，并蒐集回馈以评估潜在风险与负责任的使用方式。Google也坦承，该模型仍存在如互动範围受限、无法完美模拟真实地点，以及文字生成效果不稳定等限制。

CB科技站