Google公布3D场景生成模型Genie 2

图片来源:

Google

Google上周公布可生成3D影像的大规模基础世界模型Genie 2，让用户仅需上传一张图片，就能在3D场景中训练AI代理人。

今年3月Google公布的Genie模型让游戏设计人员上传图片后，生成可互动操作的2D虚拟世界。最新的Genie 2模型则更进一步，可让游戏开发人员创造出可控制动作可玩的全3D场景。开发人员只要上传一张图片，即能产生电玩或电影般的3D场景，用以训练或评估具像化代理人。之后人类用户或AI代理人以键盘或滑鼠输入，就能控制3D世界的事物。

图片来源／Google

OpenAI 2月公布Sora时称之为世界模拟器（World simulator），Google则将Genie 2称为世界模型（world model），意谓着它能模拟虚拟世界，包括任何动作（如跳跃、游泳）的后果。它是以大量影片资料集训练而成的「自我迴归（autoregressive）潜在扩散模型（latent diffusion model）」，具备多种新式功能，像是物件互动、複杂人物动画、物理，以及预测其他代理人的行为等。

Google今年稍早和游戏开发商合作开发的SIMA代理人。输入以DeepMind的图片生成模型Imagen 3所生成的一张图片，Genie 2即能生成3D场景后和游戏开发人员互动。

例如，这模型支援不同视角，如第一、第三人视角或等角视角（isometric view），也能灵敏回应以键盘下达的动作，像是左转、右转、前进、退后或是以空白键跳跃。它也能模拟角色动作（如爬楼梯、跳跃）、不同物件可供性（Object affordances）和物理运动，例如爆破的气球、开门、射击炸药桶、烟尘飘动、水花溅射，以及光线明暗变化等。

Google说，利用Genie 2，任何人都可以以文字描述想要的世界、选择喜好的渲染成形风格，再与之互动。使用者或代理人以键盘、滑鼠输入行为，Genie 2就能模拟下一观察，它能生成稳定的3D世界，大部份为10到20秒，最长可到1分钟。

CB科技站

Google公布3D场景生成模型Genie 2

与本文相关的文章