最新消息:关注人工智能 AI赋能新媒体运营

Google公布3D场景生成模型Genie 2

科技智能 admin 浏览 评论
图片来源:

Google

Google上周公布可生成3D影像的大规模基础世界模型Genie 2,让用户仅需上传一张图片,就能在3D场景中训练AI代理人。

今年3月Google公布的Genie模型让游戏设计人员上传图片后,生成可互动操作的2D虚拟世界。最新的Genie 2模型则更进一步,可让游戏开发人员创造出可控制动作可玩的全3D场景。开发人员只要上传一张图片,即能产生电玩或电影般的3D场景,用以训练或评估具像化代理人。之后人类用户或AI代理人以键盘或滑鼠输入,就能控制3D世界的事物。

图片来源/Google

OpenAI 2月公布Sora时称之为世界模拟器(World simulator),Google则将Genie 2称为世界模型(world model),意谓着它能模拟虚拟世界,包括任何动作(如跳跃、游泳)的后果。它是以大量影片资料集训练而成的「自我迴归(autoregressive)潜在扩散模型(latent diffusion model)」,具备多种新式功能,像是物件互动、複杂人物动画、物理,以及预测其他代理人的行为等。

Google今年稍早和游戏开发商合作开发的SIMA代理人。输入以DeepMind的图片生成模型Imagen 3所生成的一张图片,Genie 2即能生成3D场景后和游戏开发人员互动。

例如,这模型支援不同视角,如第一、第三人视角或等角视角(isometric view),也能灵敏回应以键盘下达的动作,像是左转、右转、前进、退后或是以空白键跳跃。它也能模拟角色动作(如爬楼梯、跳跃)、不同物件可供性(Object affordances)和物理运动,例如爆破的气球、开门、射击炸药桶、烟尘飘动、水花溅射,以及光线明暗变化等。

Google说,利用Genie 2,任何人都可以以文字描述想要的世界、选择喜好的渲染成形风格,再与之互动。使用者或代理人以键盘、滑鼠输入行为,Genie 2就能模拟下一观察,它能生成稳定的3D世界,大部份为10到20秒,最长可到1分钟。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论