Google DeepMind发布新一代游戏人工智能代理SIMA 2
Google DeepMind发布了新一代游戏人工智能代理SIMA 2,延续了此前SIMA计划通过观察屏幕、操作虚拟键盘与鼠标来学习游戏的方式。此次,Google将Gemini模型嵌入代理核心,使人工智能不仅能听从指令,还能在3D游戏世界中推理目标、解释自身行为,并通过自我练习持续提升能力。
SIMA项目最初的目标是打造能够通用多种3D虚拟世界的智能代理。第一代SIMA已能在多款商业游戏中学会超过600种语言操作技能,例如转向、爬梯子、打开地图等,完全不依赖游戏内部API,仅通过画面和虚拟键盘鼠标输入执行动作。
SIMA 2在此基础上换用Gemini作为推理引擎,代理不仅能接收“前往指定位置”这类指令,还能先解析用户的高级目标,再自行拆解为子任务,边行动边用自然语言向玩家说明下一步行动及其原因。研究团队结合带有语言标注的人类示范视频和Gemini生成的标注数据进行训练,使代理能够从人类和模型两种来源学习游戏中的行为与解释。
Gemini的引入显著提升了SIMA 2在陌生游戏中的泛化能力。DeepMind表示,新版代理更能理解长而复杂、语气模糊的指令。同时,代理能将在一款游戏中学到的概念迁移到另一款游戏中,例如将“挖矿”概念对应到另一款游戏中的“采集”行为,在广泛任务中的表现更接近人类玩家。
研究团队将SIMA 2与自家世界模型Genie 3结合。Genie 3能够根据一张图片或一段文字即时生成全新的3D互动世界,其场景、物体与规则与现有游戏完全不同。在这些从未出现过的环境中,SIMA 2仍能快速识别自身位置与可交互物体,理解用户给出的目标,并采取合理行动向目标推进。研究团队认为,这表明代理不再只是在固定关卡中机械记忆,而是开始具备在全新环境中适应与规划的能力。
SIMA 2的一大亮点是自我优化能力。DeepMind介绍,在初始阶段,代理仍依赖人类示范学习,但随后可切换为完全由自身玩游戏的模式,通过试错积累经验。Gemini在此扮演教练角色,负责提出任务、为代理的行为评估奖励分数,这些任务与反馈会被存入经验数据库,作为训练下一代更强代理的素材。实验显示,在ASKA和Genie 3生成的世界中,初版SIMA 2原本无法完成的任务,经过数轮自我练习后,代理无需新增人类游戏数据,即可成功完成此前失败的挑战。
官方将此项研究视为迈向通用人工智能和未来具身人工智能机器人的重要一步。SIMA 2目前以限量研究预览形式,优先开放给少数学术界与游戏开发者试用,旨在积累更多反馈与风险评估,再决定后续大规模应用的方向。