最新消息:关注人工智能 AI赋能新媒体运营

DeepMind扩展Game Arena,新增狼人杀与德州扑克,用于评估模型在不完全信息下的决策能力

科技资讯 admin 浏览

Google DeepMind 更新了 AI 公开评测平台 Kaggle Game Arena,除了继续评估国际象棋模型的推理与长期规划能力外,此次新增了狼人杀与德州扑克两款不完全信息游戏,将模型置于更贴近现实决策的不确定性情境中,观察其社交互动与风险权衡表现。

Game Arena 是 DeepMind 与 Kaggle 于 2025 年推出的公开基准测试平台,让不同 AI 模型在规则明确的策略游戏中对战,并通过排行榜呈现相对强弱。官方此前介绍指出,Game Arena 基于开源的游戏 Harness 接口层与游戏环境构建,强调可验证、可复现的对战评估,并通过动态对战方式弥补传统数据集测试容易饱和的局限。

在国际象棋项目上,DeepMind 已更新排行榜,纳入新一代模型以追踪能力变化。大型语言模型与 Stockfish 等棋力引擎不同,更依赖模式识别与直觉来缩小搜索空间。目前排名中,Gemini 3 Pro 与 Gemini 3 Flash 的 Elo 分数位居前列。

新增的狼人杀以自然语言对话为主要互动方式,让模型在多轮发言与投票中辨别真伪与动机。DeepMind 将其视为团队型社交推理测试,衡量沟通、协商以及在模糊信号下达成共识的能力。官方也提到,此类受控游戏环境可用于代理安全研究,因为模型需同时应对识别欺骗与实施欺骗两种角色。

德州扑克对战的重点在于风险管理。DeepMind 表示,模型必须在随机因素影响下推测对手手牌与风格,并根据局势动态调整策略。本次测试采用单挑无上限德州扑克,并同步举办 AI 扑克锦标赛,完整德州扑克排行榜预计于 2 月 4 日决赛后公布。

DeepMind 强调,现实世界的决策往往缺乏完整信息,因此需要能够衡量模型在不确定性环境下推理能力的基准测试。随着 Game Arena 从国际象棋扩展至社交推理与风险量化,外界也获得了更多材料,用于比较模型在不同认知任务中的表现差异与一致性。