谷歌DeepMind发布论文《Measuring Progress Toward AGI: A Cognitive Taxonomy》,并与Kaggle合作举办线上编程竞赛,旨在为通用人工智能(AGI)建立一套系统化的评估框架,将AI向通用智能迈进的距离转化为可比较的测评问题。
谷歌DeepMind表示,提出这套评估框架的原因在于,当前业界仍缺乏对系统通用智能进行实证评估的工具。现有的测评方法多集中于单一任务、单一测试或特定能力表现,难以判断系统是否真正朝着通用智能方向发展,也不便于比较不同系统在整体能力上的差异。
研究团队参考心理学、神经科学与认知科学领域的研究成果,提出一套认知分类体系,涵盖十项关键认知能力:感知、生成、注意、学习、记忆、推理、元认知、执行功能、问题解决与社会认知。谷歌DeepMind认为,要追踪AI能力的发展,不能仅依赖单一任务的表现或个别测试的得分,而应通过完整的认知分类描绘系统的综合能力图谱。
谷歌DeepMind提出三阶段评估方法:第一阶段,使用涵盖各项认知能力的任务组合评估AI系统,并采用保留测试集以避免数据污染;第二阶段,针对相同任务,从具有人口统计代表性的成人群体中收集人类基准数据;第三阶段,将AI在各项能力上的表现映射到人类表现分布中的相应位置。研究团队表示,这种设计旨在将模型成绩置于与人类能力相对照的语境中,而非仅关注绝对分数。
谷歌DeepMind还与Kaggle合作推出线上编程竞赛,推动该分类体系从理论走向实践。本次竞赛聚焦当前评估方法较为匮乏的五类能力:学习、元认知、注意、执行功能与社会认知。参赛者可利用Kaggle新推出的Community Benchmarks平台设计并测试评估方法。