
谷歌公开其将人工智能用于科学研究的最新进展,研究人员开发出一套以Gemini为核心的人工智能科研系统,能够将研究问题转化为可评分任务,自动生成并迭代实证软件(Empirical Software)。该系统不仅能提出新方法,还能通过树状搜索快速筛选最有潜力的解决方案,使科学家验证假设所需的时间从过去的数月大幅缩短至数天甚至数小时。
谷歌表示,该系统在基因组学、公共卫生、遥感影像、神经科学、数学积分以及时间序列预测等6项基准测试中,均展现出专家级的水平。
与传统仅以功能正确为标准的软件不同,实证软件的设计目标是最大化特定的品质分数。研究人员需提供问题描述、评分指标,以及用于训练、验证和评估的数据,系统则会在此基础上生成研究构想,并尝试不同的方法组合并以代码重现。整个过程由类似AlphaZero的树状搜索机制引导,决定哪些候选方案值得进一步探索。代码执行与评分在沙箱中进行,确保结果能够被验证与重现。
在基因组学领域,系统参与了OpenProblems v2.0.0的单细胞RNA测序跨批次整合任务,成功生成40种新方法,最佳方案将ComBat与BBKNN结合,综合指标较现有最佳方法提升14%。在公共卫生领域,系统针对美国疾控中心(CDC)的新冠住院人数预测任务,生成14个模型,回溯测试结果优于官方集成模型Ensemble。
神经科学方面,团队在ZAPBench基准上设计出新型时间序列模型,其表现超越现有3D影像推估方法,并通过概念验证演示可与生理神经元模拟器Jaxley结合的混合模型。数学领域的测试则聚焦于复杂积分的数值计算,系统在19个题目中正确解出17题,其中包括传统方法失败的案例。
谷歌已公开论文与互动式网站,供研究人员重现结果或查看候选方案。对科研人员而言,该系统能将繁琐的代码编写与验证工作交由人工智能自动化处理,自身则可专注于假设设计与研究方向。对于熟悉Python与常见深度学习库的开发者来说,这种工具相当于一个程序级别的研究引擎,可在短时间内探索大范围的可能解法,并快速找到具体且可量化的成果。