OpenAI 推出 GeneBench-Pro,评估 AI 在混乱生物数据中的分析能力
OpenAI 近日发布了全新的 GeneBench-Pro 基准测试,专门用于评估 AI 模型在基因组学、蛋白质组学等生物学任务中的实际研究能力。测试尤其关注模型在面对混乱和不完整数据时的判断与决策。
GeneBench-Pro 与传统基准测试的侧重点不同。传统测试往往看重模型的记忆能力和固定流程,而 GeneBench-Pro 把任务放在了“模糊、不完整和带有干扰”的数据环境中,要求模型在这样的条件下进行数据探索和分析,更真实地反映其判断力。
这次基准测试覆盖了基因组学、定量生物学和转化医学,共包含129道题目,横跨统计遗传学、群体遗传学、功能基因组学和蛋白质组学等多个子领域。每道题都会为模型提供一个接近真实科研环境的数据集,模型需要根据简短的实验背景和相关问题,自主选择分析方法、修正策略,并最终得出结论。
为了避免传统长流程测试中常见的评分偏差,OpenAI 在设计 GeneBench-Pro 时采用了合成数据。这种方式能更好地控制数据生成过程,确保模型的表现反映其真实的理解能力,而不是靠猜测或走捷径拿到正确答案。
目前,OpenAI 已在 Hugging Face 平台上开源了10道代表性的 GeneBench-Pro 示例题,外部研究人员可以通过可交互界面进行体验。后续,OpenAI 计划将其中50道题目交给 Artificial Analysis 进行独立评测,以验证不同模型在这一基准测试中的实际表现。