OpenAI发布GeneBench-Pro基准测试，提升AI生物学分析能力

OpenAI 推出 GeneBench-Pro，评估 AI 在混乱生物数据中的分析能力

OpenAI 近日发布了全新的 GeneBench-Pro 基准测试，专门用于评估 AI 模型在基因组学、蛋白质组学等生物学任务中的实际研究能力。测试尤其关注模型在面对混乱和不完整数据时的判断与决策。

GeneBench-Pro 与传统基准测试的侧重点不同。传统测试往往看重模型的记忆能力和固定流程，而 GeneBench-Pro 把任务放在了“模糊、不完整和带有干扰”的数据环境中，要求模型在这样的条件下进行数据探索和分析，更真实地反映其判断力。

这次基准测试覆盖了基因组学、定量生物学和转化医学，共包含129道题目，横跨统计遗传学、群体遗传学、功能基因组学和蛋白质组学等多个子领域。每道题都会为模型提供一个接近真实科研环境的数据集，模型需要根据简短的实验背景和相关问题，自主选择分析方法、修正策略，并最终得出结论。

为了避免传统长流程测试中常见的评分偏差，OpenAI 在设计 GeneBench-Pro 时采用了合成数据。这种方式能更好地控制数据生成过程，确保模型的表现反映其真实的理解能力，而不是靠猜测或走捷径拿到正确答案。

目前，OpenAI 已在 Hugging Face 平台上开源了10道代表性的 GeneBench-Pro 示例题，外部研究人员可以通过可交互界面进行体验。后续，OpenAI 计划将其中50道题目交给 Artificial Analysis 进行独立评测，以验证不同模型在这一基准测试中的实际表现。