
DeepMind持续改进人工智慧的数学能力,数学推理模型AlphaGeometry2在解决国际数学奥林匹亚(IMO)几何题目上的表现,已正式超越金牌选手的平均水準。研究团队测试了2000至2024年间所有IMO几何题,AlphaGeometry2以84%的解题成功率大幅超越前代系统AlphaGeometry1的54%,并且研究团队挑出难度更高的IMO Shortlist几何题子集IMO-AG-30,AlphaGeometry2成功解出全部题目,展现人工智慧在数学推理领域的突破性能力。
这项研究来自DeepMind的数学与人工智慧团队,核心技术结合了语言模型与符号推理系统,透过强化学习与增强搜寻演算法,让人工智慧能够更有效率地善用辅助线、拆解问题并建立完整的几何证明。
新版本扩展了AlphaGeometry的几何领域语言,使其更能够处理複杂的几何问题,包括轨迹定理(Locus Theorem)、线性方程序与非建构性命题(Non-Constructive Problem Statement),能够形式化处理,也就是可以读懂IMO几何题的比例从66%提升至88%。同时,运算引擎的效能也大幅提升,透过C++重新实作符号处理机制,并最佳化规则集,使推理过程更为精确与高效。
在测试结果中,AlphaGeometry2对IMO几何题的解题能力,已达专业数学竞赛选手的水準,甚至在部分问题的解法上展现超越人类的创造力。DeepMind研究团队表示,这项技术突破不仅是数学解题系统的进展,也使人工智慧在形式化推理、自动证明与教育应用开启新的可能性。
传统的数学自动推理技术主要仰赖代数运算与计算机代数系统(CAS),例如Wu"s Method或Gr?bner Bases,透过将几何问题转换为代数联立方程序来求解,而AlphaGeometry2採用了更贴近人类解题方式的合成几何推理方法,并透过语言模型驱动推导过程,使其能够从自然语言描述的题目中建构完整的证明。
目前的研究仍有部分限制,AlphaGeometry2无法处理变数点数(Variable Number of Points)、不等式与非线性方程序的几何问题,这些类型的题目在IMO中虽然不常见,但仍然是自动几何推理领域尚未解决的挑战。此外,部分涉及投影几何(Projective Geometry)与几何反转(Inversion)的问题,仍然超出系统现有能力範围,研究团队认为,未来透过更高效的问题拆解策略与强化学习机制,能够进一步缩小这些差距。