研究人员将两个新系统 AlphaProof 和 AlphaGeometry 2 配对,让它们解答国际数学奥林匹克竞赛的问题。这项针对优秀高中生的全球数学竞赛自 1959 年起开始举办,每年包含六道极难的问题。问题涉及代数和几何,金牌得主将与世界最优秀、最聪明的年轻数学家并驾齐驱。
尽管 AI 系统的成绩令人印象深刻,但它们尚未达到这个级别最聪明的人类的标准。谷歌 DeepMind“团队”在 42 分中获得了 28 分,仅差一分即可获得金牌,只能屈居银牌。
可以理解的是,与人类的表现不同,DeepMind 的 AlphaProof 和 AlphaGeometry 2 提交的答案要么完美无缺,要么一无是处。AI 精确地解答了四道问题,获得最高分,但在其他两个问题中却毫无头绪,该技术甚至无法开始计算答案。
构建两个领域之间的桥梁
另一个值得注意的关键点是,DeepMind 实验实际上没有时间限制。有些问题在几秒钟内就得到了解答,而有些问题则昼夜不停地持续了三天。相反,奥林匹克竞赛中的人类参赛者最多只有九个小时的时间来完成测试。
研究人员配对的这两个 AI 系统据说非常不同。AlphaProof 回答了三个问题,它的工作原理是将大型语言模型(如聊天机器人中使用的模型)与专门的“强化学习”技术相结合。AlphaGeometry 则将大型语言模型与专注且数学化的方法相结合。
AlphaProof 的首席研究员托马斯·休伯特表示:“我们试图在这两个领域之间架起一座桥梁,以便我们能够利用形式数学所提供的保证和非形式数学中可用的数据。”