Bendi新闻
>
数学界AlphaGo来了!攻破奥数难题登Nature,接近人类金牌水平

数学界AlphaGo来了!攻破奥数难题登Nature,接近人类金牌水平

谷歌连发两大AI数学模型,奥数金牌得主亲自点赞。
作者 |  李水青
编辑 |  心缘
智东西1月18日报道,1月17日,谷歌研发的AI数学模型AlphaGeometry登上国际顶刊Nature。AlphaGeometry能解决几何问题,解题水平接近人类奥林匹克金牌得主,有望成为AI迈向通用人工智能的一个重要里程碑。

在针对30道奥数几何题的基准测试中,AlphaGeometry在规定的奥数解题时间内成功解决了25道题。相比之下,此前最先进的机器系统仅解决了其中10道题,而人类金牌得主的平均解题数量为25.9道。

AlphaGeometry采用神经语言模型的预测能力规则约束推演引擎相结合的方法,就像人类的慢思考+慢思考,两者协同找到问题解法。
谷歌还合成了包含1亿个独特的几何问题示例的数据集,支持AlphaGeometry在没有任何人类演示的情况下自行训练,也就是自己“刷题提分”。
“对他们能够成功应用AI解决问题感到惊讶,这确实是一项令人印象深刻的成就。”数学领域的国际最高奖项之一菲尔兹奖金牌得主NGÔ BẢO CHÂU如此评价道。
他指出,研究人员往往首先尝试用AI解决IMO(国际数学奥林匹克竞赛)几何问题,这能理解。因为寻找解决方案的过程有点像下国际象棋,每一步中合理的走法数量都相当有限。
2023年12月15日,谷歌推出的的数学大模型FunSearch刚刚登上Nature,这一AI系统在“帽子集(Cap set)”等经典数学难题上超越了人类数学家。(《DeepMind大模型登Nature!AI首度攻破经典数学难题,赢过人类数学家》
仅仅一个月后,AlphaGeometry成果再次登上Nature,同时谷歌将AlphaGeometry的代码和模型,与合成数据生成和训练中的其他工具和方法一起在GitHub上开源。

论文地址:
https://www.nature.com/articles/s41586-023-06747-5
GitHub地址:
https://github.com/google-deepmind/alphageometry

01.
“快思考+慢思考”,AI解决25道奥数题,接近人类金牌得主


AlphaGeometry采用的是神经符号法,这种方法融合了神经语言模型符号推演引擎,两者相辅相成,共同寻找复杂几何定理的证明。
就像我们常说的“快思考与慢思考”一样,其中一个系统负责快速、直觉性的思考,而另一个系统则负责更为深入、理性的决策。
语言模型擅长从数据中捕捉一般规律和关系,因此能够快速预测出可能有用的结构。但它们的缺点在于,往往不能提供严谨的推理或解释其决策的依据。
相比之下,符号推演引擎则基于形式逻辑,使用明确的规则来得出结论。它们的推理过程既理性又可解释,但可能在处理大型、复杂问题时显得“慢”且不够灵活。
AlphaGeometry的语言模型能为符号推演引擎指明方向,引导它寻找几何问题的可能解决方案。
奥林匹克几何问题通常基于图形,需要通过添加新的几何构造(如点、线或圆)来解决。而AlphaGeometry的语言模型能够从众多可能性中预测出哪些新构造的添加最有可能带来帮助。
这些预测为符号推演引擎提供了有力的线索,使其能够对图形进行更深入地推理,并逐步接近解决方案。
在谷歌根据2000年至2022年奥林匹克竞赛题目编制的30道奥林匹克几何问题基准测试集(IMO-AG-30)中,AlphaGeometry在比赛时间限制下解决了25道问题,这一成绩已接近人类金牌得主在这些相同问题上的平均得分。而此前最先进的方法,即“吴氏方法”,仅解决了10道题。
来看一个具体的例子:2015年国际数学奥林匹克的一道题目(如图左侧所示)和AlphaGeometry的精简版解决方案(如图右侧所示)。在解决方案中,蓝色元素表示添加的构造。AlphaGeometry的解决方案共包含了109个逻辑步骤。

▲AlphaGeometry关于奥数例题的解决方案

简单来说,AlphaGeometry的解题过程是这样的:首先,给定一个问题图形及其定理前提(如图左侧所示),AlphaGeometry会使用其符号推演引擎推导出与图形相关的新陈述(如图中间所示),直到找到解决方案或无法再推导出新陈述为止。
如果在这个过程中没有找到解决方案,那么AlphaGeometry的语言模型就会发挥作用,添加一种可能有用的几何构造(如图中的蓝色部分所示),从而为符号推演引擎开辟新的推理路径。这个过程会一直重复进行,直到找到解决方案为止(如图右侧所示)。在这个例子中,只需要添加一种构造就找到了解决方案。

▲AlphaGeometry的解题过程示意


02.
合成1亿个综合数据示例
从零开始自己“刷题”


几何依赖于对空间、距离、形状和相对位置的理解,是艺术、建筑、工程和许多其他领域的基础。
人类通过笔和纸学习几何,检查图表,并运用现有知识发现更复杂的几何属性和关系。
谷歌开发了一种合成数据生成方法,能大规模模拟这种知识构建过程,让AlphaGeometry能够从零开始训练,完全不依赖人类演示。
借助高度并行计算能力,系统首先生成了数十亿个随机几何图形,并详细推导出了每个图形中点与线之间的所有关系。
AlphaGeometry能找到每个图形中所有的证明路径,然后回溯找出为了得出这些证明需要添加哪些额外的结构。谷歌称之为“符号推演与回溯”。

▲AlphaGeometry生成的合成数据的视觉展示

这个庞大的数据池经过筛选,排除了相似的例子,最终形成了包含1亿个不同难度独特示例的训练数据集,其中900万个包含了新增的构造。
有了这么多关于构造如何产生证明的实例,AlphaGeometry的语言模型在遇到奥林匹克几何问题时,能对需要添加的新构造提出有见地的建议。

03.
谷歌连发两大AI数学模型
奥数金牌得主亲自点赞


AlphaGeometry为每一道奥数题提供的解法都经过了计算机的严格检查和验证。
谷歌还拿它的表现与之前的AI方法以及人类在奥林匹克竞赛中的成绩做了对比。此外,谷歌也请来了数学教练、前奥林匹克金牌得主Evan Chen,为其评估AlphaGeometry的一系列解题方案。
Chen谈道:“AlphaGeometry的表现让人眼前一亮,它的答案既准确又清晰。”
“过去,一些基于证明的竞争性问题的AI解决方案往往是碰运气(有时候答案正确,但需要人工复查)。但AlphaGeometry没有这个问题:它的解决方案都是结构化的,可以被机器自动验证。同时,它的答案也很人性化,易于理解。你可以想象一个计算机程序通过复杂的坐标系来解决几何问题:一页又一页全是繁琐的代数计算。但AlphaGeometry不是这样的。它就像学生一样,运用角度和相似三角形等经典几何规则来解题。”
虽然每个奥林匹克竞赛都包含六个问题,其中只有两个通常涉及几何,这意味着AlphaGeometry只能应用到给定奥林匹克竞赛中三分之一的问题。
但即便如此,仅凭其在几何方面的能力,AlphaGeometry就成为了世界上第一个能够在2000年和2015年跨越IMO铜牌门槛的AI模型。
在几何领域,谷歌的系统已经达到了IMO金牌得主的水平。但谷歌并不满足于此,谷歌的目标是推动下一代AI系统的推理能力。
考虑到利用大规模合成数据从头开始训练AI系统的巨大潜力,这种方法可能会对未来AI系统在数学及其他领域的新知识发现产生深远影响。
AlphaGeometry是在Google DeepMind和Google Research的工作基础上开发的,它开创了AI数学推理的先河——从探索纯数学之美到使用语言模型解决数学和科学问题。
最近,谷歌还推出了FunSearch,这是首个使用大型语言模型在数学科学的开放问题中取得发现的项目。

04.
结语:AI破解几何难题
通用人工智能的新里程碑


谷歌研发的AI数学模型再登国际顶刊Nature,展示了AI在几何问题解决上的强大能力。图形是非常抽象且考验逻辑的,谷歌开创性地通过将神经语言模型和符号推演引擎结合,使得AI实现了远高于此前系统和匹敌人类奥数金牌得主的水平。
这一突破可能意味着AI迈向通用人工智能的重要里程碑,不仅为AI领域带来了新的突破,更可能成为数学和工程、艺术等领域常用的工作方法。谷歌DeepMind的研究只是一个开始,未来以AlphaGeometry为代表的AI方法将继续迭代,在更多领域释放自己的潜力。
来源:谷歌、Nature

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)



微信扫码关注该文公众号作者

来源:智东西

相关新闻

打破奥数天花板!DeepMind最新AI数学大模型,能以人类金牌水平解决几何题奥数逼近金牌水平!谷歌最新AlphaGeometry模型登上Nature!菲尔兹奖得主点赞AI抢攻人类奥赛金牌!DeepMind数学模型做对25道IMO几何题,GPT-4惨败得0分谷歌数学版Gemini破解奥赛难题,堪比人类数学家!数学为王的时代来了?卷竞赛、学奥数、搞校内,不同孩子怎么选路线?AI的几何学能力接近奥赛金牌选手;奥特曼:人类水平的AI即将出现,但影响会远比想象中小 | 环球科学要闻数学界迎来AlphaGo时刻:谷歌AI用19秒答完一道IMO几何题,差1分即可摘金AI又进化了,现在能拿数学奥赛金牌了?想冲机考SAT数学满分的同学有福了!《SAT数学难题合集》速领!谷歌数学AI登Nature:IMO金牌几何水平,定理证明超越1978年吴文俊法只差一分!DeepMind最新数学AI在奥数竞赛中勇夺银牌;SpaceX公布猎鹰9号事故的原因 | 环球科学要闻奥数比赛都成黑竞赛了,海外数学竞赛靠谱吗?适合什么样的孩子?中国数学水平不及美国!80年的差距,打了谁的脸?大模型玩《宝可梦》达人类水平!网友喊话世界冠军:是时候一较高下了撑不住了!多伦多公寓房源达到十多年来最高水平!价格将大跌10%!MLLM真能看懂数学吗?MathVerse来了次摸底测评,放出当天登热榜重磅活动!数学满分状元、AMC金牌教练齐聚上海!连线牛津妈妈、英国哈罗家长,顶尖美本顾问都来啦~仅6%的金牌率,英国九大公学竞相参加!英国JMC数学挑战赛是什么来头?数学领域的“AlphaGo”:DeepMind最新AI模型,打破奥数天花板大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4陶哲轩最新采访:AI将颠覆数学界!用Lean规模化,成百上千条定理一次秒杀克雷研究所100万美元奖金要归AI了数学界规则大改,未来数学家如何应对「海量猜想」家长怒了!数学“5+0=5”被打叉…哪里有错?真相揭晓(图)终于涨了!悉尼空置率上涨至1.37,达到一年来最高水平!网友感叹就算这样租房还是难啊……
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。