IMO数学竞赛第5题是何方神圣？大模型全军覆没了…

国际科技财经移民娱乐民生时事体育

Bendi新闻

6月前

夕小瑶科技说原创
作者 | 海野
昨天，第65届IMO（国际数学奥林匹克竞赛）决赛成绩公布，中国队因2分之差憾失冠军。

从中国队的得分情况来看，其中第5题是中国队失分最严重的一题，该题也在网络上引发了激烈讨论。

据说这道题目遇强则强，在数学方面很有造诣的人也可能掉进它的陷阱，但答案其实非常简单。

于是，我拿着这道题去问国内外主流AI大模型，结果全员翻车？

这第5题究竟是何许题也？请看大屏幕：

好了，看到这道题，大家是不是都跟我一个想法：啊，脑子好疼，这是什么，我怎么看不懂？

别急，我这就把答案贴出来：

n＝3。

着急的小伙伴可以跳到到文章结尾去看解析～

让我们先看看，这些AI模型们的佼佼者是怎么解题的。

AI集体脑子秀逗，思路与答案割裂

首先让我们欢迎本次接受试炼的大模型选手们，它们是来自国内外的高知名度的，非常有代表性的选手。它们分别是：

Claude3.5、GPT-4o、Gemini Pro、文心一言4.0、通义千问qwen-Max、豆包、Kimi、智谱GLM-4-0520。

此外，我还选择了一部分专攻数学的改进过的模型。包括：

国内首个数学大模型九章大模型MathGPT ，以及上次AI数学奥数竞赛冠军，基于Deepseek数学模型改良的Numina-Math-7B 。

而我使用的Prompt与原题完全一致：

憨豆特工在一个2024行2023列的方格表上做游戏. 方格表中恰有2022个方格各藏有一个坏人. 初始时,憨豆不知道坏人的位置,但是他知道除了第一行和最后一行之外,每行恰有一个坏人, 且每列至多有一个坏人. 憨豆想从第一行移动到最后一行,并进行若干轮尝试. 在每一轮尝试中,憨豆可以在第一行中任意选取一个方格出发并不断移动,他每次可以移动到与当前所在方格有公共边的方格内. (他允许移动到之前已经到达过的方格.) 若憨豆移动到一个有坏人的方格,则此轮尝试结束,并且他被传送回第一行开始新的一轮尝试. 坏人在整个游戏过程中不移动,并且憨豆可以记住每个他经过的方格内是否有坏人. 若憨豆到达最后一行的任意一个方格,则游戏结束. 求最小的正整数n,使得不论坏人的位置如何分布,憨豆总有策略可以确保他能够经过不超过n轮，尝试到达最后一行。

先贴结果(做个心理建设)，模型们全军覆没，甚至一度让我以为是答案出问题了！

接下来让我们看看这些AI模型的解题思路。根据IMO竞赛的规则，一道题目7分，你们会给这些AI打几分？

GPT-4o率先送出了一血，思维不够活跃，驴唇不对马嘴。

被寄予厚望的Claude也倒了，感觉没读懂题啊，一边说最多2023次，一边说最少2023次。

Gemini Pro：

这貌似出现了跟GPT-4o相同的毛病啊。

就连文心也这样，对这个问题的见解不够深啊。

通义千问MAX：

虽然通义的答案与上面的模型不一样，但是思路还是不太对啊。

豆包：

豆包你……也是给出了意想不到的答案啊。

Kimi：

Kimi的错误跟Claude一样，明明需要的是计算最少，偏偏选了最多的回答。

智谱GLM-4-0520：

看起来很长一段推理，就要得出结果了，但是然并卵……

不仅是这些大模型翻车，就连这些数学专攻模型也各执一词……

九章大模型MathGPT：

Numina-Math-7B：

这些AI的答案五花八门，就是跟正确答案沾不上边。我在提问完后，我都忍不住怀疑是不是答案出问题了！怎么这么多大模型都是给的2023的答案啊！貌似这些AI都犯了一个错误：忽略了走过的格子也是可以再走的。 大模型们的翻车率，真是有点感人啊！

在看完大模型们的正确率后，我突然觉得AI的智慧在短时间内是赶不上人脑的。以上大模型可以很好的作为当今“最全能”的AI代表。在上个月的“AI参加高考”的结果中，各模型的得分基本在本科线左右浮动。但我们拿出这类需要善用数学思维的富有创造力的题目时，模型们就开始胡言乱语了。

大模型们的发展之路，还是任重而道远啊！

最后附上答案解析：

首先我们可以证明，憨豆没有两次尝试后一定成功到达最后一行的策略。在第一次尝试中，假设他首次到达第二行的某个单元格，可能该单元格有坏人，他必须立即返回第一行，他无法到达更远的单元格。在第二次尝试中，假设他首次到达第三行的另一个单元格，由于他必须从第二行的不同单元格移动过来，可能存在坏人，因此他也可能在第二次尝试中失败。因此，无法保证在两次尝试中到达最后一行。然而，当尝试次数为3时，可以采用一种策略确保到达最后一行。在第一次尝试中，憨豆沿着从第二行开始的路径移动，探索每一个单元格，找到第二行的坏人，尝试结束。如果第二行的坏人不在边缘（即它位于第二行的中间某个单元格），憨豆在第二次和第三次尝试中将采用两条路径，这两条路径将覆盖除了两个可能有坏人的单元格外的所有单元格，因此至少有一条路径能够成功。如果坏人在边缘（假设在第二行的第一个单元格），则憨豆在第二次尝试中将采取另一条路径，从第二个单元格开始，避开已知的坏人单元格。如果这条路径没有遇到坏人，憨豆将赢得游戏。如果遇到坏人，他将在第三次尝试中采取一条策略，确保绕过该坏人单元格，并最终到达最后一行。总结来说，尽管存在许多不确定性，但通过策略性地探索和记忆坏人的位置，憨豆可以确保在第三次尝试或更早的尝试中到达最后一行。

在YouTube上也有比较详细的题目讲解，大家也可以去看一下。

题目讲解：
https://www.youtube.com/watch?v=wfQkk9WktGE

参考资料

[1]https://www.imo-official.org/

微信扫码关注该文公众号作者

来源：夕小瑶科技说

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…

AI集体脑子秀逗，思路与答案割裂

参考资料

相关新闻