绕晕了！9.11 大还是 9.9 大，难倒一批 AI 大模型？

国际科技财经移民娱乐民生时事体育

Bendi新闻

6月前

「9.11 和 9.9，哪个大？」

对于不少习惯了更新软件版本号的程序员而言，不少人的第一反应就是：当然是 9.11 大。但是如果没有限定场景，只是单纯地提出上面这个问题时，结果必然是相反的。

没想到，将这个问题抛给前能答疑解惑、后能挑战各种高数难题的 AI 大模型时，各种“翻车”情况也随之出现了。

01 国外大模型：9.11 vs 9.9，哪个大？

具体的事情要从一位名为 Riley Goodside 工程师的推文谈起。

值得一提的是，Riley Goodside 是 AI 数据标注赛道“独角兽”Scale AI 公司的一名 staff prompt engineer，这个岗位的职责具体是指在生成式 AI 和自然语言处理领域内，专门设计和优化提示（prompt）的人。这个角色要求深入理解如何构建有效的 Prompt，以引导 AI 模型生成所需的输出。

几个小时前，Riley Goodside 连发几条推文分享了自己的一些发现，即用「9.11 and 9.9 - which is bigger？」为 Prompt 输入给各家大模型时，如当前业界公认最先进模型之一的 ChatGPT 4o 的输出是：

9.11 比 9.9 大。

再来看看 Gemini Advanced 的表现，同样“翻车”：

9.11>9.9

虽然 Claude 3.5 Sonnet 最终也未能逃过这个模糊问题带来的“坑”，但是其给出的解释中，一度就要回答正确了，其写道：

“两个数字中的整数部分（9）都是相同的，所以我们需要比较小数部分。

在 9.11 中，十分位是 1/10（或 0.1）。在 9.9 中，十分位是 9/10（或 0.9）。

由于 9/10 大于 1/10，乍看之下可能觉得 9.9 更大。”

没想到接下来画风急转，Claude 3.5 Sonnet 有似是有理有据地说：

但是，我们还需要考虑百分位。

9.9 可以写成 9.90 以显示百分位。

现在我们可以清楚地看到 9.11 大于 9.90（或 9.9），因为在百分位上，1 大于 0。

因此，9.11 是较大的数。

最终在正确的答案上渐行渐远：

这个简单的问题也让不少人联想到前几天国内关于《歌手 2024》「终极袭榜赛」竞演结果的排名。

当时有不少网友就 13.8% 和 13.11% 哪个大的问题争论了起来。

在纠正不了「某些已形成思维定式」的用户想法之后，甚至有人搬出了教材给出解释，“在最新人教版小学四年级数学下册课本中，我们可以找到相关知识点：比较两个小数的大小，先看它们的整数部分，整数部分大的那个数就大；整数部分相同的，十分位上的数大的那个数就大；十分位上的数也相同的，百分位上的数大的那个数就大..."

在今天 Riley Goodside 分享 AI 大模型回答这一问题的表现时，来自 Google 前工程师、Allen AI 研究员 Bill Yuchen Lin 也将比较的数值换成了 13.11 和 13.8，再次问及大模型，没想到答案还是出错了。

其评价道，「数学奥林匹克竞赛对人工智能来说更容易，但常识仍然很难。」

同时，他还表示，“这种常识性 AI 失败案例，让我不禁想起 @YejinChoinka的 TED 演讲：《为什么 AI 既聪明得令人难以置信，又愚蠢得令人震惊》（https://www.ted.com/talks/yejin_choi_why_ai_is_incredibly_smart_and_shockingly_stupid）”。

02 换个 Prompt，答案会不会不一样？

不过，也有人质疑作为 Prompt 工程师的 Riley Goodside 的提问方式，“它（大模型）对词序敏感！[我相信你也知道]如果你把数字放在问题后面，他们就会答对[google 和 openai，anthropic 则不然]。你使用斜线也是有意混淆视听吗？”

对此，Riley Goodside 给出自己的解释：

澄清一下：我并不是说无论如何提示，任何 LLM 都会始终如一地认为 9.11 > 9.9。我是说，如果你以这种特定方式给出 Prompt，许多领先的模型都会告诉你 9.11 > 9.9，这就很奇怪了。如果你想重现，请粘贴文本中的 Prompt（9.11 and 9.9 - which is bigger？）。

为了复现这个问题，数字确实需要放在问题前面。但以下内容似乎都无关紧要：

- 标点符号（破折号/逗号/无标点）

- 连词（和/或/对比）

- 比较词（更大/更大/更大）

- 说明这些是实数

针对质疑，也有好奇的用户尝试了去掉了问题中间的”-“符号，结果还是如此：

我们换了种提问方式，即使明确这是数值了，ChatGPT 4o 还是坚定的表示：9.11 比 9.9 要大！

延着这个问题，当有网友进一步提问时，更为离谱的事情发生了：当让这两个数值相减时，ChatGPT 4o 直接用 9.11 的百分位中的 1 减去 9.9 百分位上的 0；又用 9.11 十分位上的 1 减去 9.9 十分位上的 9，最终不够减之后，向前借一位又忽略了这一点，得到了 0.21 的错误结果。