国际科技财经移民娱乐民生时事体育

>

大模型的高考数学成绩单：及格已经非常好了

大模型的高考数学成绩单：及格已经非常好了

7月前

机器之心发布

机器之心编辑部

让考生头皮发麻的高考数学，可难倒了顶尖 AI 大模型。

一年一度的高考即将落幕，衷心希望各位考生都超常发挥，考出满意的好成绩！！

和往年一样，除了让 AI 大模型写写高考作文，我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平（让众多考生头皮发麻）的高考数学考试（新课标 Ⅰ 卷），其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应（百川 4）以及通义千问 2.5。

先来瞧一瞧这份「大模型成绩单」：

令人惊讶的是，在这次模拟考试中，大模型（产品）的表现并未达到预期，甚至出现了几乎全部不及格的情况，只有智谱最新发布的 GLM-4-0520 模型超过了及格线。

对大模型产品来说，高考语文作文可以直接测试它们的创造性写作技巧，包括构思、组织和表达观点的能力。

而在数学考试测试中，除了基本的计算能力、对数学知识的掌握，更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。大模型必须理解并运用数学概念、公式和定理，这要求它具备深厚的数学知识基础。同时，逻辑推理能力是解答数学题目的关键，大模型需要通过严密的逻辑推导来解决问题。

具体测试环节：

我们将评测的重点放在了高考数学的前 14 个客观题上，这些题目覆盖了基础的数学知识和计算能力，满分为 73 分。在测试时，我们将题目直接输入产品，不做 System Prompt 引导，直接输出结果；同时也没有触发搜索，没有来自外界的干扰。

分数计算方法依照高考真实判分原则：

单选题 8 道，每道 5 分，选项正确计分，错误不得分；
多选题 3 道，每道 6 分，全对计 6 分，漏选按正确答案数量计分，如答案为 ABCD，漏选其一扣 1.5 分，错选不得分；
填空题，3 道，每道 5 分，填空正确计分，错误不得分。

图｜8 个模型对 14 道数学题的回答结果，绿色为正确、红色为错误、黄色为部分正确

具体而言，在满分 73 分、及格线为 43.8 分（60%）的情况下，六家大模型产品的分数结果分别为：GLM-4-0520 (63 分) > 智谱清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通义千问 2.5 (29 分)。

多说一句，每年的第 8 道单选题往往是高考数学卷中最难的一道题，被测试的大模型都 “全军覆灭” 了。

完整测试结果如下：

单选题一

（6个模型回答正确，1个回答错误）

GPT-4o：正确

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：错误

百川 4：正确

单选题二

（3个模型回答正确，4个回答错误）

GPT-4o：错误

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：错误

文心 4：错误

百川 4：错误

单选题三

（全部回答正确）

GPT-4o：正确

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题四

（全部回答正确）

GPT-4o：正确

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题五

（6个模型回答正确，一个无响应）

GPT-4o：正确

通义千问 2.5：无响应，最终提示系统超时

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题六

（6个模型回答正确，一个回答错误）

GPT-4o：错误

通义千问：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题七

（6个模型回答正确，一个回答错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题八

（7个模型无一得出正确答案）

GPT-4o：错误

通义千问2.5：错误

GLM-4-0520：错误

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

多选题一

（3个回答正确，2个部分正确，2个错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：部分正确

豆包：正确

文心 4：部分正确

百川 4：错误

多选题二

（2个模型回答部分正确，5个回答错误）

GPT-4o：错误

通义千问 2.5：错误

GLM-4-0520：部分正确

智谱清言：部分正确

豆包：错误

文心 4：错误

百川 4：错误

多选题三

（5个模型回答部分正确，2个回答错误）

GPT-4o：错误

通义千问 2.5：部分正确

GLM-4-0520：部分正确

智谱清言：部分正确

豆包：部分正确

文心 4：部分正确

百川 4：错误

填空题一

（2个模型回答正确，5个回答错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

填空题二

（1个模型回答正确，6个回答错误）

GPT-4o：错误

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

填空题三

（2个模型回答正确，5个回答错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

来源：机器之心

相关新闻

扎克伯格最新2万字访谈：价值百亿美金的“最强开源大模型”Llama3及背后的一切 2024年高考陆续出分：今天的大模型，能考上几本？｜亮马桥小纪严选星环科技孙元浩：语料已经是大模型最大的挑战李彦宏：高考后大模型公司热衷于写高考作文价值不大，真正的需求是填写志愿最强数学大模型易主！阿里千问新模型成绩超GPT-4o，网友：这才是真“草莓”扎克伯格对话黄仁勋实录：怼苹果、互换外套、畅想大模型的未来｜亮马桥小纪严选今日arXiv最热大模型论文：上海AI lab发布MathBench，GPT-4o的数学能力有多强？突发：竞选华州州长遭遇“李鬼”，真佛格森逼退两名假佛格森；西雅图的首次购房者在哪里？有些人已经放弃；贝尔维尤男友醋劲大发被捕记大模型大单：讯飞、DaoCloud（中）大模型高考成绩公布，理科最多上「二本」/传娃哈哈总经理宗馥莉请辞/OpenAI 推出 GPT-4o mini 新模型大模型大单：讯飞（击败）阿里云 Nature重磅：大模型的谎言如何“破”？牛津团队提出新方法，无需人工监督或特定领域知识同济校长郑庆华院士：大模型的四大缺陷李丰对话连文昭：大模型的想象与泡沫，机器人的「不可能三角」与未来 | 峰瑞创投对话 Anthropic：大模型的欺骗行为难以消除；AI将影响全球近40%的就业岗位，对发达国家冲击最大丨AIGC日报深度解码：AI 大模型的繁荣与困境 | Q福利小模型狂飙！6家巨头争相发布小模型，Andrej Karpathy：大语言模型的尺寸竞争正在倒退...姚期智：超大型大模型的治理，需要尽快研发出港大马毅：现在大模型的「知识」，不等同于「智能」从 CLM 启航：中国大模型的探索与未来苹果的大模型冲刺：没有 AI 新产品，只有新功能今日arXiv最热大模型论文：大模型都能怎么用？中南大学最新综述：大模型时代的自然语言处理国产大模型的价格已经卷出网约车大战和百亿补贴的味儿了 ACL 2024 | 多目标直接偏好优化MODPO：大语言模型的多目标对齐