Bendi新闻
>
大模型的高考数学成绩单:及格已经非常好了
大模型的高考数学成绩单:及格已经非常好了
6月前
让考生头皮发麻的高考数学,可难倒了顶尖 AI 大模型。
单选题 8 道,每道 5 分,选项正确计分,错误不得分; 多选题 3 道,每道 6 分,全对计 6 分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣 1.5 分,错选不得分; 填空题,3 道,每道 5 分,填空正确计分,错误不得分。
(6个模型回答正确,1个回答错误)
(3个模型回答正确,4个回答错误)
(全部回答正确)
(全部回答正确)
(6个模型回答正确,一个无响应)
(6个模型回答正确,一个回答错误)
(6个模型回答正确,一个回答错误)
通义千问2.5:错误
(3个回答正确,2个部分正确,2个错误)
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
扎克伯格最新2万字访谈:价值百亿美金的“最强开源大模型”Llama3及背后的一切2024年高考陆续出分:今天的大模型,能考上几本?|亮马桥小纪严选星环科技孙元浩:语料已经是大模型最大的挑战李彦宏:高考后大模型公司热衷于写高考作文价值不大,真正的需求是填写志愿最强数学大模型易主!阿里千问新模型成绩超GPT-4o,网友:这才是真“草莓”扎克伯格对话黄仁勋实录:怼苹果、互换外套、畅想大模型的未来|亮马桥小纪严选今日arXiv最热大模型论文:上海AI lab发布MathBench,GPT-4o的数学能力有多强?突发:竞选华州州长遭遇“李鬼”,真佛格森逼退两名假佛格森;西雅图的首次购房者在哪里?有些人已经放弃;贝尔维尤男友醋劲大发被捕记大模型大单:讯飞、DaoCloud(中)大模型高考成绩公布,理科最多上「二本」/传娃哈哈总经理宗馥莉请辞/OpenAI 推出 GPT-4o mini 新模型大模型大单:讯飞(击败)阿里云Nature重磅:大模型的谎言如何“破”?牛津团队提出新方法,无需人工监督或特定领域知识同济校长郑庆华院士:大模型的四大缺陷李丰对话连文昭:大模型的想象与泡沫,机器人的「不可能三角」与未来 | 峰瑞创投对话Anthropic:大模型的欺骗行为难以消除;AI将影响全球近40%的就业岗位,对发达国家冲击最大丨AIGC日报深度解码:AI 大模型的繁荣与困境 | Q福利小模型狂飙!6家巨头争相发布小模型,Andrej Karpathy:大语言模型的尺寸竞争正在倒退...姚期智:超大型大模型的治理,需要尽快研发出港大马毅:现在大模型的「知识」,不等同于「智能」从 CLM 启航:中国大模型的探索与未来苹果的大模型冲刺:没有 AI 新产品,只有新功能今日arXiv最热大模型论文:大模型都能怎么用?中南大学最新综述:大模型时代的自然语言处理国产大模型的价格已经卷出网约车大战和百亿补贴的味儿了ACL 2024 | 多目标直接偏好优化MODPO:大语言模型的多目标对齐