Bendi新闻
>
大模型的高考数学成绩单:及格已经非常好了
大模型的高考数学成绩单:及格已经非常好了
15天前
让考生头皮发麻的高考数学,可难倒了顶尖 AI 大模型。
单选题 8 道,每道 5 分,选项正确计分,错误不得分; 多选题 3 道,每道 6 分,全对计 6 分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣 1.5 分,错选不得分; 填空题,3 道,每道 5 分,填空正确计分,错误不得分。
(6个模型回答正确,1个回答错误)
(3个模型回答正确,4个回答错误)
(全部回答正确)
(全部回答正确)
(6个模型回答正确,一个无响应)
(6个模型回答正确,一个回答错误)
(6个模型回答正确,一个回答错误)
通义千问2.5:错误
(3个回答正确,2个部分正确,2个错误)
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
扎克伯格最新2万字访谈:价值百亿美金的“最强开源大模型”Llama3及背后的一切星环科技孙元浩:语料已经是大模型最大的挑战今日arXiv最热大模型论文:上海AI lab发布MathBench,GPT-4o的数学能力有多强?突发:竞选华州州长遭遇“李鬼”,真佛格森逼退两名假佛格森;西雅图的首次购房者在哪里?有些人已经放弃;贝尔维尤男友醋劲大发被捕记Nature重磅:大模型的谎言如何“破”?牛津团队提出新方法,无需人工监督或特定领域知识同济校长郑庆华院士:大模型的四大缺陷李丰对话连文昭:大模型的想象与泡沫,机器人的「不可能三角」与未来 | 峰瑞创投对话Anthropic:大模型的欺骗行为难以消除;AI将影响全球近40%的就业岗位,对发达国家冲击最大丨AIGC日报从 CLM 启航:中国大模型的探索与未来苹果的大模型冲刺:没有 AI 新产品,只有新功能今日arXiv最热大模型论文:大模型都能怎么用?中南大学最新综述:大模型时代的自然语言处理国产大模型的价格已经卷出网约车大战和百亿补贴的味儿了ACL 2024 | 多目标直接偏好优化MODPO:大语言模型的多目标对齐章文嵩、蒋晓伟、李飞飞、张凯巅峰对谈:大模型时代的数据智能新趋势今日arXiv最热NLP大模型论文:清华大学:大语言模型的常见词僻意理解能力竟不如中学生人物 | 所罗门诺夫:大语言模型的先知王兴:低调的大模型捕手中科曙光智能计算产品事业部胡晓东:大模型时代的AI全栈软件能力应用实践 | GenAICon 2024FuseLLM:大语言模型的知识融合!阿里云汪军华:大模型时代的人工智能+大数据平台,加速创新涌现Byzer:大模型时代下的AI数据库从「开城」到「无图」:大模型砸下来的钱好赚吗?刷屏了,1亿元的保单一次付清!被保人0岁,自5岁开始每年可领300万元?知情人士:属实!业内人士:几个亿的大单也不稀奇了真假开源:开源大模型的实际开放性探讨