Bendi新闻
>
GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA
GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA
5月前
新智元报道
新智元报道
【新智元导读】号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动,GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA!
什么是ARC-AGI?
怎么让GPT-4o做到的
向GPT-4o介绍ARC-AGI 的问题,并为问题中的每个网格提供图像表示法和各种文本表示法。
指导GPT-4o推理背后的规律,进一步推理如何用代码实现转换,最后用代码实现。
使用几次提示以及几个精心手写的分步推理示例来实际让GPT-4o有效地进行此推理。生成的提示通常长度约为30k个token(包括图像)。
从GPT-4o中抽取大量的完成样本(每个问题约5000个)。
针对每个问题选取最有希望的12个补全,然后通过向GPT-4o展示该程序在示例中的实际输出,并要求GPT-4o修改代码使其正确,从而尝试修复每个补全。
然后,根据对正确示例程序的多数投票结果,选出3个提交程序。
GPT-4o存在的非推理弱点
GPT-4o看不清楚。GPT-4o在网格上的视力很糟糕,当被要求描述一个较大的网格中的内容时,它通常无法正确「看清」输入,并陈述有关某些位置的颜色或存在的形状的错误事实。
GPT-4o不太擅长编码(特别是对于此类几何操作问题),并且经常犯一些简单的错误,例如差一错误(Off-by-one error,OBOE)。
当上下文中的token超过32k时,其性能会下降。
距离ARC-AGI大奖还有多远?
LLM有学习能力吗
如果你是对的(LLMs可以进行情境学习),那么,LLMs在ARC谜题上会表现得很好,因为 ARC 谜题并不复杂。你不需要认真思考它,它们实际上对人类来说非常明显。 即使是孩子也可以做到,但LLMs不能。即使 LLMs 的知识比你多100,000倍,仍然做不到。ARC唯一的特殊之处在于它的设计初衷就是为了抵制记忆。这是 LLM性能的巨大障碍。 如果仔细观察LLMs,很明显他们并没有真正即时合成新程序来解决他们面临的任务。
微信扫码关注该文公众号作者
来源:新智元
相关新闻
悬赏800万的超难测试集,被GPT-4o实现新SOTA,准确率已达50%Pika联创参与新研究:Diffusion能抢GPT的活了!成功挑战自回归文本范式逼近GPT-4的新模型发布!「欧洲版OpenAI 」联手微软,却被质疑违背初心Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTASam Altman点赞!GPT-4o的幕后AI大佬是...GPT被攻破!不再拒绝你的提问!已婚男子「出轨」AI女友,无法自拔!GPT-4o发布在即,年入十亿美金产业爆发OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折GPT-4o一夜被赶超!Anthropic推出Claude 3.5,网友3分钟克隆马里奥游戏GPT-4o成全球网友新玩具,秒秒钟纸质原型转录初始HTML,网友:谷歌你是一点流量摊不上啊冰毒配方脱口而出,过去时态让GPT-4o防线崩塌!成功率从1%暴涨至88%首次引入GPT-4o!图像自动评估新基准来啦GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4【行业日报】 OpenAI推出新人工智能模型GPT-4o!沃尔玛计划裁减数百名公司员工!每秒执行超40万亿次运算!微软推出内置GPT-4o的全新AI PC“硬刚”,苹果将会如何应对?PC市场是否将迎来换机潮?有学生用AI代写论文?!多所高校发通知!网友:那最新的GPT-4o你们能检测出来吗?(此文含金量极大)AI+GPT搞钱的新路子,快上车!!!Llama 8B搜索100次超越GPT-4o!推理+搜索即可提升性能,新「Scaling Law」诞生?首个超越 GPT-4o 的开源模型提前泄露!Hugging Face 紧急 404 | 附下载链接轻松构建聊天机器人、准确性新SOTA,RAG有了更强大的AI检索器拯救被「掰弯」的GPT-4!西交微软北大联合提出IN2训练治疗LLM「中间迷失」GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板最强数学大模型易主!阿里千问新模型成绩超GPT-4o,网友:这才是真“草莓”开源Llama 3.1一夜成最强大模型!超越闭源GPT-4o,OpenAI坐不住了