Bendi新闻
>
打脸奥特曼,GPT-4今年比去年还懒!网友在线实测出炉

打脸奥特曼,GPT-4今年比去年还懒!网友在线实测出炉

9月前
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

GPT-4变懒的问题,又有新进展。

就在今天凌晨,奥特曼发推称,GPT-4这个毛病在新的一年应该好多了!

关于GPT-4变懒,网友的吐槽已是不计其数,其中最多的就是与代码相关的任务:

完成度不高不说,还会被分割成一个一个小块,使用时需要逐一复制。

对于最新版本,一位博主体验之后表示,自己尝试给一年级的孩子做了个学习用的小游戏,效果还不错。

但也有人不认同,比如这位网友就发现,ChatGPT回复的长度虽然增加了,但是很多都是车轱辘话,干正事依旧摆烂。

他让ChatGPT把一些文本翻译成17种语言,结果叽里呱啦说了一堆就是不翻译。

为了消除个体差异,有网友用数据集测试了新的ChatGPT,结果……

新版反而更懒了?

这位网友用GitHub上开源的一套“lazy benchmark”测试了0125(24年1月最新版)和1106(23年11月的上一版)GPT-4模型,发现新版甚至还不如以前,变得更懒了。

这个测试数据集包含了与代码相关的任务,用正确完成的比例间接反应“懒惰”程度,完成率越高说明“惰性”越小。

结果,对于其中的代码比较(Unified diffs)任务,旧版能完成的比例尚且超过了一半,为57%,新版的完成率却仅有44%,降低了近四分之一。

直观感受上,也有人发现ChatGPT的“懒惰”变本加厉了——

以前就算偷懒至少还会糊弄一下,给出个大概的框架让用户自行补充,现在直接就是摆烂说自己干不了。

而针对网友们的这番发现,也有人给出了锐评:

几周之前奥特曼就说过GPT-4表现变好了,但是有人感觉到差别吗?

这次,关于GPT-4变懒的原因,以及到底采用了什么优化策略,奥特曼也未做进一步说明。

“土办法”可降低惰性

不过,之前的一项研究表明,GPT-4的惰性可能与时间相关,这一结论与GPT-4“变懒”的现象出现在年末的12月相吻合。

按照这一理论,新年伊始,模型的表现的确会有所提升,但似乎解释不了表现不升反降的现象。

不过,网友们也总结了一些“土办法”,能在一定程度上降低ChatGPT的惰性。

比如告诉它“我没有手指”,就能得到相对完整的代码,而不是一段段碎片。

又或者,告诉ChatGPT自己会“给小费”,也能激发它的工作动力。

甚至有人专门针对“小费”的金额进行了研究,发现10美元的性价比是最高的。

那么,你觉得ChatGPT是变好了还是更懒了?

参考链接:
[1]
https://twitter.com/sama/status/1754172149378810118
[2]https://aider.chat/docs/benchmarks-0125.html

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

来源:量子位

相关新闻

OpenAI 离职霸王条款原文件曝光!打脸奥特曼回应,「封口令」或实锤OpenAI出手后,GPT-4真的不懒了?网友不买账:只靠打补丁恐怕无济于事!神秘大模型一夜刷屏,能力太强被疑GPT-4.5,奥特曼避而不答打哑谜Llama 3.1 源模型泄露背后:失手的 GitHub,破碎的 Meta,好在最小参数都能打脸GPT-4o!英国天价打车费引争议!网友:在英国打车竟比飞机去欧洲还贵?奥特曼和老黄打起来了!Luma干的。。。英国人在线征求中国网友审美意见?!主打一个“我在英国很听劝”免费还能干翻GPT-4,Meta打了所有闭源大厂的脸。奥特曼昨晚放话也要把大模型价格打下来!微软一夜革新生产力:Copilot 贯穿全场、小模型持续炸街OpenAI 惊天内幕曝光!高管怒斥遭打压,离职吐槽公司将损失数百万,奥特曼紧急回应光速打脸!特朗普留学生毕业就发绿卡的声明作废!竞选团队:撤回,不发!光速打脸!特朗普:留学生毕业就发绿卡!团队:撤回,不发!又打脸!特朗普:留学生毕业就发绿卡!团队:紧急撤回!还在打!Costco新清仓福利还在出,6月电商大促折嗨了!对打GPT-4!Claude 3秘密武器曝光:Claude宪法无需人类或GPT-4打标签!南大&旷视研究院无监督范式大幅降低视觉大模型对齐成本哥斯拉能打过奥特曼吗?美国名流“阴谋论”遭打脸!英国凯特王妃宣布确诊癌症,正在化疗(图)美国经济不祥警告!道琼4万点打脸川普,还是风雨欲来美国经济不祥警告!道琼斯4万点打脸川普,还是风雨欲来商汤甩出大模型豪华全家桶!秀拳皇暴打GPT-4,首晒“文生视频”,WPS小米现场助阵UC伯克利「LLM排位赛」结果出炉!Claude 3追平GPT-4并列第一“Alpha 乒乓”来了!学了 1.4 万个对拉球,谷歌乒乓机器人球技横扫大部分选手!网友:4 年后代表美国打奥运澳洲公务员薪资排行出炉,有人比总理薪资还高2倍!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。