Bendi新闻
>
大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

7月前
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

让大模型直接操纵格斗游戏《街霸》里的角色,捉对PK,谁更能打?

GitHub上一种你没有见过的船新Benchmark火了。

与llmsys大模型竞技场中,两个大模型分别输出答案,再由人类评分不同——街霸Bench引入了两个AI之间的交互,且由游戏引擎中确定的规则评判胜负。

这种新玩法吸引了不少网友来围观。

由于项目是在Mistral举办的黑客马拉松活动上开发,所以开发者只使用OpenAI和Mistral系列模型进行了测试。

排名结果也很出人意料。

经过342场对战后,根据棋类、电竞常用的ELO算法得出的排行榜如下:

最新版gpt-3.5-turbo成绩断崖式领先,Mistral小杯排第二。更小的模型超过了更大的GPT-4和Mistral中杯大杯

开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。

与传统的强化学习也有所不同,强化学习模型相当于根据奖励函数“盲目地”采取不同行动,但大模型完全了解自身处境并有目的的采取行动。

考验AI的动态决策力

AI想在格斗游戏里称王,需要哪些硬实力呢?开发者给出几个标准:

  • 反应要快:格斗游戏讲究实时操作,犹豫就是败北

  • 脑子要灵:高手应该预判对手几十步,未雨绸缪

  • 思路要野:常规套路人人会,出奇制胜才是制胜法宝

  • 适者生存:从失败中吸取教训并调整策略

  • 久经考验:一局定胜负不说明问题,真正的高手能保持稳定的胜率

具体玩法如下:

每个大模型控制一个游戏角色,程序向大模型发送屏幕画面的文本描述,大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。

第一个挑战是定位人物在场景中的位置,通过检测像素颜色来判断。

由于目前大模型数学能力还都不太行,直接发送坐标值效果不好,最终选择了将位置信息改写成自然语言描述

所以对于AI来说,实际上他们在玩的是一种奇怪的文字冒险游戏。

把大模型生成的动作招式映射成按键组合,就能发送给游戏模拟器执行了。

在试验中发现,大模型可以学会复杂的行为,比如仅在对手靠近时才攻击可能的情况下使用特殊招式,以及通过跳跃来拉开距离

从结果上可以看出,与其他测试方法不同,在这个规则下似乎更大的模型表现越差

开发者对此解释到:

目标是评估大模型的实时决策能力,规则上允许AI提前生成3-5个动作,更大的模型能提前生成更多的动作,但也需要更长的时间。

在推理上的延迟差距是有意保留的,但后续或许会加入其他选项。

后续也有用户提交了流行开源模型的对战结果,在7B及以下量级的战斗中,还是7B模型排名更靠前。

从这个角度看,这种新型基准测试为评估大模型的实用性提供了新思路。

现实世界的应用往往比聊天机器人复杂得多,需要模型具备快速理解、动态规划的本领。


正如开发者所说,想要赢,要在速度和精度之间做好权衡

GitHub项目:
https://github.com/OpenGenerativeAI/llm-colosseum

参考链接:
[1]
https://x.com/nicolasoulianov/status/1772291483325878709
[2]https://x.com/justinlin610/status/1774117947235324087

【🔥 火热报名中】中国AIGC产业峰会

定档4月17日

峰会已经邀请到数位代表技术、产品、投资、用户等领域嘉宾,共论生成式AI产业最新变革趋势。

目前首批确认参会嘉宾包括:微软陶然昆仑万维方汉美图公司吴欣鸿联想创投宋春雨通义千问林俊旸逐际动力张力人大卢志武北大袁粒小冰公司徐元春金山办公姚冬FusionFund张璐通义大模型徐栋DCM曾振宇澜码科技周健得到快刀青衣实验电影人海辛等。了解更多

欢迎报名峰会 ⬇️

峰会将全程线上下同步直播,欢迎预约直播 ⬇️


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

来源:量子位

相关新闻

AlphaGo核心算法增强,7B模型数学能力直逼GPT-4,阿里大模型新研究火了许家印豪宅接近半价售出;余承东:新车型对标远超迈巴赫;AI大模型打响“价格战”;《歌手》15秒广告位报价9000万...无需人类或GPT-4打标签!南大&旷视研究院无监督范式大幅降低视觉大模型对齐成本GPT-4o深夜炸场!AI实时视频通话丝滑如人类,Plus功能免费可用,奥特曼:《她》来了实操了4个 AI 大模型项目落地,我又行了!| 极客时间刚刚,这个全面超越 GPT-4 的大模型,正式推出了 iOS 应用 | 附下载链接最接近GPT-4的国产大模型诞生了谷歌AI通过图灵测试,大模型医生来了?GPT-4竟诊断出难倒17个医生的怪病姚班天才组队开发《完蛋!我被大模型包围了》续作!专为工作日摸鱼爱好者打造最强中文大模型又易主了!击败GPT-4 Turbo,首款AI助手发布现实版《Her》来了,旗舰AI模型 GPT-4o 免费公布,震撼全场!免费还能干翻GPT-4,Meta打了所有闭源大厂的脸。炸了! OpenAI私生子吊打GPT-4! 科技大厂开始急招留学生!英伟达 Nemotron-4 340B 火了!合成数据能否将大模型带入下一个阶段?字节跳动豆包大模型支持实时语音通话;阿里发布Qwen2-Math:数学推理全球第一,超越GPT-4o丨AIGC日报P70系列有3或4款新品;国内首个开源千亿参数MoE大模型来了,对标马斯克的Grok……国产「GPTs」上线!全面对标 OpenAI 的智谱发布大模型,性能逼近 GPT-4OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折《幻兽帕鲁》爆火,大厂坐不住了:这游戏是AI设计的?大模型玩《宝可梦》达人类水平!网友喊话世界冠军:是时候一较高下了这个全面对标 OpenAI 的国产大模型,性能已达 90% GPT-4国产GPTs来了,基于智谱第4代大模型!模型性能均达GPT-4九成以上文心一言用户达3亿!文心大模型4.0 Turbo发布,支持API,真GPT-4 Turbo国产来了!GPT-4单项仅得7.1分,揭露大模型代码能力三大短板,最新基准测试来了
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。