Bendi新闻
>
黑马!大模型竞技场榜单更新,国产玩家首次进入全球总榜前10

黑马!大模型竞技场榜单更新,国产玩家首次进入全球总榜前10

5月前
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

龙争虎斗的大模型竞技场,今天突然更新:

国内大模型公司零一万物旗下的Yi-Large千亿参数闭源大模型,跃升总榜第七,也成为榜上国产大模型第一

可以看到,它的成绩几乎与GPT-4-0125-preview持平。

同时,国内清华系大模型公司智谱华章的GLM-4-0116也杀进总榜,位居第15位。

这个结果来自累积超1170万全球用户的真实盲测投票数。

而且大模型竞技场最近修改了规则,只要大模型亮明身份后就不能再继续投票,杜绝了刷分的可能性。

再来看Yi-Large排名之前的前6名中,有4个模型来自GPT,另外有1个谷歌的Gemini,1个Anthropic的Claude。

零一万物创始人兼CEO李开复博士为此表示,LMSYS提供了一个第三方的、公正的平台,其他竞争对手也都非常认可。

而零一万物的团队规模、参数规模、GPU算力都比排名更靠前的模型“小”。

零一万物的GPU可能只有Google、Microsoft的5%,但团队一直在探索,能不能训练跟大厂一样好的模型。
我们的特点就是以千亿模型杀入了万亿模型的范围。如果我们有10倍的GPU,我们的万亿模型应该完全可能达到第一名。

Yi-Large成排名飞升黑马

大模型竞技场官推还给出了Yi-Large的更多成绩:

中文类别中,Yi-Large和GLM-4两个国产大模型的表现不俗。

其中,Yi-Large成绩尤为突出,与GPT-4o并列总榜第一。

模型强度的置信区间,则如下图所示:

值得注意的是,为了提高大模型竞技场查询的整体质量,LMSYS还实施了重复数据删除机制,并出具了去除冗余查询后的榜单。

这个新机制旨在消除过度冗余的用户提示——如过度重复的“你好”——这类冗余提示可能会影响排行榜的准确性。

LMSYS公开表示,去除冗余查询后的榜单将在后续成为默认总榜。

目前,在去除冗余查询后的总榜中,Yi-Large的Elo得分更进一步,与Claude 3 Opus、GPT-4-0125-preview并列第四。

解释一下,Elo评分系统基于统计学原理设定,是当前国际公认的竞技水平评估标准。在这个评分系统里,每个参赛者都有基准评分,然后根据每场比赛调整评分。一旦低分选手击败高分选手,那么低分选手就会获得较多的分数,反之则较少。

LMSYS引入Elo评分系统,是为了保证大模型竞技场在最大程度上保证排名的客观公正。

而在分类别的排行榜中,Yi-Large同样表现亮眼。

编程能力、长提问及最新推出的 “艰难提示词” 的三个评测是LMSYS所给出的针对性榜单。这三个榜单以专业性与高难度著称,可称为当下大模型最烧脑的公开盲测。

编程能力(Coding)排行榜上,Yi-Large 的Elo分数超过Anthropic当家旗舰模型Claude 3 Opus,仅低于GPT-4o,与GPT-4-Turbo、GPT-4并列第二。

长提问(Longer Query)榜单上,Yi-Large同样位列全球第二,与GPT-4-Turbo、GPT-4、Claude 3 Opus并列。

艰难提示词(Hard Prompts)则是LMSYS响应社区要求,在今天的排行榜刷新中新增的类别。

这个类别的提示词来自大模型竞技场用户提交的prompts,它们经过专门设计,更加复杂、要求更高且更加严格。

LMSYS增加这一类别榜单的原因,是官方认为这类提示能够测试最新语言模型面临挑战性任务时的性能。

这个榜单上,Yi-Large处理艰难提示的能力与GPT-4-Turbo、GPT-4、Claude 3 Opus并列第二。

这次表现亮眼的Yi-Large,是一周前零一万物刚对外发布的闭源模型

当时官方给出的评测结果中,推理方面,Yi-Large在HumanEval和MATH都位列第一,超越GPT-4、Claude3 Sonnet、Gemini 1.5 Pro以及LLaMA3-70B-Instruct(都是时下大模型领域的佼佼者)

据了解,Yi-Large的下一步是采用MoE架构的Yi-XLarge,目前已经启动训练。

大模型竞技场

大模型竞技场(Chatbot Arena),似乎已经成为现在头部大模型的兵家必争之地。

此前,国外如谷歌Bard、OpenAI的神秘大模型gpt2-chatbot(不是GPT-2)、Mistral AI的Mistral Large等模型都在上面冲锋陷阵。

国内诸多玩家也都陆陆续续把自家孩子放进去考验真功夫。

大神卡帕西去年就夸过大模型竞技场很Awesome:

GPT-4o发布后,OpenAI的CEO奥特曼也转帖引用大模型竞技场盲测擂台的测试结果,直呼鹅妹子嘤。

发布它的开放研究组织LMSYS Org(Large Model Systems Organization)发布,由加州大学伯克利分校的学生和教师、加州大学圣地亚哥分校、卡耐基梅隆大学合作创立。

虽然背后团队主要来自高校,但LMSYS的研究项目却相对更贴近产业。

他们不仅自己开发大语言模型,还向业内输出多种数据集(其推出的MT-Bench已是指令遵循方向的权威评测集)、评估工具,此外还开发分布式系统以加速大模型训练和推理,提供线上live大模型打擂台测试所需的算力。

在形式上,大模型竞技场借鉴了搜索引擎时代的横向对比评测思路

它首先将所有上传评测的参赛模型随机两两配对,以匿名模型的形式呈现在用户面前。

在不知道模型型号名称的前提下,用户输入自己的提示词,模型A、模型B两侧分别生成两PK模型的真实结果,然后由用户在结果下方做出投票四选一:

A模型较佳/B模型较佳/两者平手/两者都不好。

提交投票后,可进行下一轮PK。

目前,大模型竞技场的评测过程涵盖了从用户直接参与投票、盲测、大规模投票和动态更新评分机制等多个方面,尽可能保证结果的客观和专业。

官方公开数据显示,本次更新的大模型竞技场,共有44款模型参赛。

既有开源高手,如Llama3-70B;也有全球各家大厂、创业公司的闭源模型。

最后,奉上一张胜率热图,它涵盖了目前大模型竞技场上的所有大模型:

快来看看你pick的大模型胜率如何吧(手动狗头)

大模型竞技场盲测平台:
https://arena.lmsys.org/
大模型竞技场评测排行(滚动更新):
https://chat.lmsys.org/?leaderboard

— 联系作者 —

量子位年度AI主题策划正在征集中!

欢迎投稿专题 一千零一个AI应365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

来源:量子位

相关新闻

国产黑马大模型盲测竞技场挺进全球前十!中文榜和GPT-4o并列第一大模型盲测竞技场放榜!国产黑马冲进世界七强,中文并列第一中国版Sora震撼登场,原生16秒直出超清视频!国产黑马火了,世界模型签约多个大客户2B小钢炮碾压Mistral-7B,旗舰级端侧模型炸场开年黑马!1080Ti可训,170万tokens成本仅1元史上首个100%开源大模型重磅登场!破纪录公开代码/权重/数据集/训练全过程,AMD都能训10款国产大模型怒怼「玫瑰前夫」方协文,硬控了我30秒!国产大模型问鼎AIGC第一股!连续2年盈利,营收10个亿国产大模型:今天起,我们100万tokens只需1元!黑马城市10年内增加$50亿公共建设,冲榜大温一线!直接起飞...回报率最高大学排名发布,常春藤名校竟无一进入前10!厉害了!全球10大"最想移民国"出炉:加拿大"碾压性"优势成首选!澳洲人工资又涨了!超过这个数字,你就进入前10%!最新排名,澳洲全球前10!美国下跌,中国在这!美本毕业生各专业起薪排名:CS毫无悬念居第一,工程类霸榜前10!AI时代的眼泪? 硕士学位前10高薪榜大公开 ,MBA竟已排到最末位了10家国产大模型、GPT-4o共同挑战新鲜高考作文,还自我打分,谁是第一?福利来了!特斯拉北美全线降价热门车型!限时10天!全球大裁员慷慨发“分手费”最新!澳洲10大富豪榜发布了!王者依旧,还有人靠离婚上榜...澳洲海关大动作!40万件违禁物品曝光!悉尼机场无人认领的贵重物品大拍卖!全场居然$10刀起...好大的雨!全国降水前10河南占9席,部分列车停运、景区闭园、高速路禁行!南阳一地24小时雨量超600毫米全美毕业生收入最高的Top25!哈佛、耶鲁未进入前10,最赚钱的学校竟是…免费在线体验Meta LIama 3大语言模型!GpuMall狂送10万代金券!云天励飞进军智能穿戴!收购IDH黑马,抢滩大模型C端落地窗口第一个倒下的AI大模型硬件创企!Humane被曝10亿美元卖身,曾梦想干iPhone
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。