Bendi新闻
>
中国大模型头名易主:全球盲测榜单上,Yi-Large与GPT-4o中文并列第一

中国大模型头名易主:全球盲测榜单上,Yi-Large与GPT-4o中文并列第一

1月前
机器之心发布
机器之心编辑部

上周,一个名为 “im-also-a-good-gpt2-chatbot” 的神秘模型突然现身大模型竞技场 Chatbot Arena,排名直接超过 GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b 等各家国际大厂的当家基座模型。随后 OpenAI 揭开 “im-also-a-good-gpt2-chatbot” 神秘面纱 —— 正是 GPT-4o 的测试版本,OpenAI CEO Sam Altman 也在 Gpt-4o 发布后亲自转帖引用 LMSYS arena 盲测擂台的测试结果。

由开放研究组织 LMSYS Org (Large Model Systems Organization)发布的 Chatbot Arena 已经成为 OpenAI、Anthropic、Google、Meta 等国际大厂 “龙争虎斗” 的当红擂台,以最开放与科学的评测方法,在大模型进入第二年之际开放群众投票。

时隔一周,在最新更新的排名中,类 “im-also-a-good-gpt2-chatbot” 的黑马故事再次上演,这次排名飞速上涨的模型正是由中国大模型公司零一万物提交的 “Yi-Large” 千亿参数闭源大模型。

在 LMSYS 盲测竞技场最新排名中,零一万物的最新千亿参数模型 Yi-Large 总榜排名世界模型第 7,中国大模型中第一,已经超过 Llama-3-70B、Claude 3 Sonnet;其中文分榜更是与 GPT4o 并列世界第一

零一万物也由此成为了总榜上唯一一个自家模型进入排名前十的中国大模型企业。在总榜上,GPT 系列占了前 10 的 4 个,以机构排序,零一万物 01.AI 仅次于 OpenAI, Google, Anthropic 之后,以开放金标准正式进击国际顶级大模型企业阵营。 

美国时间 2024 年 5 月 20 日刚刷新的 LMSYS Chatboat Arena 盲测结果,来自至今积累超过 1170 万的全球用户真实投票数:

值得一提的是,为了提高 Chatbot Arena 查询的整体质量,LMSYS 还实施了重复数据删除机制,并出具了去除冗余查询后的榜单。这个新机制旨在消除过度冗余的用户提示,如过度重复的 “你好”。这类冗余提示可能会影响排行榜的准确性。LMSYS 公开表示,去除冗余查询后的榜单将在后续成为默认榜单。

在去除冗余查询后的总榜中, Yi-Large 的 Elo 得分更进一步,与 Claude 3 Opus、GPT-4-0125-preview 并列第四

LMSYS 中文榜
GPT-4o 和 Yi-Large  并列第一

值得国人关注的是,国内大模型厂商中,智谱 GLM4、阿里 Qwen Max、Qwen 1.5、零一万物 Yi-Large、Yi-34B-chat 此次都有参与盲测,在总榜之外,LMSYS 的语言类别上新增了英语、中文、法文三种语言评测,开始注重全球大模型的多样性。

Yi-Large 的中文语言分榜上拔得头筹,与 OpenAI 官宣才一周的地表最强 GPT4o 并列第一,Qwen-Max 和 GLM-4 在中文榜上也都表现不凡。

“最烧脑” 公开评测
Yi-Large 位居全球第二

在分类别的排行榜中,Yi-Large 同样表现亮眼。编程能力、长提问及最新推出的 “艰难提示词” 的三个评测是 LMSYS 所给出的针对性榜单,以专业性与高难度著称,可称作大模型 “最烧脑” 的公开盲测。

在编程能力(Coding)排行榜上,Yi-Large 的 Elo 分数超过 Anthropic 当家旗舰模型 Claude 3 Opus,仅低于 GPT-4o,与 GPT-4-Turbo、GPT-4 并列第二。

长提问(Longer Query)榜单上,Yi-Large 同样位列全球第二,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列。

艰难提示词(Hard Prompts)则是 LMSYS 为了响应社区要求,于此次新增的排行榜类别。这一类别包含来自 Arena 的用户提交的提示,这些提示则经过专门设计,更加复杂、要求更高且更加严格。LMSYS 认为,这类提示能够测试最新语言模型面临挑战性任务时的性能。

在这一榜单上,Yi-Large 处理艰难提示的能力也得到印证,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列第二。

LMSYS Chatbot Arena
后 benchmark 时代的风向标

如何为大模型给出客观公正的评测一直是业内广泛关注的话题。为了在固定题库中取得一份亮眼的评测分数,业内出现了各式各样的 “刷榜” 方法:将各种各样的评测基准训练集直接混入模型训练集中、用未对齐的模型跟已经对齐的模型做对比等等,对尝试了解大模型真实能力的人,的确呈现 “众说纷纭” 的现场,更让大模型的投资人摸不着北。

在经过 2023 年一系列错综复杂、乱象丛生的大模型评测浪潮之后,业界对于评测集的专业性和客观性给予了更高的重视。而 LMSYS Org 发布的 Chatbot Arena 凭借其新颖的 “竞技场” 形式、测试团队的严谨性,成为目前全球业界公认的基准标杆,连 OpenAI 在 GPT-4o 正式发布前,都在 LMSYS 上匿名预发布和预测试。

在海外大厂高管中,不只 Sam Altman,Google DeepMind 首席科学家 Jeff Dean 也曾引用 LMSYS Chatbot Arena 的排名数据,来佐证 Bard 产品的性能。

OpenAI 创始团队成员 Andrej Karpathy 甚至公开表示,Chatbot Arena is “awesome”。

自身的旗舰模型发布后第一时间提交给 LMSYS,这一行为本身就展现了海外头部大厂对于 Chatbot Arena 的极大尊重。这份尊重既来自于 LMSYS 作为研究组织的权威背书,也来自于其新颖的排名机制。

公开资料显示,LMSYS Org 是一个开放的研究组织,由加州大学伯克利分校的学生和教师、加州大学圣地亚哥分校、卡耐基梅隆大学合作创立。虽然主要人员出自高校,但 LMSYS 的研究项目却十分贴近产业,他们不仅自己开发大语言模型,还向业内输出多种数据集(其推出的 MT-Bench 已是指令遵循方向的权威评测集)、评估工具,此外还开发分布式系统以加速大模型训练和推理,提供线上 live 大模型打擂台测试所需的算力。

在形式上,Chatbot Arena 借鉴了搜索引擎时代的横向对比评测思路。它首先将所有上传评测的 “参赛” 模型随机两两配对,以匿名模型的形式呈现在用户面前。随后号召真实用户输入自己的提示词,在不知道模型型号名称的前提下,由真实用户对两个模型产品的作答给出评价,在盲测平台 https://arena.lmsys.org/ 上,大模型们两两相比,用户自主输入对大模型的提问,模型 A、模型 B 两侧分别生成两 PK 模型的真实结果,用户在结果下方做出投票四选一:A 模型较佳、B 模型较佳,两者平手,或是两者都不好。提交后,可进行下一轮 PK。

通过众筹真实用户来进行线上实时盲测和匿名投票,Chatbot Arena 一方面减少偏见的影响,另一方面也最大概率避免基于测试集进行刷榜的可能性,以此增加最终成绩的客观性。在经过清洗和匿名化处理后,Chatbot Arena 还会公开所有用户投票数据。得益于 “真实用户盲测投票” 这一机制,Chatbot Arena 被称为大模型业内最有用户体感的奥林匹克。

在收集真实用户投票数据之后,LMSYS Chatbot Arena 还使用 Elo 评分系统来量化模型的表现,进一步优化评分机制,力求公平反应参与者的实力。

Elo 评分系统,是一项基于统计学原理的权威性评价体系,由匈牙利裔美国物理学家 Arpad Elo 博士创立,旨在量化和评估各类对弈活动的竞技水平。作为当前国际公认的竞技水平评估标准,Elo 等级分制度在国际象棋、围棋、足球、篮球、电子竞技等运动中都发挥着至关重要的作用。

更通俗地来讲,在 Elo 评分系统中,每个参与者都会获得基准评分。每场比赛结束后,参与者的评分会基于比赛结果进行调整。系统会根据参与者评分来计算其赢得比赛的概率,一旦低分选手击败高分选手,那么低分选手就会获得较多的分数,反之则较少。通过引入 Elo 评分系统,LMSYS Chatbot Arena 在最大程度上保证了排名的客观公正。

Chatbot Arena 的评测过程涵盖了从用户直接参与投票到盲测,再到大规模的投票和动态更新的评分机制等多个方面,这些因素共同作用,确保了评测的客观性、权威性和专业性。毫无疑问,这样的评测方式能够更准确地反映出大模型在实际应用中的表现,为行业提供了一个可靠的参考标准。

Yi-Large 以小搏大紧追国际第一阵营
登顶国内大模型盲测 

此次 Chatbot Arena 共有 44 款模型参赛,既包含了顶尖开源模型 Llama3-70B,也包含了各家大厂的闭源模型。

以最新公布的 Elo 评分来看,GPT-4o 以 1287 分高居榜首,GPT-4-Turbo、Gemini 1 5 Pro、Claude 3 0pus、Yi-Large 等模型则以 1240 左右的评分位居第二梯队;其后的 Bard (Gemini Pro)、Llama-3-70b-Instruct、Claude 3 sonnet 的成绩则断崖式下滑至 1200 分左右。

值得一提的是,排名前 6 的模型分别归属于海外巨头 OpenAI、Google、Anthropic,零一万物位列全球第四机构,且 GPT-4、Gemini 1.5 Pro 等模型均为万亿级别超大参数规模的旗舰模型,其他模型也都在大几千亿参数级别。Yi-Large “以小搏大” 以仅仅千亿参数量级紧追其后, 5 月 13 日一经发布便冲上世界排名第七大模型,与海外大厂的旗舰模型处于同一梯队。在 LMSYS Chatbot Arena 截至 5 月 21 日的总榜上,阿里巴巴的 Qwen-Max 大模型 Elo 分数为 1186,排名第 12;智谱 AI 的 GLM-4 大模型 Elo 分数为 1175,排名第 15。

在当前大模型步入商业应用的浪潮中,模型的实际性能亟需通过具体应用场景的严格考验,以证明其真正的价值和潜力。过去那种仅要求表面光鲜的 “作秀式” 评测方式已不再具有实际意义。为了促进整个大模型行业的健康发展,整个行业必须追求一种更为客观、公正且权威的评估体系。

在这样的背景下,一个如 Chatbot Arena 这样能够提供真实用户反馈、采用盲测机制以避免操纵结果、并且能够持续更新评分体系的评测平台,显得尤为重要。它不仅能够为模型提供公正的评估,还能够通过大规模的用户参与,确保评测结果的真实性和权威性。

无论是出于自身模型能力迭代的考虑,还是立足于长期口碑的视角,大模型厂商应当积极参与到像 Chatbot Arena 这样的权威评测平台中,通过实际的用户反馈和专业的评测机制来证明其产品的竞争力。

这不仅有助于提升厂商自身的品牌形象和市场地位,也有助于推动整个行业的健康发展,促进技术创新和产品优化。相反,那些选择作秀式的评测方式,忽视真实应用效果的厂商,模型能力与市场需求之间的鸿沟会越发明显,最终将难以在激烈的市场竞争中立足。

  • LMSYS Chatbot Arena 盲测竞技场公开投票地址:https://arena.lmsys.org/ 
  • LMSYS Chatbot Leaderboard 评测排行(滚动更新):https://chat.lmsys.org/?leaderboard

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

来源:机器之心

相关新闻

重磅!中国大模型头名易主!GPT-4o和Yi-Large并列第一!国产黑马大模型盲测竞技场挺进全球前十!中文榜和GPT-4o并列第一零一万物发布千亿参数模型 Yi-Large,李开复:中国大模型赶上美国,立志比肩 GPT-5大模型盲测竞技场放榜!国产黑马冲进世界七强,中文并列第一李飞飞团队重磅报告解读AI十大趋势:中国AI专利数全球第一,大模型训练狂烧钱,医学领域AI应用突出 | 大模界中文得分世界第一,多项盲测并肩 GPT4o,这个国产大模型怎么就成了 AI 界的黑马?全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报从 CLM 启航:中国大模型的探索与未来2023全球对冲基金收益榜单:第一名61.2%!斯坦福发布 2024 AI 报告:中国 AI 专利全球第一,顶级 AI 模型主要来自美国 | 附报告全文阿里云进军大模型一年,现在是开源第一名,CTO:闭源要超过所有开源模型才有机会参与讨论中国移动研究院:中国移动“弈衡”大模型评测体系10家国产大模型、GPT-4o共同挑战新鲜高考作文,还自我打分,谁是第一?李开复:不参与“价格战”、模型盲测国内第一欢迎 PK李开复:不参与“价格战”、模型盲测国内第一欢迎PK闭源赶超GPT-4 Turbo、开源击败Llama-3-70B,歪果仁:这中国大模型真香活动报名丨再全球化与中国经济增长:清华经管EMBA名师管理论坛·上海站奥特曼谈AI的机遇、挑战与人类自我反思:中国将拥有独特的大语言模型最难方言温州话被攻克!中国电信语音大模型支持30种方言,这题GPT-4o可不会做啊中国工业互联网研究院:人工智能大模型工业应用准确性测评报告央企第一家:中国电信开源星辰语义大模型,共享超1T 高质基础数据AI明星创业公司大地震:创始人或淡出,合伙人及多名高管离职;斯坦福AI项目作者对抄袭中国大模型致歉,承诺撤下相关模型丨AI周报唯一​靠“屎”暴富的国家:曾是全球第一,人人不上班,跑车遍地!如今全民讨饭,刚与中国复交​​特斯拉中国版FSD或与百度合作/高合最晚将在 5 月初正式复工复产/小红书内测自研大模型「小地瓜」
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。