UC伯克利「LLM排位赛」结果出炉!Claude 3追平GPT-4并列第一
新智元报道
新智元报道
【新智元导读】Claude 3不但数据集跑分领先,用户体验上也将成为最强大的LLM,GPT-5在哪里?
Claude 3和GPT-4到底谁厉害?
自从Claude 3发布以来,Anthropic官方对外宣称的说法就是「全面超越GPT-4」,在技术报告中给出的各个测试集的数据来看,也都几乎稳压GPT-4-Turbo一头。
但之前的新模型出来都要在跑分上「吊打」GPT-4,但实际体验却很少有真的能和GPT-4掰手腕的。
各行各业用户试用过Claude 3,发现体验似乎也比GPT-4要好。
在通过人类用户打分进行排名的lmsys LLM Arena中,Claude 3在不断积累了真实用户反馈分数之后,排名不断爬升。
而距离Claude 3发布一个多星期的时间,它就已经和发布了几个月的GPT-4最新版并列第一了。
而且Claude 3大杯也超过了香草版的GPT-4。
因为LLM Arena评分系统对于先推出的模型有偏爱,所以按照这个趋势发展下去,Claude 3超过GPT-4,在用户体验上排名第一似乎只是一个时间问题了。
Claude 3也终于能让Anthropic在这个榜上打破之前的「新模型不如旧模型」的挤牙膏魔咒,彻底为自己的能力正名。
Claude 3出乎意料的用例
Claude 3和GPT-4比数学
这位网友设计了一个小实验,来比较两者的算数能力,Claude 3 Opus在数字上比GPT-4好得多!
9-10位数的加减法算数,Opus的整体准确率达到100%。
随着测试用例变得更加复杂,GPT-4 开始出错。GPT-3.5被彻底碾压了。
所有模型的乘法能力都不太行,但Opus表现最好,把GPT-4远远甩在了后边。
Opus是唯一能在5位数乘法上具有非零精度,并且在一般乘法上具有更好分数的模型。
因为Claude 3会像人类一样做乘法,并使用其他技巧来简化。
这个用例中,可以实打实地看到Claude 3和GPT-4强大的地方。
让Claude 3翻译古文物上的语言
网友突发奇想,找了一个古代文物,让Claude 3来尝试翻译斐斯托圆盘?
这是一件神秘的古代文物,由意大利考古学家Luigi Pernier于1908年在费斯托斯的米诺斯宫殿中发现。
- 直径为15厘米(5.9 英寸):
神:解释中提到的「伟大女神」可能是米诺斯母神,例如「蛇女神」或希腊女神瑞亚的前身,瑞亚与生育和保护有关。 统治者:解释中的「强大的统治者」可能代表米诺斯国王或克里特神话中的传奇人物,例如米诺斯国王,据说他统治了克里特岛并委托建造了著名的迷宫。 王国:故事中的王国可能是指古代克里特岛本身,在青铜时代拥有繁荣的城市和先进的文明,例如克诺索斯、斐斯托斯或马利亚。 人民:解释中提到的「人民」可能代表米诺斯人民,以其复杂的艺术、建筑和宗教习俗而闻名。 战争:推测翻译中描述的「激烈的战斗」可能暗指克里特岛与邻国之间的历史冲突,例如来自希腊大陆的迈锡尼人,或者神话中的战斗,例如忒修斯与牛头怪之间的战斗。
伟大的宫殿(标志 24,类似于线性 A 标志 041「宫殿」)在这对神圣夫妇的注视下高高矗立(标志 02 和 06,类似于线性 A 标志 038「神」和 037「女神」)。神圣的公牛(符号 28,类似于克里特岛象形文字 012「公牛」)被用来献祭(符号 27,类似于线性 A 符号 031「奉献」),以确保上天的青睐。 勇敢的战士(符号 08,类似于克里特岛象形文字 059「战士」)起航(符号 25,类似于线性 A 符号 086「船」)保卫王国的边界。凭借双斧的力量(符号13,类似于克里特象形文字042「双斧」)和神圣盾牌的保护(符号12,类似于克里特象形文字024「盾牌」),他们战胜了敌人(符号29,类似到线性A标志080「敌人」)并胜利归来。 明智的统治者(符号07,类似于线性A符号038「主」)和贵族女士(符号09,类似于线性A符号037「女士」)监督着土地的繁荣。丰富的收成(符号35,类似于线性A符号031「谷物」)和熟练的手工艺(符号19,类似于克里特岛象形文字054「工匠」)给人们带来了财富和欢乐。 神圣的文字(符号41,类似于线性A符号070「文字」)在圣殿(符号23,类似于克里特岛象形文字057「神庙」)中被背诵,以维持宇宙秩序。生命、死亡和重生的永恒循环(标志10、11和34,类似于线性A标志010「生命」、036「死亡」和057「出生」)在不朽者的指导下继续进行。」
用Claude 3来将自己的创意分解为可操作的创业规划
这个初创公司的CEO分享了两个他个人非常常用的Claude提示词,一个可以帮助普通人来检验自己的想法能不能变成可以赚钱的生意,一个可以来让Claude在某个自己不熟悉的领域来做一些工程上的决定。
用Claude 3编写一段解释勾股定理的代码
微信扫码关注该文公众号作者