Bendi新闻
>
27岁华裔天才少年对打UC伯克利,首发SEAL大模型排行榜!Claude 3 Opus数学封神
27岁华裔天才少年对打UC伯克利,首发SEAL大模型排行榜!Claude 3 Opus数学封神
6月前
新智元报道
新智元报道
【新智元导读】一直以来,UC伯克利团队的LMSYS大模型排行榜,深受AI圈欢迎。如今,最有实力的全新大模型排行榜SEAL诞生,得到AI大佬的转发。它最大的特点是在私有数据上,由专家严格评估,并随时间不断更新数据集和模型。
- 私有数据
- 不断发展
- 专家评估
代码
代码生成:根据给定的自然语言规范或描述创建新代码。 代码修复:识别并纠正现有代码中的错误。例如,调试、解决语法错误和修复逻辑错误。 代码理解:解释、阐明或澄清现有代码。例如,阐明某些代码段的工作原理,分解复杂算法。 代码修改:对现有代码进行更改或调整以满足新要求或条件。例如,更改功能,更新或增强特性。 代码优化:提高现有代码的性能。例如,提高效率,减少资源消耗(如内存或处理时间)。 学习辅助:帮助学习或理解编程概念、语言或工具。例如,提供最佳实践指导,解释编程概念。 代码翻译:将代码从一种编程语言转换为另一种语言,并根据目标语言的最佳实践调整代码结构、风格和习惯用法。 建议提供:提供关于编码实践、工具、库或框架的建议或意见。 注释改进:在现有代码中添加或改进注释。 测试开发:开发、增强或修复现有代码的测试。
测试栗子
结果分析
- GPT
- Gemini
- Claude
数学
测试栗子
指令跟随
测试栗子
西班牙语
方法
如何计算Elo评分排名
置信区间
LLM评估的重要性
LLM评估正在改进,但不久前他们的状态非常黯淡,定性经验常常与定量排名不一致。 这是因为良好的评估非常难以构建。 在特斯拉,我可能将1/3的时间花在数据上,1/3的时间花在评估上,1/3 的时间花在其他事情上。评估必须全面、有代表性、高质量,并测量梯度信号(即梯度下降不能太容易,也不能太难)。而且将定性和定量评估对齐之前,需要解决很多细节,其中有一些微妙的地方。 另一个不容易发现的地方是,任何开放(非私有)测试数据集都不可避免地泄漏到训练集中。人们直觉上的强烈怀疑这一点,这也是最近GSM1k流行的原因。 即使LLM开发人员尽最大努力,防止测试集渗透到训练集(以及模型记住答案)也很困难。当然,你可以尽力过滤掉训练集中与测试集完全匹配的内容,还可以过滤掉n-gram识别的近似匹配。但是,如何过滤掉合成数据重写或网上对数据的讨论内容?如果定期训练多模态模型,如何过滤数据的图像/屏幕截图?如何防止开发人员将训练数据(比如embedding)放到测试集中,并专门使用与测试集高度对齐(在向量空间)的数据进行训练? 最后一点是,并非所有我们关心的LLM任务都是可自动评估的(例如思考总结等),此时你希望让人类参与进来。但如何控制所有涉及的变量?例如人类评估者在多大程度上关注实际答案内容,或者长度、文字风格,或者如何看待模型拒绝回答的行为等等。 不管怎样,反直觉的一点是,良好的评估是困难的,且需要高度密集的工作,但非常重要,所以我很高兴看到更多的组织加入,努力做好这件事。
而且最近的一篇论文中有比较充分的证据。
论文地址:https://arxiv.org/html/2405.00332
微信扫码关注该文公众号作者
来源:新智元
相关新闻
数学天才孙崧回国任教!中科大少年班出身,27岁破解“丘成桐猜想”,官宣加盟浙大估值飙至138亿美元!27岁华裔天才少年再获融资,数据标注会是下一个风口?“食神”登场:老板电器首发烹饪大模型!再次封神!国内AI大模型渗透太快了。。。大反转!美国15岁华裔女孩神秘失踪一周后被发现,其父涉嫌绑架儿童被捕!Costco清仓封神价!开市客高丽参/花旗参大比拼,孝敬父母这款是可能是首选,买美国货meidibuy直邮超方便距家不到200米!17岁少年上学路上神秘失踪,竟是被邻居囚禁羊圈27年大模型中文微调最佳神器!「弱智吧」吊打小红书、知乎、豆瓣...在美搭机很崩溃!5岁娃狂吐口水 家长大吼“你有小孩就懂” 一句话神打脸居家办公享时薪40美元!27岁华裔CEO招聘博士训练AI数据标注惊了|数千人挤爆温哥华街头!多路口车祸频发!27岁美女打工小费狂赚2500刀大结局封神!刘亦菲爆款实绩+1,《玫瑰的故事》却摇身一变,成为文旅大使,网友:到底有谁在?行业巨变!大模型走下神坛!!太命大!加拿大27岁帅哥冠军浮潜遇鲨鱼!右腿被吃,九死一生!全美航空公司大PK!27岁旅行者历时一周测评,究竟哪家更胜一筹?新趋势!AI大模型走下神坛!大捡漏!27岁小哥以19刀买下价值两万的卡地亚钻石耳环!卡地亚死活不认账,但最终...烂番茄100%,金融版《权力的游戏》大尺度完结!口碑封神硅谷命案辟谣!细节披露…27岁华裔高材生殴妻致死,被重罪起诉!朋友邻居现身说法MIT辍学,27岁华裔亿万富翁崛起内幕!创业8年公司估值138亿美元,和奥特曼有私交荒唐爸丢包儿子去购物!3岁男童被锁车内,太阳27℃炙烤"活活热死"赶超 GPT-4o,最强大模型 Llama 3.1 405B 一夜封神,扎克伯格:开源引领新时代天才少女一夜封神,背后的三大真相!湾区华人乱拳活活打死新婚半年的27岁妻子!90后为何在美国频发血案?