Bendi新闻
>
ACL 2024 | 开创行业新标准!阿里云与苏大联合发布首个权威金融NLP基准

ACL 2024 | 开创行业新标准!阿里云与苏大联合发布首个权威金融NLP基准

1月前

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评百川新模型冲顶中文测试基准!首款AI助手“百小应”同时发布,“最懂搜索”墨大联合新华社等发布基准框架,全面评估大模型的新闻写作能力和安全依从性准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源Llama3比GPT-4o更爱说谎,首个大模型“诚实性”评估基准来了 | 上海交大​Gemini终于赢了GPT-4o!Video-MME首个视频多模态基准来了!字节、华科发布多语种视觉文本理解新基准,多模态大模型还有很长的路要走专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50最强GPT-4o也才刚及格?智源联合多所高校推出首个多任务长视频评测基准MLVU(4)今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMath今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHaluGPT-4预测股票涨跌更更更准了!东京大学新框架LLMFactor提升显著 | ACL 2024ACL 2024最佳论文开奖,多模态大模型爆火出圈!香港大学发布组合性文生视频基准,7大类20项指标,让20个大模型一决雌雄ACL 2024 | 引领学术视听研究,上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AVISSTA 2024 | 北大提出CoderUJB,面向代码大模型的可执行多任务代码评估基准揭示真实能力与局限ACL 2024 | 大语言模型的安全对齐会适得其反?无需训练便能逆转安全对齐ACL 2024 Oral | 大模型也会被忽悠?揭秘AI的信念之旅ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT新测试基准发布,最强开源Llama 3尴尬了ACL 2024大奖揭晓!全华人团队用AI破解3000年前甲骨文密码ACL 2024 Findings | 视频大语言模型能理解视频中的时序信息吗?大模型时代的蓝海任务,GPT4V准确率不足10%,港科大发布指代理解基准RefCOCO首次引入GPT-4o!图像自动评估新基准来啦
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。