Bendi新闻
>
豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性
豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性
4月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
论文:https://arxiv.org/abs/2405.19092 数据集:https://huggingface.co/datasets/foundation-multimodal-models/DetailCaps-4870 代码:https://github.com/foundation-multimodal-models/CAPTURE
现有的 LVLM 评测方案主要采用 VQA 形式,很大程度受到指令遵循(instruction following)能力的影响,且 QA prompt 的设计容易引入人类的偏见(bias)。 Image caption 任务可以有效评估模型理解能力,但现有的 caption benchmark 多使用短 caption 作为 ground truth,这在 lvlm 时代完全过时。 同时,现有的 image caption 评测指标与人类、GPT 等专家评价结果的一致性较差,常用的 bleu、rouge 等指标抽取 n-gram 进行匹配,对关键信息的准确性不够敏感。而 GPT-Eval 虽然和专家评价较为一致,但是会带来高昂的评测成本。
豆包大模型团队
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
21.99 万元起,蔚来发布乐道汽车/微软内部人士回应中国AI团队赴美/字节发布豆包大模型字节发布豆包大模型,内部人士回应微软中国AI团队赴美,TikTok创作者诉美联邦政府,长城炮回应事故,这就是今天的其他大新闻!OpenAI发布新旗舰模型GPT-4o;字节跳动正式发布豆包大模型|AIGC周观察第四十三期字节豆包大模型发布!“比行业价格低99%”,对话火山引擎总裁谭待豆包大模型家族发布、火山方舟升级,火山引擎如何打造全栈AI技术服务?Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效字节跳动豆包大模型支持实时语音通话;阿里发布Qwen2-Math:数学推理全球第一,超越GPT-4o丨AIGC日报iPhone 和 iPad 将升级眼球追踪功能;字节豆包大模型全面开启商业化;蔚来第二品牌发布首款新车 | 极客早知道日均tokens使用量超5000亿,AI生图玩法猛猛上新:豆包大模型为什么越来越「香」了?三星中国 AI 合作:豆包大模型豆包大模型深度体验,除了便宜,还有哪些亮点?“小爱同学”接入豆包大模型,小米SU7已搭载;宁德时代、比亚迪竞赛超充,动力电池将进入6C时代丨汽车交通日报豆包大模型价格出炉!超高并发,“后付费”支持每分钟万次请求大模型价格进入“厘”时代,豆包大模型定价每千tokens仅0.8厘老便宜了!字节跳动豆包大模型开始营业,一元钱能买125万Tokens,月活用户量达2600万字节AI全面出击:比行业平均便宜99%,豆包「大模型家族」正式营业AI 编程助手测评:GitHub Copilot vs 豆包 MarsCode互联网大厂 AI App 大横评:元宝、通义、豆包和文心一言哪家强?抖音豆包成年轻人AI顶流!字节跳动大模型家族登场,tokens价格比行业低99%豆包出击,直降99.3%!火山引擎开卷大模型“价格战”字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍字节跳动发布“豆包 MarsCode”智能开发工具,面向国内开发者免费字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果加快410倍!字节豆包新工作TiTok:全新图像Tokenizer!生成图像最低只需32个token