Bendi新闻
>
CVPR 2024 | COCO数据集升级!字节提出新一代数据集COCONut

CVPR 2024 | COCO数据集升级!字节提出新一代数据集COCONut

2月前

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和扩散模型】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

转载自:机器之心

随着人工智能的发展,语言模型和生成模型获得了大量的成功并且在设计模型的过程中,模型的参数量也越来越大。对于细粒度理解任务,模型参数量也同样在增加。然而目前现有的数据集存在规模和精度的矛盾,例如 SA-1B 数据集中 99.1% 的 mask 都是机器生成的,但没有赋予语义的标签,而其他一些公开数据集也同样存在精度问题并且这些数据集的规模一般都比较小。
近期,字节跳动提出了新一代细粒度理解的数据集,针对当代深度学习模型的设计需求,给总量为 383K 的图片进行了全景分割的人工标注,最后达到了 5.18M 张 mask,是至今最大规模的带人工标签的全景分割理解数据集,命名为 COCONut。该成果已入选 CVPR2024。

  • 论文链接:https://arxiv.org/abs/2404.08639
  • 代码和数据集链接: https://xdeng7.github.io/coconut.github.io/ 
视频展示了 COCONut 的单张图片的 mask 密度以及语义类别的统计,可以看出,数据集的语义丰富以及 mask 分割粒度精细。该数据集还支持多种理解任务,例如全景分割,实例分割,语义分割,目标检测,语义控制生成和开放词汇分割,在多项任务上,仅通过替换数据集就达到了明显的性能提升。

标注方法
通常只采用人工标注是非常昂贵的,这也是目前现存的大多数公开数据集规模上不去的一个重要原因。还有一些数据集直接使用模型生成的标签,但往往这种生成的标签对模型的训练不会有太大的提高,本文也验证了这一点。所以本文提出了一种新颖的标注方式,结合人工的半自动标签生成。既能保证数据标注的精度又能实现人工劳动力的节省成本,同时还能加速标注过程。

标注精度对比
研究者把 COCONut 和 COCO 在同一张图上的标注进行对比。从下图的对比可以看到本文提出的标注方法达到了和纯人工用 Photoshop 标注几乎一致的精度,但是在标注速度上提高了 10 倍以上。


COCONut 数据集详情
和已有的 COCO 数据集相比,数据集各个类别的分布比较相近,但是在每张图的 mask 总量上是超过 COCO 数据集的,尤其是有大量单张图片有超过 100 张 mask 的情况,由此说明了 COCONut 的标注更为精细,粒度分割更密集。

实验验证
除了提出一个更好的训练集,研究者还发现现有的验证集不能很好的体现模型性能的提升,因此本文还提出了一个更加富有挑战性的、可以反映模型的提升的测试集,命名为 COCONut-val. 从下表可以看到,仅替换数据集,更高精度的训练集可以带来模型很大的提升,例如在全景分割上达到超过 4 个点的 PQ。然而当训练集的规模增加了之后,可以发现,用现有的测试集做测试并不能反映出模型的提升,而 COCONut-val 则能反映出模型在增加了训练集数据量之后仍然有明显的提升。

下图为验证集语义类别和 mask 密度的对比,可以看出新提出的验证集更具有挑战性,更能反映模型的提升。

了解更多实验结果可参考原论文,团队后续将在 GitHub 主页提供数据集和相应的模型公开下载。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

来源:CVer

相关新闻

CVPR 2024 | 双手协作双物体的数据集TACO:引领可泛化手物交互的新方向CVPR 2024 | 字节提出视觉基础模型:ViTamin,实现多项SOTA!CVPR 2024 | DeiT全新升级!DeiT-LT:针对长尾数据的改进模型CVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能!港中文&腾讯新作黄仁勋提到的机器人世界,还需要AI数据来“调教” | CVPR 2024CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度CVPR 2024 | 加快199倍!清华和哈佛提出LangSplat:3D语义高斯泼溅CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型CVPR 2024 | 腾讯提出LORS:低秩残差结构,瘦身模型不掉点!年终最后一次盘点!最新最全顶会论文合集(含AAAI24、CVPR、ECCV、NIPS、ACL、ICML等)CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型大模型时代的计算机视觉!CVPR 2024线上分享会全日程公布大模型时代的计算机视觉!CVPR 2024线上论文分享会启动CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架CVPR 2024 中科院等提出:实时人像视频三维感知重光照方法CVPR 2024 | 谷歌提出OmniGlue:特征匹配新工作CVPR 2024|Adobe提出人像抠图新网络MaGGIeCVPR 2024 | 南洋理工提出动态人体渲染新范式,高度还原跳舞时飞扬的裙摆斩获3项CVPR 2024顶会大奖!美图影像研究院新突破!CVPR 2024 竞赛冠军方案!复杂场景下的视频对象分割CVPR 2024 | CLIP当成RNN!无需训练即可分割无数概念|牛津&谷歌新作CaRCVPR 2024 | 知识感知注意力!用于组织病理学全幻灯片图像分析
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。