MetaCLIP：带你揭秘CLIP数据

8月前

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

最后一天！CVer学术星球最大优惠！限时送新用户50元优惠券(下方左图)，老用户7折+20元续费券(下方右图)，每天分享最新最优质的AI/CV内容，助力你的科研和工作！快加入！

自2021年诞生，CLIP已在计算机视觉识别系统和生成模型上得到了广泛的应用和巨大的成功。我们相信CLIP的创新和成功来自其高质量数据（WIT400M），而非模型或者损失函数本身。虽然3年来CLIP有大量的后续研究，但并未有研究通过对CLIP进行严格的消融实验来了解数据、模型和训练的关系。

CLIP原文仅有简短的数据处理描述，而后续工作依靠已经训练好的CLIP来重新过滤数据去训练CLIP（学生）模型。更广泛地说，虽然目前的开源着重强调已训练模型权重的公开，而训练数据以及如何从低质量数据获得高质量数据的技巧的公开度却往往并不那么高。

本文带你揭开CLIP的数据质量之谜，为开源社区带来元数据导向的CLIP预训练（MetaCLIP)。

原文链接：https://arxiv.org/abs/2309.16671
项目链接：https://github.com/facebookresearch/MetaCLIP
论文标题：Demystifying CLIP Data

MetaCLIP数据质量

MetaCLIP根据CLIP原文对数据处理的描述，提出可扩展到整个CommonCrawl上的数据算法。该算法接受原始互联网数据分布，产生在元数据上平衡的高质量训练数据分布。

MetaCLIP产生的数据质量源自两个部分：

（1）通过元数据字符串匹配来抓取高质量人类监督文本；

（2）通过平衡数据在元数据上的分布来最大限度保留长尾数据的信号、弱化噪声以及头部分布的冗余信息。MetaCLIP的元数据来自50万个WordNet和维基百科的视觉概念（visual concept），它们使被匹配的alt文本包含超越人类平均认知水平的监督质量（superhuman level supervision）。

我们的实验严格遵循CLIP设定来控制研究数据分布对结果的影响。整个数据提取，训练无需已训练CLIP来过滤数据以及潜在未知的来自OpenAI CLIP的数据偏见。

相反的是，MetaCLIP数据算法同时输出训练数据分布。这使得训练数据更加透明，以方便调试模型。MetaCLIP在400M训练数据上达到ViT-B 70.8%的零样本ImageNet分类精度；使用1B训练数据上达到72.4%；在2.5B训练数据上使用ViT-bigG模型达到82.1%，而整个模型和训练参数并未进行任何更改（比如学习率或批样本量）。

消融实验表明：字符串匹配（MetaCLIP w/o bal. （400M)）和平衡分布（MetaCLIP（400M））对MetaCLIP的数据质量产生重大贡献。

CLIP数据算法介绍

本文正式提出CLIP数据算法，来简化和产生高质量的训练数据。

该方法大致分为：创建元数据，提出数据算法，提高数据质量及输出训练数据等四个步骤。

具体方法见下：

（1）实现了CLIP数据的相关描述，包括如何创建元数据；

（2）提出如下数据算法：第一部分为元数据字符串匹配，第二部分为平衡数据分布。该算法简洁可扩展，本文已证明可在所有CommonCrawl 300+B 级图片样本并行运行；

（3）可植入已有数据流水线或者数据加载器（data loader）来提高数据质量；

（4）输出训练数据在元数据上的训练分布使得训练数据更透明。

该算法的python代码如下：

MetaCLIP的元数据来自WordNet和Wikipedia的高质量视觉概念（visual concept）。我们根据CLIP原文描述实现了从维基百科提取uni/bi-gram以及高频标题的过程。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer5555，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

微信扫码关注该文公众号作者

来源：CVer

MetaCLIP：带你揭秘CLIP数据

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

何恺明在MIT授课的课件PPT下载

CVPR 2024 论文和代码下载

相关新闻