Bendi新闻
>
ICLR 2024 | 再论生成数据能否帮助模型训练?
ICLR 2024 | 再论生成数据能否帮助模型训练?
7月前
点击下方卡片,关注“CVer”公众号
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
添加微信:CVer5555,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
转载自:机器之心
论文题目:Do Generated Data Always Help Contrastive Learning? 论文地址:https://arxiv.org/abs/2403.12448 代码地址:https://github.com/PKU-ML/adainf
真实数据和生成数据的比例。从人的角度来看,生成数据似乎以假乱真,但对于模型训练而言并非如此。他们发现,真实数据与生成数据的混合比例在 10:1 附近时达到最优,也就是说,1 个真实数据的「训练价值」约等于 10 个生成数据。这侧面说明了二者的差异。 训练策略的设计。他们发现,在使用生成数据进行训练时,如果维持原有的训练参数,则模型几乎没有提升。相反,如果随着数据集的扩充,而相应降低模型训练所使用的数据增广的强度,则可以获得显著提升。
数据扩充:不会改变标签错误,但可以提升图的连通性(增大)(下图 5 (a))。 数据增广:数据增广强度增加,会使得 labeling error 增大(图 5 (b)),但同时使不同样本之间的交叠部分增加,即增广图的连通性增强(增大)(图 5 (c))。
何恺明在MIT授课的课件PPT下载
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
CVPR 2024 论文和代码下载
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba和多模态学习交流群成立
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和多模态微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者多模态+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
微信扫码关注该文公众号作者
来源:CVer
相关新闻
ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 202470亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024世外、平和公布2024升学数据!再PK,谁更强?英伟达 Nemotron-4 340B 火了!合成数据能否将大模型带入下一个阶段?ICLR 2024 | 阐明扩散模型中的曝光偏差问题,一行代码大幅提升生成质量ICLR 2024 | 根据压缩比率控制生成样本难度,NUS等提出首个无损数据集蒸馏方法ACL 2024 | 如何避免LLM生成有毒回复?基于知识编辑的大模型祛毒初探ICLR 2024 | 媲美DALLE-3!基座模型LaVIT刷榜多模态理解与生成任务ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题ACL 2024 | 大语言模型的安全对齐会适得其反?无需训练便能逆转安全对齐清华联合蚂蚁提出TimeMixer,可分解多尺度融合的时序预测模型 | ICLR 2024吃饭不健康,癌症风险可能更高!《细胞》发现糖代谢致癌新机制;弱智吧竟成最佳中文AI训练数据?测试远超知乎豆瓣小红书|本周论文推荐做具身大模型缺数据?ATM 教你人类视频的正确用法如何落地AI编程和可观测智能化?怎么从 0 到 1 训练大模型?阿里多位专家出席 ArchSummit 现身说法三星能否再创辉煌?| 经济学人商业茅台瑞幸又联手,“老树新花”能否再炒热度?神经网络架构「殊途同归」?ICML 2024论文:模型不同,但学习内容相同在 ICLR 2024,看见中国大模型的力量只是去个夜店,个人信息竟被偷光?澳洲再曝大规模数据泄露…2024美本系列③丨录取率低迷的背后还有爬藤黄金法则吗?2024美本申请数据大复盘工资暴跌,还要训练AI替代自己?数据标注员正在被大厂抛弃