Bendi新闻
>
ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
7月前
论文题目:Do Generated Data Always Help Contrastive Learning? 论文地址:https://arxiv.org/abs/2403.12448 代码地址:https://github.com/PKU-ML/adainf
真实数据和生成数据的比例。从人的角度来看,生成数据似乎以假乱真,但对于模型训练而言并非如此。他们发现,真实数据与生成数据的混合比例在 10:1 附近时达到最优,也就是说,1 个真实数据的「训练价值」约等于 10 个生成数据。这侧面说明了二者的差异。 训练策略的设计。他们发现,在使用生成数据进行训练时,如果维持原有的训练参数,则模型几乎没有提升。相反,如果随着数据集的扩充,而相应降低模型训练所使用的数据增广的强度,则可以获得显著提升。
数据扩充:不会改变标签错误,但可以提升图的连通性(增大)(下图 5 (a))。 数据增广:数据增广强度增加,会使得 labeling error 增大(图 5 (b)),但同时使不同样本之间的交叠部分增加,即增广图的连通性增强(增大)(图 5 (c))。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
ICLR 2024 | 再论生成数据能否帮助模型训练?巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024CVPR 2024 | 迁移预训练生成模型中的知识到边缘小模型重塑3D生成核心理论:VAST、港大、清华用「零」训练数据生成了3D模型技术吃瓜:金句还是鸡汤,我们用大模型训练了一个报警器70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024ICLR 2024 | 阐明扩散模型中的曝光偏差问题,一行代码大幅提升生成质量ICLR 2024 | 根据压缩比率控制生成样本难度,NUS等提出首个无损数据集蒸馏方法ICLR 2024 | 媲美DALLE-3!基座模型LaVIT刷榜多模态理解与生成任务ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据无需3D数据也能训练,港科&港中文联手华为推出3D自动驾驶场景生成模型ACL 2024 | 大语言模型的安全对齐会适得其反?无需训练便能逆转安全对齐清华联合蚂蚁提出TimeMixer,可分解多尺度融合的时序预测模型 | ICLR 2024吃饭不健康,癌症风险可能更高!《细胞》发现糖代谢致癌新机制;弱智吧竟成最佳中文AI训练数据?测试远超知乎豆瓣小红书|本周论文推荐苹果开源7B大模型,训练过程数据集一口气全给了,网友:开放得不像苹果如何落地AI编程和可观测智能化?怎么从 0 到 1 训练大模型?阿里多位专家出席 ArchSummit 现身说法新闻第104期|Meta改变隐私政策使用个人数据训练AI大模型被投诉,相关法律问题分析ControlNet作者又出新作:百万数据训练,AI图像生成迎来图层设计突发!美国拟限制中国公司使用其云数据中心训练AI模型;TikTok、英雄联盟开发商裁员;哄哄模拟器爆火 | AI周报北大计算机学院登国际AI顶刊!张铭教授团队160万数据训练生物活性基础模型,加速癌症药物研发ICML 2024 | 大语言模型预训练新前沿:最佳适配打包重塑文档处理标准ICML 2024 | 大语言模型预训练新前沿:「最佳适配打包」重塑文档处理标准在 ICLR 2024,看见中国大模型的力量