Bendi新闻
>
中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系
中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系
3月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
团队:中科大认知智能全国重点实验室陈恩红团队,华为诺亚方舟实验室 论文链接: https://arxiv.org/pdf/2407.06645 代码链接: https://github.com/USTC-StarTeam/ZIP
数据压缩率 R:直觉上,压缩率越低的数据集表明信息密度越高。 训练损失 L:表示数据对模型来说是否难以记忆。在相同的基础模型下,高训练损失通常是由于数据集中存在噪声或不一致的信息。 数据一致性 C:数据的一致性通过给定前文情况下下一个 token 的概率的熵来反映。更高的数据一致性通常会带来更低的训练损失。 平均数据质量 Q:反映了数据的平均样本级质量,可以通过各种客观和主观方面来衡量。
如果将 C 视为常数,训练损失直接受压缩率影响。因此,模型性能由压缩率控制:如果数据压缩率 R 较高,那么 Z 通常较差,这将在我们的实验中得到验证。 在相同的压缩率下,较高训练损失意味着较低的数据一致性。因此,模型学到的有效知识可能更有限。这可以用来预测 LLM 在具有相似压缩率和样本质量的不同数据上的性能。我们将在后续展示这一推论在实践中的应用。
全程免费!「真格星球AI+创业营」与数十位大咖导师一道,碰撞AI灵感、寻找落地商机。扫码立即报名,加入真格创业生态。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
中科大/华为诺亚出手!芯片性能≠布局评分,EDA物理设计框架全面开源超越扩散模型!度小满、中科大等联合提出全新自回归通用文生图模型上交、清华联合发布rLLM,业界首个关系表格大模型算法库这一定是搜广推的变革!华为、京东、小红书、中科大是这样探索的 | AICon2745 万大单、与预差 4 万(中):宝德、中科可控、华为等是赢家6年数据大揭秘!中青年律师成为出海学习主力军GPT-4o 17人Omni金牌团队首揭秘!清北上交中科大6位华人领衔CVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力董宇辉离职,东方甄选收跌逾23%;实习生视频泄露客户敏感信息,中信建投回应;联发科在英国向华为申请专利反击|大公司动态xLSTM崛起!魔芯科技、中科大等新研究揭示其在医学图像分割中超越Mamba2023年AAAS Fellow名单出炉!信息计算领域:浙大教授、中科大校友当选CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF芝大经济系学长、中科大少年班学霸名师、公立校原版娃家长...理工科PK人文社科,寒假阅写资源大放送!国产 Sora 的秘密,藏在这个清华系大模型团队中CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight三个Agent顶个GPT-4,基于开源小模型的那种|中大阿里联合出品中科大王皓:当前推荐大模型急需解决的几大难题大模型大单:讯飞、DaoCloud(中)大模型理解复杂表格,字节&中科大出手了字节大模型关键8人首次曝光!中科大北航西安交大校友,还有9000+被引数大佬视觉特征在语言空间中如何分布?武大、上海交大提出统一多模态自回归建模框架揭秘Memecoin投资:如何在加密市场中大赚一笔超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像,中科大哈工大度小满出品