Bendi新闻
>
Nature最新封面:AI 训练 AI?也许越来越笨
Nature最新封面:AI 训练 AI?也许越来越笨
3月前
来源:学术头条
作者:学术头条
前言
当前,在愈发火热的大模型行业,Scaling Law 被证明依然奏效。
问题是,一旦由人类生成的高质量数据(如书籍、文章、照片、视频等)用尽,大模型训练又该如何进行?
目前,一个被寄予厚望的方法是“用大模型自己生成的数据来训练自己”。事实上,如果后代模型的训练数据也从网络中获取,就会不可避免地使用前代模型生成的数据。
然而,来自牛津大学和剑桥大学的研究团队及其合作者,却给这一设想“泼了一盆冷水”。
他们给出了这样一个结论:模型在训练中使用自身生成的内容,会出现不可逆转的缺陷,逐渐忘记真实数据分布,从而导致模型性能下降。
即“模型崩溃”(Model Collapse)。
相关研究论文以“AI models collapse when trained on recursively generated data”为题,已发表在权威科学期刊 Nature 上。
但他们也表示,用一个旧模型生成的数据去训练一个新模型,并非不可行,但必须对数据进行严格的过滤。
在一篇同期发表的新闻与观点文章中,来自杜克大学的 Emily Wenger 认为,“论文作者没有考虑模型在由其他模型生成的数据上训练时会发生什么,他们专注于模型在自身输出上训练的结果。一个模型在训练其他模型的输出时是否会崩溃还有待观察。因此,下一个挑战将是要搞清楚模型崩溃发生的机制。”
什么是模型崩溃?
图 | 受模型崩溃影响的 OPT-125m 模型的文本输出示例-模型在几代之间退化。
为何会发生?
由于样本数量有限,模型无法完全捕捉到真实数据分布的所有细节。随着时间的推移,低概率事件(即分布的尾部)会逐渐消失,因为它们被采样的概率很低。 随着模型训练代数的增加,这种误差会不断累积,导致模型最终收敛到一个与原始分布完全不同的分布,其尾部几乎为零,方差也大大减小。
神经网络等函数近似器的表达能力是有限的,无法完美地逼近任何分布。 这种误差会导致模型在逼近真实分布时产生偏差,例如,将高密度区域分配到低密度区域,或者将低密度区域分配到高密度区域。 随着模型训练代数的增加,这种误差会不断累积,导致模型最终收敛到一个与原始分布完全不同的分布,其尾部几乎为零,方差也大大减小。
学习过程的局限性,例如随机梯度下降的结构偏差或目标函数的选择,也会导致模型产生误差。 这种误差会导致模型在逼近真实分布时产生偏差,例如,过拟合密度模型导致模型错误地外推数据,并将高密度区域分配到训练集支持范围之外的低密度区域。 随着模型训练代数的增加,这种误差会不断累积,导致模型最终收敛到一个与原始分布完全不同的分布,其尾部几乎为零,方差也大大减小。
可以避免吗?
微信扫码关注该文公众号作者
来源:报人刘亚东A
相关新闻
Nature封面:AI训练AI,越训越离谱!牛津剑桥「投毒」AI失败9次登Nature封面,引爆学术圈激辩!AI训AI能否打破崩溃魔咒?MLP一夜被干掉,全新神经网络架构KAN破纪录!MIT华人一作,轻松复现Nature封面AI数学研究全新神经网络架构KAN一夜爆火!200参数顶30万,MIT华人一作,轻松复现Nature封面AI数学研究首个像人类一样思考的网络!Nature子刊:AI模拟人类感知决策完胜司美格鲁肽?Nature最新研究:带“馅儿”的Plus减肥药,GLP-1类减肥药包裹药物MK-801,有更强更持久的减肥效果Nature重磅:AI击败最先进全球洪水预警系统,提前7天预测河流洪水,每年挽救数千人生命大模型学不了推理?语言≠思维,一篇Nature让AI社区炸锅了一喝酒就脸红,易患癌还早衰?Nature子刊最新研究揭开:喝酒“上脸”与衰老加速之间的关联清华突破AI光训练芯片!成果登NatureAI并没有学习!Nature子刊最新研究解码人工智能黑盒用AI写论文会被拒收吗?《Nature》帮你总结了主流SCI出版社的观点……(附免费发文干货)ChatGPT如何「思考」?心理学和神经科学破解AI大模型,Nature发文Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿!作者0收入Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面!清华光学AI登Nature!物理神经网络,反向传播不需要了清华「天眸芯」登Nature封面:全球首款类脑互补视觉芯片GPT-4被证实具有「人类心智」登Nature!AI比人类更好察觉讽刺和暗示Nature:斯坦福最新报告显示,人工智能这些领域接近甚至超过人类!医学领域尤为迅猛“神药”停用后就反弹了!Nature最新研究发现:停用司美格鲁肽可能导致体重回升67%!GPT-4、Llama 2 比人类更懂“人类心理”?最新研究登上 Nature 子刊延寿到130岁?Nature子刊:国人团队发现,年轻血液中这种成分,是实现“返老还童”的关键Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会