Bendi新闻
>
​Transformer是推断还是记忆?初始化大小很重要

​Transformer是推断还是记忆?初始化大小很重要

7月前
©作者 | 张众望,许志钦,GPT-4o(负责幽默部分)
单位 | 上海交大深度学习基础理论团队

Transformer 架构在当前大语言模型中的地位,堪比麦当劳里的牛肉饼——谁不爱呢?这位“全能选手”能解数学题、写诗作赋,简直是 AI 界的“跨界网红”。不过,要揭开它才华横溢的秘密,可比哄孩子吃饭还费劲。


直接研究真实的大语言模型,难度堪比在菜市场里向大妈们讲解狭义相对论——你会被讨价还价的嘈杂声淹没。所以,咱们换个思路,采用“锚点-关键项”这招“偷天换日”,既省时又高效。接下来,让我们一探 Transformer 学习复合函数的究竟:它是靠推理,还是单纯拼记忆?


假设我们有四种基本运算,它们可以组合出 16 种“变身形态”(16 种复合运算)。如果我们只拿其中 15 种训练模型,你猜:它能掌握剩下那个“遗珠”吗?

答案是肯定的!


我们给模型输入一个 Token 序列,其中有一对从 {1, 2, 3, 4} 中选出的“天选锚点”,每个代表一种加减法运算。还有一个从 20 到 100 中挑选的“关键项”,它在经过“天选锚点”的洗礼后,幻化成序列的目标值。我们令四个锚点分别代表 “+5”、“+1”、“-2”、“-8” 四种魔法。举个栗子,如果关键项是 80,锚点是(1, 2),那目标值就是(80+5)+1=86。


如果我们只用 15 个锚点组合训练,模型竟然能掌握第 16 个的套路。这就像隔着手机屏幕学会做大餐,是不是很酷?那模型到底是怎么做到的呢?为了方便讨论,我们就假设缺席训练的是(4, 3)这对“神仙眷侣”。


其实,模型的学习机制有两种可能。一是走“福尔摩斯”路线,通过演绎推理出每个单锚点的能力,再将 “4”、“3” 的技能组合,找到推理解,破解(4, 3)的奥秘。二是走“复制粘贴”路线,发现(a, b)和(b, a)这两类锚点组合的效果一样(因为加减法可交换嘛),于是把(3, 4)的规律“拿来主义”,安到(4, 3)头上,找到对称解。Transformer 究竟更爱哪一套呢?

破案的方法很简单,我们把(3, 4)的效果从 “-10” 改成“-6”,看(4, 3)是否也跟着变。如果(4, 3)的结果仍是 “-10”,说明模型是靠推理;如果变成了 “-6”,就说明模型其实在背公式。


实验发现,以默认初始化为分水岭,大的初始化推动模型多用背诵,学到对称解,小的初始化则有利于推理。这就像健身房的两类人,一类死记硬背每个动作,一类则掌握基本原理,灵活运用。

这其实与模型复杂度有关。对于推断机制,模型仅需要记住 4 种单 anchor 运算,而对于记忆机制,模型需要学习所有非对称关系的运算规律(如(1,1),(1,2)(1,3),(1,2),(2,2)等共 10 种)。因此学习推断机制所需要的模型复杂度更低。对于小初始化,模型初始复杂度低,模型参数会 发生凝聚现象。简单来说,就是同层的神经元会趋同。例如 矩阵的列,在小初始化时,有明显地相似度(低秩),但大初始化下并没有这种现象。

训练开始时,参数聚集在少数方向,随着训练深入,聚集的方向逐渐增多,模型复杂度水涨船高。当模型发现学 4 种映射就够拟合训练集,学习就停止了,所以它更爱简单的推理解。而在大初始化下,复杂度够高,模型很快记住其中的对称性。如果初始化再大一点,它干脆把每个输入序列到输出的映射都记住,反而学不到算术规律,连见过的锚点组合都不能保证完美复现。


通过这项研究,我们发现,Transformer 模型的初始化大小决定了它是像福尔摩斯一样通过推理解谜,还是像我奶奶一样通过记忆菜谱来做饭。小初始化让模型像侦探一样,只需要记住几个关键的线索(运算规则),就能推理出所有结果。而大初始化则像孙悟空,把所有知识吃下去的方式记下来。


展望未来,科学家们可能会像调配宇宙飞船的发动机一样,精确调节 Transformer 的初始化参数,以便它们在各种复杂任务中都能表现出色。想象一下,将来有一天,Transformer 不仅可以帮你证定理、写论文,还能帮你规划度假行程,甚至给你家的猫咪制定健身计划。


不过,要实现这些目标,我们还需要深入探讨不同初始化对模型复杂度和泛化能力的影响,就像农民研究如何让奶牛在听音乐时产奶更多一样。这不仅需要大量实验,还需要一点点运气和许多好奇心。


参考文献

[1] Zhongwang Zhang, Pengxiao Lin, Zhiwei Wang, Yaoyu Zhang, Zhi-Qin John Xu*, Initialization is Critical to Whether Transformers Fit Composite Functions by Inference or Memorizing, arxiv 2405.05409 (2024)
[2] Zhongwang Zhang#, Zhiwei Wang#, Junjie Yao, Zhangchen Zhou, Xiaolong Li, Weinan E, Zhi-Qin John Xu*, Anchor function: a type of benchmark functions for studying language models, arxiv 2401.08309 (2024)



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

成功是努力重要,还是运气重要?“是个人利益重要,还是国家利益重要?”⾎栓和斑块是一样的吗?区分清楚很重要200斤的日本顶流女星,如今暴瘦到认不出​:这是换头还是换脸了?​关税再次增加,美国亲手让中国制造不再划算,是自我进化还是自我灭亡?为什么阅读很重要?-- 埃隆·马斯克年轻时读了这些书!为什么说向美国政府申请查档(FOIA),在移民申请中很重要?乌军突入库尔斯克,俄军面临的最大问题是什么?​[日签] ​若非现在,待何时?若非是我,能是谁?​10家7空?​到处都是东北人:就是东北没有人​仇恨​?​偏见?教育的底线是什么​?OpenAI前首席科学家再创业,重要启示是什么?冯仑:为什么民营企业的家族财富很难传承?​BC房主后院变菜地?做好这些很重要俄军增援库尔斯克州,半路遭遇乌军精准袭击!是如何泄密的?​​政治化奥运会?没用!仅用19天,建成全球最强AI超级集群,但马斯克更重要的事情是什么?新鲜蔬菜比冷冻或罐装蔬菜更营养?​烹饪方法才重要【健康】新鲜蔬菜比冷冻或罐装蔬菜更营养?​烹饪方法才重要黄仁勋扔出的算力核弹​是堆叠吗?马斯克开源的大模型Grok才是全球最大吗?a16z分析:测试发布为何对游戏很重要,怎么做最好?继阿黛尔后,又一顶流天后暴瘦换头​惊艳全网:​这是同一个人?​什么是英美法系?英语启蒙,孩子培养阅读习惯很重要,家长却没空陪?
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。