Bendi新闻
>
我在Performer中发现了Transformer-VQ的踪迹

我在Performer中发现了Transformer-VQ的踪迹

5月前
©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 月之暗面
研究方向 | NLP、神经网络


前些天我们在《VQ一下Key,Transformer的复杂度就变成线性了》介绍了“Transformer-VQ”,这是通过将 Key 序列做 VQ(Vector Quantize)变换来实现 Attention 复杂度线性化的方案。


诚然,Transformer-VQ 提供了标准 Attention 到线性 Attentino 的一个非常漂亮的过渡,给人一种“大道至简”的美感,但熟悉 VQ 的读者应该能感觉到,当编码表大小或者模型参数量进一步增加时,VQ 很可能会成为效果提升的瓶颈,因为它通过 STE(Straight-Through Estimator)估计的梯度大概率是次优的(FSQ 的实验结果也算是提供了一些佐证)。


此外,Transformer-VQ 为了使训练效率也线性化所做的梯度截断,也可能成为将来的效果瓶颈之一。
为此,笔者花了一些时间思考可以替代掉 VQ 的线性化思路。从 Transformer-VQ 式中,笔者联想到了 Performer,继而“顺藤摸瓜”地发现原来 Performer 可以视为 Soft 版的 Transformer-VQ。进一步地,笔者尝试类比 Performer 的推导方法来重新导出 Transformer-VQ,为其后的优化提供一些参考结果。


前情回顾

首先,让我们花一些时间回顾一下 Transformer-VQ。设 ,Transformer-VQ 的关键,是对 做了如下 VQ 近似:
这里 是矩阵,其中 是可训练的参数, 则定义为:
说白了,VQ 就是用与 最相近的那个 来近似 。在这个近似之下,我们有(简单起见,以 Encoder 为例)
了解线性 Attention 的读者很容易认出来,最后一个式子的运算就是线性复杂度的,它就是本文的主角之一 Transformer-VQ(的分子,还有分母同理)。

没有很复杂的推导,线性 Attention 就出来了,这就给我们一种感觉,仿佛我们是在对 Key 做近似的“不经意间”就将 Attention 的复杂度降为了线性,美感十足。因此,再次回到了我们已经提过多次的评价——Transformer-VQ 提供了标准 Attention 到线性 Attentino 的一个非常漂亮的过渡。



似曾相识
Transformer-VQ 的 让笔者联想到了之前的文章《Transformer升级之路:从Performer到线性Attention》。在那篇文章中,笔者对 Performer 的结果做了一些简化,然后断言线性 Attention 的 的最佳激活函数是 ,而 Transformer-VQ 同样出现了 ,所以它们之间也许有着某种相关性。
为了挖掘这种联系,让我们请出 Performer,它基于一个漂亮的近似:

由于最后还要对所有 的注意力归一化,所以去掉上式中的 都不会影响最终结果,同时,如果假设 的模长都相等(参考 JL 引理),那么 的指数都减去 也不会影响结果。于是,Performer 等价于用以下的格式做
对比最后一个式子和(3),就会发现它们有诸多相似之处: 不就相当于编码表 不就相当 至于最后的 ,它 logits 做 softmax,突出的不就是与 最相近的那个 ?而 softmax 的极限就是 one hot,所以这不正好对应着 Transformer-VQ 的 矩阵?因此,这不能说一模一样,但也有六七分相似了。


依样葫芦
当然,上述结果更多的是一种形象的类比而不是等价性,因为Performer本质上基于完全不同的近似思路,比如它里边的 是随机采样并固定下来的,这意味它们作为中心向量的近似程度其实是很差的。
但这种类似引发了一个思考:能否模仿 Performer 的思路来重新推导一遍 Transformer-VQ 呢?即像式(4)一样,先构造一个精确相等的结果,然后再转化为采样近似来得到线性版本。
经过几天的思考,笔者发现了一种可以构造出期望推导的方案。首先,我们借助狄拉克函数 [1] 写出
这是纯粹有狄拉克函数的定义给出的恒等式,还没涉及到任何精巧的运算或者近似。然而,当我们将它代入 Attention(的分子)时,出现了一些有意思的结果:

最后一个等号,不就正好是线性 Attention 的形式?!当然,由于需要对 积分,所以上式跟《Transformer升级之路:5、作为无限维的线性Attention》[2] 一样,都是“无限维”的线性 Attention,暂时只有形式上的价值。
通常来说,我们会将 理解为正态分布 的极限,这也意味着 具有条件分布 的意义。不过,从生成模型的角度来看,狄拉克函数就是单点分布,说白了就是把训练集背下来,所以它没有抽象和泛化能力。为了缓解这一点,我们将 用 GMM [3](Gaussian Mixture Model,高斯混合模型)来近似:
代入式(7),然后取 的极限,我们就得到
这就得到一个有限维的线性 Attention。如果将 对齐 Transformer-VQ 的 one hot 分布 的定义,那么得到的结果就是 Transformer-VQ 的式(3)。


文章小结

本文介绍了笔者的一个发现:早期的线性 Attention 工作 “Peformer” 可以视为一个 “Soft” 版的 Transformer-VQ。然后,在这个观察上进一步得到了 Transformer-VQ 的一个新推导:利用狄拉克函数将标准 Attention 转化为无限维线性 Attention,然后加上 GMM 近似就可以得到 Transformer-VQ。



参考文献

[1] https://kexue.fm/archives/1870

[2] https://kexue.fm/archives/8601

[3] https://en.wikipedia.org/wiki/Mixture_model



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

我在江边散步,发现了钓鱼佬的秘密基地用了一个简单的方法,我在港股2个月赚了50万把自己投入到更广阔的不确定之中 — 我在中企海外岗“我在国家部委当处长的同学辞职了”我在丰田章男身上看到了乔布斯的影子又到了一年一度需要跟亲戚解释“我在美国不是读野鸡大学”的时候了....一个藤校生的24小时:“没有鸡血似的负荷,我在混乱中忙碌”我在百度大模型应用升级里,找到了企业增收提效的最佳路径重生之我在霸总短剧里当保姆:反套路的“王妈”火了!寻访历史的踪迹,土耳其寻访古迹系列!“消费降级”进行中,我在B站补课!刷完TOP100,寒假鸡娃资源瞬间有了!哈佛毕业的我在富人区做家教,看到上流阶层的鸡娃真相五一长假,我在宁波,发现2个宝藏护照换了,我在新加坡的准证要重新申请吗?我在埃森哲的日子:你大爷还是你大爷!我在台湾最大的催收公司工作的那八年| 故事FM神仙网站!封面款原价110刀的阿迪,我在这儿$36拿下!我在新疆实现了牛奶和奶茶自由“别走啊,我在努力学了!”亲述:我在加拿大荒无人烟的木屋独居 自给自足生娃育儿我在非洲洪灾中极限自救:中国女孩树上苦撑12小时|故事FM老师我现在研三,导师散养,我在写毕业用的SCI,可完全没思路,有什么可以提高写作的吗?我在森林办公室的上班搭子江诗丹顿凭什么打造“史上最复杂表”?我在日内瓦,寻找真正的“阁楼工匠”
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。