Bendi新闻
>
我在Performer中发现了Transformer-VQ的踪迹

我在Performer中发现了Transformer-VQ的踪迹

1年前
©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 月之暗面
研究方向 | NLP、神经网络


前些天我们在《VQ一下Key,Transformer的复杂度就变成线性了》介绍了“Transformer-VQ”,这是通过将 Key 序列做 VQ(Vector Quantize)变换来实现 Attention 复杂度线性化的方案。


诚然,Transformer-VQ 提供了标准 Attention 到线性 Attentino 的一个非常漂亮的过渡,给人一种“大道至简”的美感,但熟悉 VQ 的读者应该能感觉到,当编码表大小或者模型参数量进一步增加时,VQ 很可能会成为效果提升的瓶颈,因为它通过 STE(Straight-Through Estimator)估计的梯度大概率是次优的(FSQ 的实验结果也算是提供了一些佐证)。


此外,Transformer-VQ 为了使训练效率也线性化所做的梯度截断,也可能成为将来的效果瓶颈之一。
为此,笔者花了一些时间思考可以替代掉 VQ 的线性化思路。从 Transformer-VQ 式中,笔者联想到了 Performer,继而“顺藤摸瓜”地发现原来 Performer 可以视为 Soft 版的 Transformer-VQ。进一步地,笔者尝试类比 Performer 的推导方法来重新导出 Transformer-VQ,为其后的优化提供一些参考结果。


前情回顾

首先,让我们花一些时间回顾一下 Transformer-VQ。设 ,Transformer-VQ 的关键,是对 做了如下 VQ 近似:
这里 是矩阵,其中 是可训练的参数, 则定义为:
说白了,VQ 就是用与 最相近的那个 来近似 。在这个近似之下,我们有(简单起见,以 Encoder 为例)
了解线性 Attention 的读者很容易认出来,最后一个式子的运算就是线性复杂度的,它就是本文的主角之一 Transformer-VQ(的分子,还有分母同理)。

没有很复杂的推导,线性 Attention 就出来了,这就给我们一种感觉,仿佛我们是在对 Key 做近似的“不经意间”就将 Attention 的复杂度降为了线性,美感十足。因此,再次回到了我们已经提过多次的评价——Transformer-VQ 提供了标准 Attention 到线性 Attentino 的一个非常漂亮的过渡。



似曾相识
Transformer-VQ 的 让笔者联想到了之前的文章《Transformer升级之路:从Performer到线性Attention》。在那篇文章中,笔者对 Performer 的结果做了一些简化,然后断言线性 Attention 的 的最佳激活函数是 ,而 Transformer-VQ 同样出现了 ,所以它们之间也许有着某种相关性。
为了挖掘这种联系,让我们请出 Performer,它基于一个漂亮的近似:

由于最后还要对所有 的注意力归一化,所以去掉上式中的 都不会影响最终结果,同时,如果假设 的模长都相等(参考 JL 引理),那么 的指数都减去 也不会影响结果。于是,Performer 等价于用以下的格式做
对比最后一个式子和(3),就会发现它们有诸多相似之处: 不就相当于编码表 不就相当 至于最后的 ,它 logits 做 softmax,突出的不就是与 最相近的那个 ?而 softmax 的极限就是 one hot,所以这不正好对应着 Transformer-VQ 的 矩阵?因此,这不能说一模一样,但也有六七分相似了。


依样葫芦
当然,上述结果更多的是一种形象的类比而不是等价性,因为Performer本质上基于完全不同的近似思路,比如它里边的 是随机采样并固定下来的,这意味它们作为中心向量的近似程度其实是很差的。
但这种类似引发了一个思考:能否模仿 Performer 的思路来重新推导一遍 Transformer-VQ 呢?即像式(4)一样,先构造一个精确相等的结果,然后再转化为采样近似来得到线性版本。
经过几天的思考,笔者发现了一种可以构造出期望推导的方案。首先,我们借助狄拉克函数 [1] 写出
这是纯粹有狄拉克函数的定义给出的恒等式,还没涉及到任何精巧的运算或者近似。然而,当我们将它代入 Attention(的分子)时,出现了一些有意思的结果:

最后一个等号,不就正好是线性 Attention 的形式?!当然,由于需要对 积分,所以上式跟《Transformer升级之路:5、作为无限维的线性Attention》[2] 一样,都是“无限维”的线性 Attention,暂时只有形式上的价值。
通常来说,我们会将 理解为正态分布 的极限,这也意味着 具有条件分布 的意义。不过,从生成模型的角度来看,狄拉克函数就是单点分布,说白了就是把训练集背下来,所以它没有抽象和泛化能力。为了缓解这一点,我们将 用 GMM [3](Gaussian Mixture Model,高斯混合模型)来近似:
代入式(7),然后取 的极限,我们就得到
这就得到一个有限维的线性 Attention。如果将 对齐 Transformer-VQ 的 one hot 分布 的定义,那么得到的结果就是 Transformer-VQ 的式(3)。


文章小结

本文介绍了笔者的一个发现:早期的线性 Attention 工作 “Peformer” 可以视为一个 “Soft” 版的 Transformer-VQ。然后,在这个观察上进一步得到了 Transformer-VQ 的一个新推导:利用狄拉克函数将标准 Attention 转化为无限维线性 Attention,然后加上 GMM 近似就可以得到 Transformer-VQ。



参考文献

[1] https://kexue.fm/archives/1870

[2] https://kexue.fm/archives/8601

[3] https://en.wikipedia.org/wiki/Mixture_model



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

我在江边散步,发现了钓鱼佬的秘密基地关于爱情,我在咨询室里发现的6个真相用了一个简单的方法,我在港股2个月赚了50万把自己投入到更广阔的不确定之中 — 我在中企海外岗波士顿大学录取|ZOOMiN让我在思考中进步,成为想成为的人“我在国家部委当处长的同学辞职了”我在丰田章男身上看到了乔布斯的影子我在「宇宙第一」的斯坦福学计算机,发现学神们都在造火箭我在现实里找到了会“抢答”的AI搜索又到了一年一度需要跟亲戚解释“我在美国不是读野鸡大学”的时候了....一个藤校生的24小时:“没有鸡血似的负荷,我在混乱中忙碌”我在百度大模型应用升级里,找到了企业增收提效的最佳路径重生之我在霸总短剧里当保姆:反套路的“王妈”火了!南国的人们,在语言、记忆和图像里寻找家的踪迹寻访历史的踪迹,土耳其寻访古迹系列!“消费降级”进行中,我在B站补课!刷完TOP100,寒假鸡娃资源瞬间有了!哈佛毕业的我在富人区做家教,看到上流阶层的鸡娃真相五一长假,我在宁波,发现2个宝藏护照换了,我在新加坡的准证要重新申请吗?我在巴黎挖到的法国小众品牌,总统名媛本地人都爱用!我在三十岁的最后一年快看快看!我在角落滴了2滴,蟑螂“集体自杀”了!我在埃森哲的日子:你大爷还是你大爷!我在台湾最大的催收公司工作的那八年| 故事FM
logo
联系我们隐私协议©2025 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。