Bendi新闻
>
局部余弦相似度大,全局余弦相似度一定也大吗?

局部余弦相似度大,全局余弦相似度一定也大吗?

5月前

©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 月之暗面
研究方向 | NLP、神经网络

在分析模型的参数时,有些情况下我们会将模型的所有参数当成一个整体的向量,有些情况下我们则会将不同的参数拆开来看。比如,一个 7B 大小的 LLAMA 模型所拥有的 70 亿参数量,有时候我们会将它当成“一个 70 亿维的向量”,有时候我们会按照模型的实现方式将它看成“数百个不同维度的向量”,最极端的情况下,我们也会将它看成是“七十亿个 1 维向量”
既然有不同的看待方式,那么当我们要算一些统计指标时,也就会有不同的计算方式,即局部计算和全局计算,这引出了局部计算的指标与全局计算的指标有何关联的问题。

本文我们关心两个向量的余弦相似度。如果两个大向量的维度被拆成了若干组,同一组对应的子向量余弦相似度都很大,那么两个大向量的余弦相似度是否一定就大呢?答案是否定的。特别地,这还跟著名的“辛普森悖论”有关。



问题背景
这个问题源于笔者对优化器的参数增量导致的损失函数变化量的分析。具体来说,假设优化器的更新规则是:
其中 是某个指定更新方向(的负方向)的向量。此时泰勒展开到一阶有
这里的 就是梯度 ,所以说,损失函数的变化量近似为

所以笔者想到了观察一下 的余弦相似度,即更新向量与梯度的方向一致性。

但问题来了,正如本文开头所说,模型的参数有不同的拆分方式,我们是将模型所有参数当成一个大向量来算更新向量与梯度的余弦(全局),还是每一层、每个参数单独来算(局部)?笔者两者都做了,并且对局部余弦做了截断(保证每个参数对应的更新向量与梯度的余弦大于某个正阈值),然后发现全局居然小于该阈值。初见之下感觉比较意外,于是简单分析了一番。



简单分析
现在问题抽象为:
假如两个向量的局部余弦相似度都不小于 ,那么这两个向量的全局余弦相似度一定不小于 吗?
答案大家已经知道了,是否定的。否定只需要举一个反例,假设 ,很明显 ,但是它们的子向量——也就是每个分量——都是正数,正数作为一维向量,它们的余弦相似度都是 1,所以我们就得到了一个局部余弦相似度全是 1、全局相似度小于 1 的反例。
更一般的分析,我们可以设 ,那么
如果 持大于零不动(不失一般性,可以设 ,那么可以得到 ,那就是说,不管 多大,总有一种情况可以让 无限接近于 0,即无法通过 来让 有下界。
至于上界,则可以证明:

证明其实也很简单,因为这个界很松。不失一般性假设 ,那么根据式(4)有

方括号部分,其实正好是二维向量 的余弦相似度,所以它必然不大于 1,于是有 ,这就证明了不等式(5)。

(再次强调,以上证明都是在 的假设下完成的,如果存在小于 0 的情况,则结论可能需要稍加改动。)



相关悖论
以上结果有什么更现实的对应吗?有,将它放到相关性分析中,就引申出了著名的“辛普森悖论(Simpson's paradox)”[1]
我们知道,有个衡量线性相关性的系数叫做“皮尔逊系数(Pearson Coefficient)”,定义为
再认真观察一下,如果我们记 ,那么上式不就是
所以,皮尔逊相关系数其实就是数据点减去均值之后的余弦相似度。既然有了余弦相似度,那么上一节的结果就能用过来了,直接结论就是即便两批数据都是明显的线性相关(),合起来之后也可能是线性无关的()。
而“辛普森悖论”说的更彻底一些,说的是每一批数据都是正相关,合起来不仅可能是线性无关,还可能是负相关,这是因为相关系数相比单纯的余弦相似度多了个 参数,可调的自由度更大。几何图像也非常直观,比如下图:
▲ “辛普森悖论”直观图像

上图中,蓝色数据完全在同一条直线上,而且斜率为正,所以相关系数为 1,红色数据也是如此,它们在自己的批次内都是“完全正线性相关”。但是将数据合起来后,如果非要用一条直线拟合,那么只能是虚线,而且斜率为负,即变成了负相关。这就构成了“辛普森悖论”的一个经典例子。



文章小结

本文简单讨论了高维向量的局部余弦相似度与全局余弦相似度之间的关系,并进一步讨论了与之相关的“辛普森悖论”。



参考文献

[1] https://en.wikipedia.org/wiki/Simpson%27s_paradox



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

全网狂喷!韩国新地标抄袭广州塔,相似度99%?网友:北京鸟巢也被抄过,惯犯了6.1号起! BC底薪上涨3.9%至$17.4! 大温居民幸福度却最低?你怎么确认他/她是对的人?Nature子刊研究近8万对情侣发现,相似度80%以上的人更容易成为伴侣IDC最新报告,7大维度11家大模型厂商比拼,唯一全优是谁?热度不输《甄嬛传》的古早国民剧,如今人设“大翻车”?网友:当年的真心竟然错付了大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度老年人反应迟钝是因为年纪大?也可能是脑子“进水了”2024美国移民难度大吗?EB-1A杰出人才移民如何申请?外国的消防队为啥要用火来“熄灭”山火?不会火上浇油,越烧越大吗?同一专业,在伦艺的不同学院中,差别大吗?UCLA和UCSD狂发Waitlist,转正机会大吗?机器人再度大幅进化!阿西莫夫三法则还有效吗?| 大模型一周大事疯狂!中国留学生还敢去吗?大温政府竟然批准在UBC学校内开一家大麻店!学生会还大力支持?!附近居民反对了三年都没用...你能拿出1000元应急资金吗?大多数美国人这么说你能拿出1000元应急资金吗?大多数美国人这么说……你能拿出$1000应急资金吗?大多数美国人这么说...【健康】您的血管年龄比真实年龄大吗?测试方法附上!裁员一半,AI的冲击已经这么大了吗?你应该购买电动汽车吗?关于大额折扣、税收抵免及何时购买的购买指南SSM 能取代 Transformer 搞出更「牛」的大模型吗?她算得上大美人吗?满大街的 AI 广告,是一次审美大降级吗?惨!1368家跌停,3206家跌幅超过8%,还有大招吗?这三种女人,命最苦,看看有你吗?(大实话)
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。