ACL 2024 | SMU、NUS提出参数高效微调增强剂,显著提升大语言模型性能
©PaperWeekly 原创 · 作者 | Zhihao Wen
单位 | 新加坡管理大学、新加坡国立大学
研究方向 | 大语言模型的参数高效微调
论文地址:
代码链接:
简介
基于 Transformer 架构的大型语言模型的深度(例如,BERT-large 有 24 层,LLaMA-7B 有 32 层,LLaMA 65B 有 80 层)导致了过平滑(Over-smoothing)问题,影响性能和可扩展性,而全模型微调需要大量资源。为解决这些问题,参数高效微调技术 PEFT(如 Adapter 和 LoRA)被提出,但没有解决过平滑。
本文由来自新加坡管理大学和新加坡国立大学的作者提出了 SIBO,一种简单增强参数高效微调(PEFT)的方法,用于改进大型语言模型。SIBO 通过在 PEFT 模块的输入中注入初始残差,减少了 Transformer 模型中的过平滑问题。实验表明,SIBO 在多种基准测试上显著提升了 Adapter 和 LoRA 等 PEFT 技术的性能。
前言
在讲我们的方法之前, 先介绍两种流行的 PEFT 技术:适配器和基于重参数化的方法。适配器分为并行和串行,本文关注经典串行适配器 (Adapter),它通过下投影和上投影操作添加学习模块。基于重参数化的方法,如 LoRA,使用低秩策略修改网络权重,减少参数数量而不影响性能。
方法
源于图神经网络的术语过平滑(Over-smoothing)指的是由于在连续的聚合层中重复使用相同的邻接矩阵,导致节点表示的同质性增加,从而导致性能下降。
虽然前人已经提出了几种策略来缓解过度平滑,但它们并不是为 PEFT 技术设计的,因此在大型语言模型中不太实用。特别是,我们还通过定量分析观察到在广泛采用的 PEFT 技术(包括 Adapters 和 LoRA)中,尤其是在深层中,也存在过度平滑现象。
▲ Over-smoothing in PEFT. The results are the averaged token-wise similarity of sentences in the test sets of the corpora in the GLUE benchmark (Wang et al., 2018), with BERT-large as the backbone.
3.2 Initial residual integration
为了实现 PEFT(参数高效微调)的通用即插即用增强,我们从 PEFT 模块的输入开始,在预训练模型的每一层的输入中注入一个初始残差。
▲ Proposed framework SIBO, applying to two popular PEFT methods: (a) Adapter, and (b) LoRA.
Adapter-SIBO
实验
▲ 不同 PEFT 方法在算术推理任务中 LLMs 的表现,使用 GPT-3.5 的零样本 CoT 作为参考点。∗ 表示结果来自先前工作,我们采用了完全相同的实验设置和评估。改进是相对于没有 SIBO 的对应方法计算的。
▲ GPT-J(6B)在常识推理任务中使用不同 PEFT 方法的表现。∗ 表示结果来自先前的工作,其中采用了完全相同的实验设置和评估。
本文提出了 SIBO,一种简单增强参数高效微调(PEFT)的方法,用于改进大型语言模型。SIBO 通过在 PEFT 模块的输入中注入初始残差,减少了 Transformer 模型中的过平滑(Over-smoothing)问题,从而提高下游任务的性能。实验表明,SIBO 在多种基准测试上显著提升了 Adapter 和 LoRA 等 PEFT 技术的性能。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者