Bendi新闻
>
小模型性能直逼GPT-4?北航等提出基于强弱模型协同的ICL增强新范式

小模型性能直逼GPT-4?北航等提出基于强弱模型协同的ICL增强新范式

11月前


大模型的 In-context Learning(ICL)一直是比较热门的方向之一,包括探索 ICL 的内在形成原因、效果提升方案等等。近期在 arXiv 上看到了一个由北航等提出的一个非常有意思的 ICL 增强的工作《Grimoire is All You Need for Enhancing Large Language Models》。


与以往的 ICL 优化方式不同的是,这篇工作期望借助强弱模型协同的方式,去增强弱小模型在各类通用问题上的表现和效果。颇有让学习能力较差的学生直接去看好学生的“学习笔记”的意味。


论文标题:

Grimoire is All You Need for Enhancing Large Language Models

论文地址:

https://arxiv.org/pdf/2401.03385.pdf


下面我们细看下整篇文章的核心要点:


大语言模型可以通过零样本、少样本等 ICL 方法显著提升其在多种自然语言处理任务中的性能表现。通常而言,参数规模越大的语言模型的ICL能力往往越强。现有的 ICL 性能提升的相关研究主要集中于如何构造示例样本,即示例样本排序和示例样本选择等方面。


这篇文章不同于传统的 ICL 性能提升方法,提出了一种新的 ICL 范式,SLEICL 方法(Strong LLM Enhanced ICL):通过强语言模型总结下游任务的规律及解题技巧,即 Grimoire,并将其作为弱语言模型的提示,指导弱模型完成下游任务,对比传统的 ICL 方法,在许多任务上的结果得到了显著提升。



SLEICL增强方法


如下图所示,为 SLEICL 方法的完整流程图。整体而言包含三个步骤:1)代表性样例选取;2)基础候选 Grimoire 生成;3)Grimoire 有效性排序。

PART 1. 代表性示例样本选取。为了让强模型总结得到的 Grimoire 具有更好的代表性和有效性,需要针对提高的候选样例进行挖掘,筛选出更能代表和解决当前问题所蕴含的解题策略的样本集合。同时,考虑到不同的任务所包含的示例样本具有较大的差异性,因此很难使用某种统一的范式选取具有代表性的样本。

所以文章主要通过以下四种示例样本选择方法进行示例样本构造,用于提示强语言模型生成 Grimoire,尽可能的丰富初始化 Grimoire 的种类样例来源,具体样例选取方法包括: 

  • K-means Clustering Selection (KCS) 该方法是指使用 K-means 算法对样本集的语义表示进行聚类,并选择离 K 个聚类中心最近的 n 个样本作为示例样本的;

  • Hierarchical Clustering Selection (HCS) 该方法采用分层聚类算法对样本集进行详细的分层聚类以选择示例样本;

  • Hard Samples Selection (HSS) 该方法是指选择被弱模型预测错误的样本作为示例样本;

  • Random Samples Selection (RSS) 随机样本选择是一种以完全随机的方式从数据集中选择示例样本的方法。 

PART 2. Grimoire 生成:当完成了初步的代表性样例选取之后,文章设计了两种 Grimoire 生成范式,即:Profound Grimoire (PG)  以及 Simple Grimoire (SG)  ,以适应不同参数规模的大语言模型的 ICL 能力。

作者认为:即使是弱模型,不同参数规模的弱模型之间也存在较大的性能差异,因此需要考虑设计两种典型不同复杂度的 Grimoire 来匹配下游弱模型的学习需求。所以,作者设计了如下图所示的生成范式:


首先基于选择的样例生成一个非常详尽描述解题思路或秘诀的 Grimoire,即 Profound Grimoire (PG) ,然后将 PG 二次传递给强大模型,让强大模型进行缩减和优化,生成更加简洁、明了的 Grimoire,即 Simple Grimoire (SG) ,通过这样两种次序生成的方式,获取不同复杂度的 Grimoire 结果。 

以下是一个仇恨言论检测任务的 Simple Grimoire 示例结果: 

Below are some skills needed to solve the task; you need to carefully learn and consider the process and methods step by step: 
1. Look for slurs or derogatory language aimed at a group's identity (race, gender, etc.). 
2. Check if the sentence encourages hostility, discrimination, or violence against a group. 

3. If no hate speech signs are found, label it as \"no hate.\""


从上面的示例可以看到,生成的 Grimoire 结果基本上都能概括解决当前问题所需注意的事项以及一些必要的解决思路或者方案。

PART 3. Grimoire 排序。通过上面的步骤一和步骤二,针对特定任务将获取得到 12 个候选 Grimoire。在实际的应用过程中,通常只有某一个 Grimoire 能够使得特定的弱模型获得最优的结果。因此,作者还设计了基于相似度的方法和基于分类器的方法对用于该任务的所有 Grimoire 进行排序,从而选择得分最高的 Grimoire 作为下游弱模型的提示。

其中,基于相似度的方法是通过计算测试问题和 Grimoire 之间的相似度,以选择相似度最高的 Grimoire:



而基于分类器的方法是通过训练了一个神经网络模型,综合考虑了测试问题和 Grimoire 之间的相似性、以及任务类型和大语言模型的参数规模等用于选择最合适的 Grimoire。具体模型结构如下图所示:



实验结果讨论
为了评估模型的有效性,作者在一组主流的自然语言处理任务的数据集上,测试了包括情感分类任务、主题分类任务、自然语言推断任务和仇恨言论检测任务,评测了以下 6 个大模型(其中,GPT4-1106-preview 是作为强模型生成 Grimoire)。


测试模型包括:


如下图所示,从结果上来看,SLEICL 方法在五个较弱的大语言模型上相较于基准对比方法均得到了不同程度的提升,具体可观测到的有意思的结论包括:

  • 基座模型越弱,在使用 SLEICL 方法后,模型效果提升的增益幅度越大;

  • 从单个 Grimoire 的最优结果来看,相比 Zero-shot 的基准对照,提升幅度非常明显,较弱的如 7B/13B 等模型能够取得超过 20% 的绝对性能增量。即使相比 Few-shot 的结果,也能取得绝对值超过 10% 以上的增量;

  • 而基于分类器的 SLEICL 方法,与 Zero-shot 提升相比,LLaMA2-13B-Chat、Baichuan2-7B-Chat 和 Phi-2 平均提高了 8%~25%。



除此之外,作者还分析了部分模型基于 Grimoire 后的性能与 GPT4 的最优模型 GPT4-1106-preview 的对比结果。如下图所示,从对照效果上来看,多个小模型在经过 Grimoire 增强后,甚至能够取得超过 GPT4-1106-preview 的模型 Zero-shot 的结果。


从结果上来看,这篇文章提出的 SLEICL 方法可以显著提高不同规模的弱语言模型在各类任务上的性能,同时越小的模型表现出更加显著的改进。然而,文章中基于分类的方法虽然相比于零样本和少样本提示方法有较大增益,但并没有超过单个 Grimoire 的表现,因此仍然具有进一步优化的潜力,如果能够得到一致性排序能力更强的 Ranking 模型,该方法将有更大的延展空间。


论文小结

文章讨论了一种新的 ICL 增强的范式 SLEICL,即利用强模型的 ICL 能力对样例进行学习、总结和表达,并将学习结果传输给弱模型,从而降低弱模型直接进行样例学习所带来的难度,最终提高弱模型在任务上的表现效果。这类学习范式也比较符合类似“教科书”“学习经验小结”之类的思路,比较有意思。最后附上相关的代码和 Paper,感兴趣的读者可以进一步详细探索。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

ICML 2024 | 量化大模型退化严重?ETH北航字节推出LoRA新范式量化大模型退化严重?ETH北航字节推出LoRA新范式 | ICML 2024三个Agent顶个GPT-4,基于开源小模型的那种|中大阿里联合出品无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体港大和字节提出Groma:多模态大模型新范式!模拟人类先感知后认知,精确定位图中物体!深度探索大模型时代的软件架构最佳范式,攻略就绪、就等你来|ArchSummitGPT-4现场被端侧小模型“暴打”,商汤日日新5.0:全面对标GPT-4 TurboOCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTAICML 2024 | 川大提出外部引导的深度聚类新范式,大幅提升CLIP图像聚类性能小模型时代来了?微软最小参数AI模型发布,性能逼近 GPT-3.5小模型时代来了?微软推出其最小参数 AI 模型,性能逼近 GPT-3.5扩散模型也能推荐短视频!港大腾讯提出新范式DiffMM一秒侦破大模型“高分低能”:贾佳亚团队联手剑桥清华等共推评测新范式无需人类或GPT-4打标签!南大&旷视研究院无监督范式大幅降低视觉大模型对齐成本北京大学:利用好不确定性,8B小模型也能超越GPT-4超越思维链:大型语言模型的X链范式综述ECCV 2024 | 南洋理工三维数字人生成新范式:结构扩散模型超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像,中科大哈工大度小满出品小模型正在成为AI界的新宠CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型专访面壁曾国洋:踩过 1000 次大模型的坑后 ,造一个性能小钢炮南大周志华团队8年力作!「学件」系统解决机器学习复用难题,「模型融合」涌现科研新范式斯坦福团队开发生成式AI模型,设计易于合成的新抗生素分子对抗「超级细菌」
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。