小模型性能直逼GPT-4?北航等提出基于强弱模型协同的ICL增强新范式
大模型的 In-context Learning(ICL)一直是比较热门的方向之一,包括探索 ICL 的内在形成原因、效果提升方案等等。近期在 arXiv 上看到了一个由北航等提出的一个非常有意思的 ICL 增强的工作《Grimoire is All You Need for Enhancing Large Language Models》。
与以往的 ICL 优化方式不同的是,这篇工作期望借助强弱模型协同的方式,去增强弱小模型在各类通用问题上的表现和效果。颇有让学习能力较差的学生直接去看好学生的“学习笔记”的意味。
论文标题:
论文地址:
下面我们细看下整篇文章的核心要点:
大语言模型可以通过零样本、少样本等 ICL 方法显著提升其在多种自然语言处理任务中的性能表现。通常而言,参数规模越大的语言模型的ICL能力往往越强。现有的 ICL 性能提升的相关研究主要集中于如何构造示例样本,即示例样本排序和示例样本选择等方面。
这篇文章不同于传统的 ICL 性能提升方法,提出了一种新的 ICL 范式,SLEICL 方法(Strong LLM Enhanced ICL):通过强语言模型总结下游任务的规律及解题技巧,即 Grimoire,并将其作为弱语言模型的提示,指导弱模型完成下游任务,对比传统的 ICL 方法,在许多任务上的结果得到了显著提升。
SLEICL增强方法
所以文章主要通过以下四种示例样本选择方法进行示例样本构造,用于提示强语言模型生成 Grimoire,尽可能的丰富初始化 Grimoire 的种类样例来源,具体样例选取方法包括:
K-means Clustering Selection (KCS) 该方法是指使用 K-means 算法对样本集的语义表示进行聚类,并选择离 K 个聚类中心最近的 n 个样本作为示例样本的;
Hierarchical Clustering Selection (HCS) 该方法采用分层聚类算法对样本集进行详细的分层聚类以选择示例样本;
Hard Samples Selection (HSS) 该方法是指选择被弱模型预测错误的样本作为示例样本;
Random Samples Selection (RSS) 随机样本选择是一种以完全随机的方式从数据集中选择示例样本的方法。
3. If no hate speech signs are found, label it as \"no hate.\""
如下图所示,从结果上来看,SLEICL 方法在五个较弱的大语言模型上相较于基准对比方法均得到了不同程度的提升,具体可观测到的有意思的结论包括:
基座模型越弱,在使用 SLEICL 方法后,模型效果提升的增益幅度越大;
从单个 Grimoire 的最优结果来看,相比 Zero-shot 的基准对照,提升幅度非常明显,较弱的如 7B/13B 等模型能够取得超过 20% 的绝对性能增量。即使相比 Few-shot 的结果,也能取得绝对值超过 10% 以上的增量;
而基于分类器的 SLEICL 方法,与 Zero-shot 提升相比,LLaMA2-13B-Chat、Baichuan2-7B-Chat 和 Phi-2 平均提高了 8%~25%。
论文小结
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者