爱丁堡大学出新招，大小语言模型配合节约成本！

国际科技财经移民娱乐民生时事体育

Bendi新闻

科技

内容产业

8月前

夕小瑶科技说原创
作者 | 墨墨
在大语言模型的应用中，往往面临着成本和性能权衡的问题。

一方面，大型LLM的参数量极大（如70B），每次调用都可能带来更多的成本，而小型LLM（如7B）的成本则更容易被接受。

另一方面，更大的参数量明显带来了更好的性能。

鱼与熊掌真的不可得兼吗？

爱丁堡大学的研究者带来了全新的大小模型协同方案，不需要额外训练任何辅助模型，即可取得非常优秀的效果！

实验表明，在27个实验设置中，这一方法可以其中25个优于现有主流协同方法。

让我们来看看他们的思路吧~

论文标题
Optimising Calls to Large Language Models with Uncertainty Based Two-Tier Selection

论文链接
https://arxiv.org/pdf/2405.02134.pdf

现有主流方法介绍

首先，研究者介绍了现有大小模型协同方案的两种主流思路。

假设我们有两个LLM，其中大型LLM比小型LLM更昂贵，但性能更好。为了让它们协同工作，方案包括：

（1）路由（Routing）（下图左）：通过用户传入的查询，来选择最合适的LLM（即权衡成本与性能）。

（2）级联（Cascading）（下图右）：先让小模型根据用户的查询生成结果，随后通过查询和小型LLM的结果，来选择是否调用大型LLM。

而研究者认为，使用额外的辅助模型来进行这些判断（上图蓝框），增加了这些方案的复杂性。并且，辅助模型不仅需要额外的训练，而且通常还需要特定的训练数据，可能无法推广到其他任务。

那么，抛开辅助模型，有什么其他方法呢？

研究者决定使用级联的方式，并从小型LLM生成结果的过程中，提取置信度度量。这样，判断小型模型的生成结果是否可信不再需要辅助模型，而是通过小型LLM的简单置信度来决定是否需要进一步调用大模型。

大小模型协同的问题定义

首先，我们要来定义需要解决的问题。

定义小型LLM调用的平均成本为：

其中，表示第个查询在小型LLM上的成本，而表示查询总数量。

同理，我们可以得到大型LLM调用的平均成本为：

显然可得

级联与路由的具体方法

定义问题之后，作者列举了目前主流的一些大小模型协同方法。

(1) 路由

对于路由方案，成本可以被定义为如下公式，其中是在路由中调用大型LLM的概率。

由此，我们可以展开说明一些主流方案：

（1-1）随机路由（Random routing）：指对于每个传入的查询，以概率随机调用大型LLM。此方法用于作为所有方法的参照指标。

（1-2）路由（Routing，Sakota et al., 2023; Lu et al., 2023）：训练一个辅助模型，在给定查询的情况下预测小型LLM的性能，判断是否需要调用大型LLM。

（1-3）HybridLLM（Ding et al., 2024）：训练一个辅助模型，预测小型LLM是否比大型LLM能更好的解决传入的查询。

上述提到的辅助模型，最终判断的相关阈值都与相关。

（2）级联

对于级联方案，成本可以被定义为如下公式，其中是在级联中调用大型LLM的概率。

（2-1）FrugalGPT（Chen et al., 2023）：训练一个辅助模型，根据给定的用户查询和小型LLM生成的候选答案，预测后者是否正确。

（2-2）Margin Sampling（我们的方法）：根据小型LLM输出的不确定性，即margin，定义为：

其中和分别是第一和第二最可能的token，根据第一个预测出的token的概率分布，得到两个token之间的概率之差，可以被理解为小型LLM生成该token的确定程度（置信度）。

值得注意的是，上述所有方法都需要设置决策标准的阈值，我们在这项工作中选择动态阈值。

初始阈值是使用前 10 个查询计算的，通过获取辅助模型的输出，或者 Margin Sampling 的margin值，确定初始的或数值。在后续的查询中，继续使用辅助模型做出是否调用大型 LLM 的决定，并根据所有过去的查询动态更新阈值。

实验结果与讨论

介绍了包含路由和级联两种思路的上述5种方法后，我们需要通过实验来确认它们的效果。

首先，我们研究了3对大型和小型的LLM，它们分别是：

Mistral 7B 和 Mixtral 8x7B
Llama-2 13B 和 Llama-2 70B
GPT-3 和 GPT-4

对于开源系列的模型（Mistral和Llama-2），我们的所有实验均在 4-bit 量化后，在一张 NVIDIA A100 GPU (80 GB) 中完成。

而在测试数据集方面，我们选取了分类任务（情感分类ISEAR，事实核查FEVER，情感分析RT-Polarity/CR/SST-2），多项选择任务（世界常识Openbook）和 QA任务（人类真实问题NaturalQuestions，含知识库的百科问答Wikifact，语言理解和推理bAbI）

基于上述这些数据集，我们在上表中实验了3对大小模型。为了引入成本因素，我们将报告准确率的AUC，并将其除以。同时，我们的结果假设了一个简单的成本方案 ,这点与商业API的价格和其他成本方面的工作保持一致。最后，对于上表，加粗的结果表示最佳性能，下划线的结果表示第二好的性能。

将上表的所有任务结果求取平均后，我们得到了准确率曲线，如下图。

通过观察实验结果，作者也给出了一些结论。

在所有 9 个任务和 3 个 LLM 组合中（共27组配置），Margin Sampling 仅对 2 个没有实现最佳或第二佳的性能。作者认为，Margin Sampling 的性能会随着小型LLM性能的提高而提高，小型LLM在特定任务中表现太差，导致了 Margin Sampling 的性能波动。
FrugalGPT 平均而言是表现第二好的策略。然而，在更具挑战性的多项选择任务 Openbook 上，它的表现比随机基线差；在 QA 任务中的表现也不一致。作者认为，FrugalGPT 的辅助模型更擅长简单的分类问题，在困难问题上则有所欠缺。
Routing 和 HybridLLM 似乎在 QA 任务中表现良好，而在分类任务中表现较差。我们注意到，HybridLLM 的平均性能在GPT模型对上与随机基线性能相同，这是一个令人惊讶的发现。

作者也合并上述9个不同任务的数据，来模拟多任务情况。实验结果如下表，Margin Sampling 依然取得了最佳结果。