今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意
作者 | 芒果
引言:关于大模型分析用户满意度的探索
该研究强调了用户满意度估计(USE)的准确性和可解释性在改善对话系统中的重要性。现有的基于特征化机器学习模型或文本嵌入的方法在提取模式和可解释性方面存在限制。文章提出利用大语言模型(LLMs)能更有效地从用户的自然语言中提取出用户满意度的可解释信号。并且作者通过监督学习的方式开发了一种新的方法——监督提示用户满意度量表 (SPUR),这种方法不仅具有更高的准确性,而且更具解释性。
论文标题:
Interpretable User Satisfaction Estimation for Conversational Systems with Large Language Models
论文链接:
https://arxiv.org/pdf/2403.12388.pdf
用户满意度估计(USE)的现状与局限性
用户满意度估计(USE)对于理解、评估和持续改进对话系统至关重要。在通用(如ChatGPT和Bing Copilot)和特定任务(如客户服务聊天机器人)的对话系统中,用户以多样的对话模式表达他们的满意或不满意。现有基于特征化机器学习模型或文本嵌入的方法在提取可泛化模式方面存在不足,并且难以解释。例如,基于表示学习的方法由于使用了神经模型(如嵌入),因此相对不透明,提供的关于满意/不满意的对话模式洞察较少。同样的限制也适用于训练大型语言模型(LLM)的奖励模型,例如RLHF和RLAIF。这些模型产生的连续“奖励”分数旨在区分人类更偏好的输出,而不解释为何一个对话比其他对话得分更高。
一些先前的工作通过特征化的机器学习模型解决了USE的解释需求。然而,基于LLM的对话系统的增长意味着用户在对话系统中的查询可能现在反映了手工制作的领域和意图(例如,面向任务、问答、闲聊等),因此基于领域特定特征的方法对这些多样的对话模式具有有限的泛化性。
SPUR方法介绍
1. 监督式提取:捕捉用户满意/不满意的表达
研究者提出的SPUR方法首先通过监督式提取阶段使用提示来从标记的训练集中提取用户满意度的信号。在这个阶段,利用GPT-4的强大自然语言理解和推理能力,通过提示来获取有意义且可解释的满意/不满意模式。例如,给定一个用户与AI代理的对话,研究人员会询问用户如何表达满意,并将这些表达归纳为最多三个理由。
2. 规则总结:构建用户满意度评估的标准
在监督式提取阶段提取的模式可能会因不同对话的文本描述而表现出显著的变化,它们的相对重要性可能不一致。尽管文本描述不同,但大多数提取的模式在语义上是相似的。因此,规则总结阶段的目标是进一步压缩提取的模式,并识别在训练集中频繁出现的满意/不满意模式。这一过程的结果是建立了一个清晰的基于提取模式的USE评估标准。
3. 用户满意度评估:应用规则进行满意度打分
在学习了满意度和不满意度规则后,研究者将生成的规则作为指令集成到第三个提示中,提供给GPT-4以评分用户满意度。规则项为GPT-4提供了一致的决策标准,并提高了GPT-4在USE上的性能。对于每个规则项,提示要求GPT-4做出二元决策,判断给定对话是否展示了所描述的行为。如果答案是"是",提示进一步指示GPT-4评估表达的模式对用户的整体满意/不满意影响的可能性,评分范围为1-10(低到高)。如果答案是"否",得分为0。在输出每个规则项的得分后,进一步将得分聚合为一个代表给定对话中用户整体满意度的SAT得分。
实验设计:数据集、基线模型与评估指标
本研究旨在通过大语言模型(LLMs)提高用户满意度估计(USE)的准确性和可解释性。为了评估提出的方法——监督式提示用户满意度评分标准(SPUR),研究者使用了包括通用型(如ChatGPT和Bing Copilot)和任务导向型(如客服聊天机器人)的对话系统中的数据集。这些系统中的用户通过多样化的对话模式表达他们的满意或不满意。
作为基线模型,研究者考虑了基于特征化机器学习模型和文本嵌入的现有方法,如RLHF(Reinforcement Learning from Human Feedback)和RLAIF(Reinforcement Learning with Augmented Imitation Feedback)。此外,还比较了SPUR与其他几种LLM基础方法,包括ZeroShot和FewShot,以及基于嵌入的方法,如线性回归、USDA和ASAP。
评估指标方面,采用了准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1分数(F1 Score)作为衡量模型性能的关键指标。这些指标基于标签分布加权,以考虑数据集中的不平衡性。
实验结果与分析:SPUR方法性能评估
1. 在有限训练数据下的USE表现
实验结果表明,在有限的训练数据下,SPUR方法的性能优于其他方法。SPUR在不同数据集上的准确率、精确度、召回率和F1分数均优于基线模型。这表明,通过学习的评分标准(rubrics)进行提示,可以为LLMs提供比手工制作的特征集更好的指导。
2. 规则总结的重要性与跨领域适用性
通过将从Bing Copilot学习到的评分标准应用于其他数据集,研究者发现,针对特定领域数据学习的评分标准可以显著提高USE的性能,平均F1分数提高了13%。这表明,以往研究中使用的手工制作特征无法泛化到不同类型的对话系统中。然而,通过LLM的评分标准总结过程,可以为每个任务/领域学习针对性的评分标准项,从而提高USE的准确性。
3. 不同对话系统中的满意度/不满意度模式差异
研究结果显示,不同类型的对话系统展现了不同的对话模式。例如,Bing Copilot作为一个通用型问答系统,信息的不准确性是导致不满意的主要原因。而MWOZ作为一个预订聊天机器人,大多数不满意来自于缺乏主动性或妥协服务。这表明,不同的对话系统有不同的服务目标,因此导致用户满意/不满意的原因与系统的目标相关。
知识蒸馏:将SPUR规则应用于大规模数据
1. 知识蒸馏过程
知识蒸馏是将SPUR学习到的评分准则应用于大规模数据的过程。首先,将单个评分准则项蒸馏成一个基于嵌入的模型,该模型可以在不需要LLM提示的情况下大规模应用。其次,将评分准则项作为特征添加到基于嵌入的模型中,以增加在有更多可用训练数据的数据集上仅使用嵌入模型的准确性。
实验展示了如何将学习到的评分准则扩展应用到两种方式。首先,展示了如何将单个评分准则项蒸馏到一个基于嵌入的模型中,该模型可以在不需要LLM提示的情况下应用。接着,展示了如何将评分准则项作为特征添加到一个基于嵌入的模型中,以提高在有更多训练数据的数据集上的准确性。
2. 知识蒸馏的实际应用
在实际应用中,通过提示GPT-4生成了100K个Bing Copilot对话的标签,用于知识蒸馏。研究者计算了每个对话的嵌入(例如,使用OpenAI ada-002),并训练了一个分类器(逻辑回归)来从GPT-4中蒸馏知识,即学习从嵌入到评分准则标签的映射。研究者对两个评分准则项(感激和负面反馈)进行了知识蒸馏,并训练了相应的分类器。结果表明,知识蒸馏过程能够成功地从GPT-4中提取给定评分准则项的知识。
结论与局限性
1. SPUR的贡献
SPUR方法的主要贡献在于其能够在有限的训练样本情况下,通过LLM捕获用户满意/不满意的表达模式,并将这些模式转化为清晰、可解释的评价标准。这些评价标准不仅提高了分类的准确性,还因其可解释性而具有较高的实用价值。实验结果显示,SPUR在不同类型的对话系统中均优于现有方法,并能够提供影响用户满意度的深入见解。
2. SPUR面临的挑战
首先,SPUR框架在处理数百万对话时成本较高,这限制了其在大规模应用中的实用性。尽管提出了知识蒸馏方法来降低评估过程的成本,但仍需要进一步的研究来证明这种方法的稳健性。
其次,SPUR的性能在训练集较小时优于其他方法,但随着训练集大小的增加,其性能提升的边际效应逐渐减弱。这表明,尽管SPUR在小规模数据集上表现出色,但在大规模数据集上可能需要进一步的优化和调整。
最后,SPUR的迭代提示框架虽然能够提取和总结用户满意度的信号,但这一过程可能需要大量的计算资源和时间。因此,未来的工作需要集中在提高SPUR的效率上,以减少其在大规模应用中的成本。
总体而言,SPUR为对话系统中的用户满意度估计提供了一个新颖且有效的框架,但其在成本、效率和规模化应用方面仍有待进一步的研究和改进。
微信扫码关注该文公众号作者