今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法
夕小瑶科技说 原创
作者 | 芒果
引言:探索知识检索增强新篇章
在人工智能领域,大语言模型(LLMs)凭借其在多种任务上的卓越表现而备受瞩目。然而,这些模型在知识存储和更新方面仍面临挑战,尤其是在处理开放领域问题时。传统的知识检索增强(RAG)方法通过整合外部知识来解决这一问题,但如果检索到的文本不相关,可能会削弱模型的性能。为了克服这些限制,本研究提出了一种新的框架——检索增强迭代自反馈(RA-ISF),通过迭代处理问题,结合自知识模块、文本相关性模块和问题分解模块,以提高模型的问题解决能力。
论文标题:
RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-Feedback
论文链接:
https://arxiv.org/pdf/2403.06840.pdf
RA-ISF框架介绍
1. RA-ISF三个子模块功能
自知识模块(Mknow):判断当前问题是否可以仅凭模型自身的知识解答。 文本相关性模块(Mrel):评估检索到的每个段落与问题的相关性,并将相关段落整合到提示中用于预测。 问题分解模块(Mdecom):当所有段落都与问题无关时,将问题分解为子问题,并重复上述步骤处理这些子问题。
2. RA-ISF工作流程
RA-ISF首先使用自知识模块判断当前问题是否能够依靠模型自身的知识解答。如果不能,则使用检索策略,文本相关性模块将评估每个检索段落与问题的相关性。相关段落将被整合到提示中并用于预测。当所有段落都与问题无关时,问题分解模块将问题分解为子问题,并重复之前的步骤处理这些子问题。最终,模型将综合子问题的答案来回应原始问题。通过这种迭代自反馈方法,RA-ISF更有效地释放了模型的潜力,并更好地将外部知识与模型的固有知识结合起来。
训练过程与数据收集
1. 数据收集方法
数据收集是构建RA-ISF模型的关键步骤。首先,需要构建一个由大语言模型(LLMs)生成的数据集。根据不同的训练目标,收集相应的问题集,并将它们逐一输入到LLM模型中。通过提供特定指令执行相应任务,并利用少量提示和上下文学习,使模型能够生成与每个问题相对应的答案集。
研究者收集了多种类型的监督训练数据,并通过上述过程将它们组合成模型的训练数据,最终形成了训练数据集。
2. 子模块训练过程
RA-ISF框架包含三个预训练模型:Mknow、Mrel和Mdecom,分别负责内部知识评估、外部知识检索和问题分解功能。以Mknow模型的训练为例,研究者首先使用预训练的语言模型初始化Msub,并使用标准的条件语言建模目标进行训练,以最大化分类的有效性。这里,研究者使用交叉熵损失来表示这一目标,并且使用Llama 2-7B模型作为初始模型。
实验设计与评估
1. 评估数据集
为了全面评估不同特征的数据集的性能,研究者使用以下五个代表性数据集进行评估:Natural Question (NQ)、TriviaQA、StrategyQA、HotpotQA和2WikiMQA。
2. 选择模型与检索器
框架中的模型分为两类:用于预测的LLM和三个用于评估问题特征的中间步骤模型。对于LLM,研究者实验了不同大小的开源Llama2以及通过OpenAI API的GPT-3.5。对于三个子模型,采用Llama2-7b作为它们的预训练模型。
3. 基线方法比较
为了进行全面的评估和比较,研究者使用相同的数据集、检索器和语料库,将该研究的方法与以下基线方法进行比较:直接提示、Vanilla LM、Least-to-most、IRCoT、RAG、SKR、REPLUG、Iter-RetGen和Self-RAG。
实验结果分析
1. RA-ISF在各数据集上的表现
研究者提出的RA-ISF在GPT3.5上的所有五个数据集上均优于其他方法。平均而言,RA-ISF与不使用检索的基线相比,性能提升了+8.7。与使用检索的基线相比,RA-ISF超越了所有现有方法,与最优方法相比平均性能提升了+7.4。此外,与同样使用迭代检索的Iter-RetGen相比,RA-ISF在HotpotQA上显示出+2.0的改进。
2. 对比基线方法的性能提升
RA-ISF还有效地减轻了与RAG相关的幻觉问题。例如,在TriviaQA和StrategyQA数据集中,直接RAG导致性能下降,可能是由于不相关检索内容的负面影响。在研究框架中,三个子模块帮助模型减少幻觉并增强知识表征。与GPT-3.5 + RAG相比,GPT-3.5 + RA-ISF在StrategyQA上实现了+11.2的性能提升。在TriviaQA上也观察到类似的性能提升。
消融研究与迭代阈值分析
1. 子模块消融研究结果
在RA-ISF框架中,通过消融研究来评估三个子模块——自知识模块(Self-Knowledge Module)、段落相关性模块(Passage Relevance Module)和问题分解模块(Question Decomposition Module)——对整体性能的贡献。消融实验的结果表明,移除任何一个子模块都会导致性能下降,这强调了每个组件在框架中的重要性。例如,没有自知识模块的变体通过分解无关文本来提高结果,而没有段落相关性模块的变体则在自知识判断后直接分解问题,没有涉及段落相关性模块。最后,如果没有问题分解模块,当没有找到相关段落时,答案将被标记为“未知”,并且不会进行迭代。这意味着RA-ISF的迭代次数设置为0。
2. 迭代阈值对性能的影响
RA-ISF通过设置问题分解的迭代阈值Dth来限制问题分解的迭代次数。研究者在不同的Dth值上进行实验,发现随着Dth值的增加,模型在回答问题的准确性也随之提高。这表明,更多的迭代有助于提高模型解决问题的性能。然而,当迭代次数过多时,可能会导致模型无法找到解决问题的相关段落或知识,这表明模型无法解决问题实际上是由于缺乏知识而不是理解不足。
小型子模型的选择与评估
1. 不同大小子模型的性能比较
研究者选择了Llama27B模型作为训练三个子模型的预训练模型,并探讨了使用更小型模型作为中间组件的有效性。研究者选择了T5780M模型进行训练,并将其与Llama27B进行了比较,结果表明,使用T5780M模型时,GPT3.5的准确性只比使用Llama27B模型低一到两个百分点。这表明,在训练RA-ISF的三个子模型时,即使使用较小的模型作为预训练模型,也能展现出良好的性能。
2. 小型子模型的有效性分析
尽管小型子模型在性能上略逊于更大的模型,但它们在成本和资源限制的情况下仍然是有效的选择。例如,当RA-ISF方法在小型T5780M模型上进行训练时,使用该模型回答问题的准确性仅略低于Llama27B,这表明在训练RA-ISF的三个子模型时,如果存在约束或成本限制,使用像T5780M这样的小型模型作为预训练模型仍然可以展现出卓越的性能。
人工与模型评估的可靠性分析
1. 人工评估方法与结果
本研究邀请了具有本科或研究生学位的50名人类评注员来评估模型生成的答案的准确性。评注员通过问卷调查的形式对模型的结果进行了评估,他们对生成结果与问题的相关性以及分解的正确性给出了意见。人类评注员和GPT-4的评估结果显示,这三个模型在各自的任务中展现出高度的可靠性,准确率超过85%。特别是,自知识模块Mknow在识别自身知识方面的准确率达到了97%,而问题分解模块Mdecom的准确率略低,因为问题分解任务属于生成任务范畴,可能存在多种可行的分解方案。
2. 模型评估的一致性检验
在RA-ISF框架中,三个子模块的结果表明它们在可靠性方面表现良好。例如,自知识模块Mknow在判断问题是否可以使用模型自身的知识库解决时与GPT-4的一致性达到了97%。段落相关性模块Mrel在判断给定问题和相关段落是否确实相关时的判断与GPT-4保持一致,被认为是正确的。问题分解模块Mdecom则在LLM和评注员都认为每个子问题与原始问题在语义上保持一致时,被认为是有效的。
研究结论与未来展望
1. RA-ISF的优势与局限性
RA-ISF框架通过迭代式自反馈方法,有效地提升了检索增强型生成模型在开放域问答任务中的表现。它通过自知识模块、段落相关性模块和问题分解模块的迭代处理,减少了不相关文本的干扰,提高了模型对外部知识的整合能力,从而在多个大型语言模型上取得了优异的性能。
然而,RA-ISF也存在一定局限性。首先,迭代式问题解决可能导致问题的过度分支,特别是在连续探索问题及其子问题而未找到解决方案或相关段落时,这种方法可能变得低效。其次,问题的不同表述可能会影响问题分解模块的有效性,导致迭代次数和结果之间的微小差异。
2. 未来展望
未来的研究可以着重于进一步缓解大型语言模型中的幻觉问题,并提高框架的效率。此外,RA-ISF主要依赖于开放域问答数据集,未在特定领域如数学推理、符号推理或医学和法律等专业领域进行测试。未来的研究可以探索RA-ISF在这些数据集上的表现。研究团队还计划研究如何更有效地使用检索增强技术,并简化其复杂性。
微信扫码关注该文公众号作者