性能不降反增?缩减率2.64的伪图索引为何有助于RAG
作者单位:
论文地址:
代码地址:
实验结果表明,在文本缩减率高达 2.64 条件下的单文档任务中,PG-RAG 在所有关键评估指标上显著优于当前最佳基准 KGP-LLaMA,整体性能平均提升约 11.6%。其中,BLEU 分数提升约 14.3%,QE-F1 提高约 23.7%。在多文档场景中,PG-RAG 的平均性能至少比最佳基准高约 2.35%。同时,其 BLEU 和 QE-F1 稳定提升约 7.55% 与 12.75%。
具体地,伪图索引构建策略的本质是在无 schema 限制的 KGs 基础上,设限了一种简单且常用的记忆 schema:它引导知识从宽泛的超主题逐步聚焦到特定主题,再经由多条明确的关键词路径路由到具体的事实中去,后又延申至更多相似或互补的关联事实。这种方法由浅入深,允许 PG 在保持对全局视角的把握的同时,具备深入挖掘局部细节的潜力。
3.2 思维导图生成(文档内知识的梳理)
将验证过的 FCIs 和它们对应的核心主题(MT)输入到 LLMs 中。 提示 LLMs 将 FCIs 转化为围绕 MT 的思维导图。形成的思维导图表意清晰、脉络分明,将文本的主题、关键词(路由)和事实等多种类型的知识,用有向的导航线串联成多条知识路由链(事实路径),实现了对文档内知识的梳理。
3.3 知识融合(文档间关系的构建)
我们对多个独立的思维导图进行聚类和链接,形成伪图网络:
知识嵌入学习(导图索引的构建):通过沿事实路径提取并拼接节点属性,为每个节点生成一个包含丰富上下文信息的嵌入向量,以捕捉从主题到该节点的知识信息: 构建聚类:计算节点嵌入向量之间的相似度,将相似节点聚集为一类,并为每类分配一个唯一的超节点。 知识链接:为类内节点和对应超节点建立相似链接,将原本孤立的思维导图通过相似的主题或互补的事实关联,增强了网络的导航性和信息的可访问性。
通过以上三个步骤,我们实现了对知识的提取、组织和融合,形成了一个灵活的结构化知识网络用于索引。与严格的 KGs 相比(存在数据模式限制,例如将《史蒂夫·乔布斯传》固定在书名或书籍的实体类型中),伪图放松数据模式约束、允许数据根据不同上下文进行适应性划分。以《史蒂夫·乔布斯传》为例,该数据可以充当不同类型的节点:
提供思维导图起点的主题实体。例如,下面的事实路径展示了《史蒂夫·乔布斯传》作为一个主题,关联传记中的具体内容: 《史蒂夫·乔布斯传》-> 乔布斯的生平事迹 -> ... 《史蒂夫·乔布斯传》-> 乔布斯的职业生涯 -> ... 《史蒂夫·乔布斯传》-> 乔布斯的个人生活 -> ... 提供与主题直接相关的详细数据或描述的事实实体。例如,在“美国出版商西蒙舒斯特对外发布出版消息”的主题下,《史蒂夫·乔布斯传》可以直接作为一个事实实体,与出版信息关联: 美国出版商西蒙舒斯特对外发布出版消息 -> 出版书籍 ->《史蒂夫·乔布斯传》 充当主题实体与事实实体之间的中间信息节点的路由实体,帮助阐明和指导知识的传递路径。例如,在“人物传记阅读记录”的主题中,《史蒂夫·乔布斯传》可以用于导航,展示乔布斯传记带来的启发等: 人物传记阅读记录 ->《史蒂夫·乔布斯传》-> 启发 -> 创新精神 ... 人物传记阅读记录 ->《史蒂夫·乔布斯传》-> 启发-> 领导力 ... 美国出版商西蒙舒斯特对外发布出版消息 ->《史蒂夫·乔布斯传》-> 发布日期 -> ... 美国出版商西蒙舒斯特对外发布出版消息 ->《史蒂夫·乔布斯传》-> 市场反响 -> ...
同时,伪图还放松了关系的预设限制。KGs 中的关系通常是预定义的,具有较高的约束性,而伪图采用更通用、更灵活的关系表征方式。相比于固定的相似关系或者预设的复杂关系,伪图的导航线可以隐含地表征包括并列、因果、逻辑后续等更丰富的关系类型。这些关系根据数据本身的语境和内容自动确定,能够更准确地反映知识点之间的实际联系。
伪图的检索
4.3 控制矩阵生成
对于每个锚节点,我们通过生成控制矩阵以评估候选节点对该节点的支持度。具体控制条件如下:
支持:如果相似度差值小于支持阈值(例如 0.03),则候选节点的贡献权重设为1。 模糊:如果相似度差值介于支持阈值和模糊阈值之间(例如 0.05),则贡献权重设为0.5。 拒绝:如果相似度差值超过模糊阈值,则贡献权重设为 0。
接着,我们计算候选节点的贡献值,贡献权重×节点重要性(节点与 KP 的相似性),然后对游走边界进行初步限制:
从锚节点开始向左遍历,计算并记录贡献值,直到贡献值为 0 的位置停止,确定左边界。 然后从左边界向右遍历其他行,计算并记录贡献值,遇到贡献值为 0 的位置停止,即不扩展后续的子节点,最终生成该锚节点对应的控制矩阵(CM)。
上下文的选择:从聚合矩阵中选出总贡献值最高的行(事实路径),并将其整合成知识库中的导图形式,用于支持问题的回答。
5.1 数据集
本实验中,我们选取了 CRUD-RAG 基准测试中的三个问答(QA)数据集,以评估 RAG 系统在知识密集型应用中的性能,包括模型在回答单文档事实能力和结合多文档信息进行推理的能力:
单文档问答(1-Document QA)专注于基于事实的问题解答,考察模型精确定位和提取相关信息的能力。 双文档问答(2-Document QA)用于测试模型是否能够利用两篇文档中的信息进行推理和整合。 三文档问答(3-Document QA)包含的问题需要模型必须同时综合三篇文档的信息才能作答,进一步增加了任务的难度,要求模型具备深层次的理解和分析能力。
基础模型(w/o RAG):GPT-3.5 传统的 RAG:关键词检索(BM25)、密集检索(DPR)、混合搜索(BM25+DPR)、混合搜索+重排 基于树的 RAG:Tree traversal、Collapsed tree retrieval 基于图的 RAG:Graph-RAG、KGP
传统 RAG 方法表现较好,优于直接使用基础生成模型,尤其是使用具有混合重排序机制的 RAG。 基于树的 RAG 方法在大数据集上表现不佳,因为聚合效果不好,单个节点信息过载,噪声大。 基于图的 RAG 方法(Graph-RAG 和 KGP)在多文档任务中表现优于其他基线方法,但在单文档任务中优势不明显。 PG-RAG 得益于其精炼的伪图结构和基于游走的上下文扩充机制,在不同难度的任务中均表现出色。
传统 RAG 仅进行简单分块,树基和图基 RAG 通过融合算法在块间建立关联关系信息,但均未改变知识原本的嵌入分布,PG-RAG 通过利用 LLMs 进行语义分割,得到的事实嵌入分布更为分散,利于聚类,即知识的融合。 RAPTOR Cluster 在大数据集上聚类效果差,KNN 聚类耗时较长,而 PG-RAG 方法知识融合的速度快且效果佳。
5.5 知识构建结果分析
与直接使用原始查询相比,PGR 使用的 KPs 能更准确地反映查询意图,提高证据的召回率。此外,在矩阵结构上进行 DFS 的复杂度为 O(m+3n),优于传统 DFS 的复杂度 O(m×n),因为,树深度 n 通常很小,在 3~5 左右。
本论文提出的伪图结构通过放松传统 KGs 中对于数据和关系的模式约束,旨在构建一个更加灵活和自适应的知识网络。它能够根据语境灵活划分数据,表征多样化的关系,形成一个更加全面、系统的知识索引,从而提高知识的组织和访问效率,支持复杂的推理和分析任务。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
微信扫码关注该文公众号作者