大模型只靠 RAG 技术能实现知识学习模式的革新吗？

1年前

专题解读
事件：近期，在《纽约时报》和 OpenAI 关于版权问题的争论中，学者吴恩达发文表示「重复的文章可能是通过类似于 RAG（检索增强生成）的机制产生的，而非仅仅依赖模型训练的权重。」与此同时，同济大学等机构发表综述论文《Retrieval-Augmented Generation for Large Language Models: A Survey》。

RAG 全称为 Retrieval Augmented Generation，即检索增强生成。为大型语言模型（LLM）提供了从某些数据源检索到的信息，以此作为生成答案的基础。简单来说，RAG 技术为大型语言模型（LLM）提供从某些数据源检索到的信息，以此作为生成答案的基础。

RAG 技术作为 AI 大模型时代下的热门技术，能够真正解决大语言模型的幻觉、知识更新等问题吗？

RAG 技术是为了解决 LLM 的哪些问题？

1、模型的幻觉问题：

模型幻觉指模型输出的「事实性」内容中包含虚假、误导性信息。RAG 能通过给定 Reference，并限制 LLM 尽量在 Reference 的知识范围内进行指令执行，强化/引导模型正确输出的偏好或纠正模型错误或过时的认知。

2、与真实世界实时交互问题：

RAG 可以帮助模型对自身知识进行动态更新，同时，帮助模型在执行指令时，实时补全空白知识。LLM 的训练语料在时间（非实时）、空间（分布有限）上是受限的，LLM 在训练完成后自身的认知会局限、固化在训练语料的时空内。RAG 可以帮助 LLM 突破原有的时空限制，在更广泛的场景下得到应用。

3、数据问题：

私有数据安全问题，RAG 技术可以将私有数据作为一个外部数据库，让 LLM 在回答私有数据问题时候，直接从

外部数据检索相关信息，在结合检索出来的内容进行回答。这样不参与训练，就不会在 LLM 的模型参数中，记住私有知识。

4、可解释性问题：

通过 RAG 可以解决可解释性、信息溯源、信息验证证等问题，一旦检索的内容和生成的内容建立的关系，可以知道 LLM 模型根据哪些信息得出的回答。

RAG 和提示工程、微调（FT）等其他优化技术相比，有何异同？

1、RAG 就像是给模型一本教科书，用于定制信息检索，非常适合特定的查询；而微调（FT）就像是学生随着时间内化知识，更适合复制特定的结构、风格或格式。

2、微调可以通过加强基础模型知识、调整输出和教授复杂指令来提高模型性能和效率。但不适合整合新知识或快速迭代新用例。

3、这两种方法，RAG 和 FT，并不是相互排斥的，它们可以互补，从不同层面增强模型的能力。在某些情况下，它们的联合使用可能会产生最佳性能。涉及 RAG 和 FT 的优化过程可能需要多次迭代才能达到令人满意的结果。

表：RAG（检索增强生成）与微调的特点对比[14]

特点对比	检索增强生成（RAG）	微调（FT）
知识更新	RAG 直接更新检索知识库，保持信息最新，模型无需频繁的重新训练，适合动态数据环境。	FT 存储静态数据，知识与数据更新需要重新训练。
外部知识	RAG 擅长利用外部资源，非常适合文档或其他结构化/非结构化数据库。	虽然 FT 可以对大语言模型进行微调以对齐预训练学到的外部知识，但对于频繁更改的数据源来说可能不太实用。
数据处理	RAG 对数据加工和处理的要求低。	PT 依赖高质量数据集，有限的数据集可能不会产生显著性能提升。
模型风格	RAG 主要关注信息检索，擅长整合外部知识，但可能无法完全定制模型的行为或写作风格。	FT 允许根据特定的语气或术语调整大语言模型的行为、写作风格或特定领域的知识。
可解释性	RAG 通常可以追溯到特定数据源的答案，从而提供更高等级的可解释性和可溯源性。	FT 就像黑匣子，并不总是清楚模型为何会做出这样的反应，具有相对较低的可解释性。
计算资源	RAG 需要高效的检索策略和大型数据库相关技术。另外还需要保持外部数据源集成以及数据更新。	FT 需要准备和整理高质量的训练数据集、定义微调目标以及相应的计算资源。
延迟和实时要求	RAG 需要进行数据检索，可能会有更高延迟。	经过 FT 的大语言模型无需检索即可响应，延迟较低。
减少幻觉	RAG 本质上不太容易产生幻觉，因为每个回答都建立在检索到的证据上。	FT 可以通过将模型基于特定领域的训练数据来减少幻觉。但当面对不熟悉的输入时，它仍然可能产生幻觉。
道德和隐私问题	RAG 的道德和隐私问题来源于从外部数据库检索的文本。	FT 的道德和隐私问题则因为模型的训练数据存在敏感内容。

RAG 架构有哪些局限性或限制？[12]

1、RAG 技术通过检索系统引入外部信息，在外部知识源与 LLM 知识冲突时，会发生难以判断优先级的情况。检索系统本身难以处理事实性错误的误召回问题，如何通过完善相关信息提高 LLM 的分辨能力、妥善处理 Reference 之间发生冲突的生成方案，是 RAG 的局限性之一。

2、近期，self-rag、ReAct、agent 等模式相关工作出现，是否调用、何时调用、怎么调用 agent 的权限被逐渐下放到 LLM ...

RAG 有哪几种几种范式？RAG 技术在 LLM 中如何应用？RAG 效果好不好，如何评估？有哪些关键指标？RAG 架构未来有哪些挑战？... 查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 02