今日arXiv最热NLP大模型论文：华东师大发布对话级大模型幻觉评价基准DiaHalu

国际科技财经移民娱乐民生时事体育

Bendi新闻

科技

信息技术

10月前

夕小瑶科技说原创
作者 | Tscom

随着人工智能领域的快速发展，大语言模型（LLMs）在自然语言处理（NLP）的多个领域取得了显著的成功。这些模型通过自然语言生成（NLG）技术解决了许多下游任务，从而在多样化的NLP领域中展现出其强大的能力。然而，随着LLMs的广泛应用，其面临的挑战也日益凸显，尤其是“幻觉”问题。所谓“幻觉”，主要是指LLMs倾向于为特定来源生成无意义或不真实的内容。这种现象给现实世界的应用场景带来了风险，因为它可能导致误导性信息的传播和理解上的混淆。

尽管存在这些挑战，研究人员提出了许多用于检测LLMs幻觉的基准（benchmarks）。然而，现有的基准存在一些问题：它们通常是通过人为设计的触发提示词来诱导LLMs产生幻觉，而不是LLMs在日常使用中自然生成的；大多数基准仅关注事实性幻觉，忽视了忠实性幻觉；并且它们大多只集中在句子级和段落级的幻觉检测，而对话级的幻觉检测同样重要，但在以往的研究中并未提及。

为了应对这些挑战，本文提出了一个新的对话级幻觉评估基准（DiaHalu），旨在通过专业学者的标注，覆盖四个常见的多轮对话领域和五种幻觉子类型，从而为进一步的研究提供有价值的数据集和评估方法。

论文标题: DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models

论文链接:https://arxiv.org/pdf/2403.00896.pdf

DiaHalu基准的提出与意义

DiaHalu是一个新颖的对话级别的幻觉检测基准，它旨在评估LLMs在多轮对话中产生的幻觉问题。这个基准的提出源于对LLMs在生成文本时可能出现的非真实或无意义内容的关注。DiaHalu通过模拟真实的人机交互场景，集成了多种来源的对话主题，并通过ChatGPT3.5生成了对话样本。这些样本经过专业学者的手动修改和注释，以确保它们符合人类语言习惯，并标注了幻觉类型和位置。

DiaHalu基准覆盖了四个常见的多轮对话领域，包括知识型、任务导向型、闲聊型和推理型对话，并扩展了五种幻觉子类型，这些子类型源于事实性幻觉（Factuality hallucination）和忠实性幻觉（Faithfulness hallucination），下图就是在对话中产生这两种幻觉的示意。通过在该数据集上部署现有的幻觉检测方法和一些知名的LLMs，实验表明DiaHalu是一个具有挑战性的基准，对进一步研究具有重要价值。

LLMs的幻觉问题

1. 幻觉问题的定义与影响

幻觉问题主要指的是LLMs在生成特定来源的内容时，倾向于产生无意义或非真实内容。这种现象在多轮对话中尤为突出，因为模型可能会在没有足够证据的情况下生成回答，或者在对话过程中产生与先前信息不一致的内容。幻觉问题的存在对于LLMs在现实世界场景中的应用构成了风险，因为它可能导致误导信息和误解，尤其是在专业领域的应用中。

2. 幻觉检测的重要性

检测LLMs中的幻觉问题至关重要，因为它直接关系到文本生成质量的提升和误导信息的预防。DiaHalu基准的提出正是为了解决现有基准中存在的问题，如非自然生成的内容、仅关注事实性幻觉以及忽略对话级别幻觉检测的重要性。DiaHalu通过在对话级别上检测幻觉，为研究人员提供了一个更贴近实际应用的评估工具，有助于开发出更精准的幻觉检测和消除方法，从而提高LLMs在各种真实场景中的可靠性和实用性。

DiaHalu基准的构建过程

1. 对话主题的收集

DiaHalu基准的构建始于对话主题的收集。研究团队首先确定了四个多轮对话领域：知识型、任务导向型、闲聊型和推理型（下图）。

在知识型对话中，团队汇集了包括世界知识、事实知识、常识知识和多跳网络知识在内的对话主题。这些主题来自于TruthfulQA、CommonsenseQA和CWQ数据集，以及GPT4和社交媒体的贡献。任务导向型对话则主要采用了MultiWOZ和DSTC数据集，这些数据集涵盖了现实生活中的七种场景，并通过GPT4和社交媒体增加了用户行为和对话场合的多样性。闲聊型对话则通过定义LLMs的人格特征，促进两个LLMs之间的开放式对话。推理型对话的主题则源自GSM8K和MathQA，这些数据集涉及中学生常遇到的数学问题和解题过程。这10个对话主题来源的分布情况见下图。

2. 对话生成与人工调整

收集完对话主题后，研究团队利用ChatGPT3.5生成了自对话格式的会话。通过将对话主题整合到系统提示中，输入到两个ChatGPT3.5中，使它们能够进行多轮对话（见下图）。在知识型和任务导向型对话中，由于这两个场景代表了真实的人机交互场景，团队人工检查了所有来自对话参与者A的响应，确保其符合人类语言习惯。不符合的内容则进行人工修改，并让LLMs重新生成，以获得最终的对话数据集。而闲聊型和推理型对话由于相对不受约束，不涉及特定的人机交互设置，因此减少了人工干预的需求。

3. 专业学者的数据标注

在对话生成完成后，专业学者对所有样本进行了标注。这些标注者都是语言学和自然语言处理领域的资深研究人员，他们不仅具备至少本科学位，还通过了IELTS或TOEFL考试，并且熟练使用谷歌和必应等搜索引擎。在标注过程中，他们负责标记出现的幻觉、幻觉类型和位置，以及相应的解释。为了确保标注信息的有效性，研究团队还邀请了LLMs幻觉检测领域的经验丰富的专家进行随机抽样检查。通过这一严格的标注流程，DiaHalu基准最终实现了对四个多轮对话领域和五种幻觉亚型的全面覆盖。

在上面的工作基础上，我们对其进行了几项统计分析。下表统计了幻觉在四个对话领域出现的概率。结果表明，在知识型对话和推理型对话中，幻觉出现的可能性非常高。因此，LLMs的知识和推理能力仍需进一步改进。

下图展示了每个对话领域中每种幻觉类型的比例。不相关（Irrelevance）、不连贯（incoherence）和过度依赖（overreliance）在日常生活的对话情境中普遍存在，例如任务导向和闲聊场景。在知识型对话中，事实性幻觉占有很大比例，而在推理对话中，几乎所有的幻觉都被定义为推理错误。

这些统计信息可以帮助我们理解LLMs在多轮对话中的幻觉类型，促进对其起源的探索，并有助于消除这些类型的幻觉。

幻觉类型与检测难点

1. 事实性幻觉与忠实性幻觉

在LLMs的幻觉问题中，事实性幻觉和忠实性幻觉是两个主要类型。事实性幻觉指的是LLMs生成的内容与特定来源的真实信息不符，例如提供了错误的事实或提及了现实中不存在的事物。忠实性幻觉则进一步细分为三种类型：不连贯性、不相关性和过度依赖性。不连贯性包括输入冲突、上下文冲突和自我冲突内容；不相关性指的是与对话主题无关的内容出现；过度依赖性则是LLMs过分依赖上下文的正确性，即使面对无法回答的内容也会生成响应。

2. 对话级别幻觉的特殊性

对话级别的幻觉具有其特殊性，因为它不仅仅出现在单句或段落级别，而是在整个对话过程中累积和展现。这种幻觉可能会随着对话的进行而雪球式增长，LLMs在生成过程中往往会累积幻觉而不是自我纠正。此外，对话级别的幻觉检测需要模型具备长期记忆能力和识别对话中主题转换的能力，这对于处理忠实性幻觉尤为重要。在DiaHalu基准中，研究团队发现知识型对话和推理型对话中幻觉的出现概率较高，这表明LLMs在知识和推理能力方面仍需进一步提升。

实验设计与基线模型

1. 实验评价指标

在进行幻觉检测的实验设计中，评价指标的选择至关重要，因为它们直接影响了我们对模型性能的理解和评估。在本研究中，我们关注的是LLMs在多轮对话中产生幻觉的情况。幻觉指的是LLMs生成的内容与特定来源不符，包括无意义或不真实的内容。因此，我们的评价指标应当能够准确地反映出模型在检测这些幻觉内容上的能力。

在评价指标的选择上，我们采用了二分类评价指标，即判断一个对话回合中是否存在幻觉。这是因为即使在人类评注者中，对于幻觉类型的一致标注也需要进一步讨论。因此，我们的主要关注点是测试模型识别幻觉的能力，而不是对幻觉类型进行分类。正类标签被设定为“Halu”，以便我们主要测试模型识别幻觉的能力。

2. 基线模型的选择与性能分析

在基线模型的选择上，我们选取了一些强大的LLMs，并提供了特定的提示（prompts），以评估它们检测幻觉的能力。这些模型包括LLaMA-30B和Vicuna-33B，它们都是广泛部署的开源LLM骨干网络。此外，我们还使用了专门的幻觉检测方法SelfCheckGPT，它通过不同温度的LLMs重述待检测内容，并计算原始内容与重述内容之间的一致性，从而判断是否存在幻觉。

在性能分析方面，我们发现DiaHalu是一个非常具有挑战性的、用于对话级别幻觉检测的基准测试。如下表，除了ChatGPT4之外，所有其他检测方法的F1分数都没有超过50.00。这表明现有的语言模型在准确识别涉及幻觉的样本方面不够有效。特别是在使用ChatGPT3.5进行自我检测时，存在过度自信的现象，即使提供了特别设计的检测提示，它仍然难以区分对话内容是否在幻觉中。

探讨CoT和检索技术在幻觉检测中的应用

在幻觉检测中，思维链（Chain-of-Thought，简称CoT）和检索技术是提高LLMs推理能力的两种重要技术。CoT描述了思考过程中逻辑推理的有序序列，而检索则意味着从媒体中检索相关内容以补充外部知识。在我们的实验中，我们测试了这两种技术是否能够提高幻觉检测的有效性。

实验结果表明（下表），这两种方法都对幻觉检测有促进作用。然而，将GPT4与检索方法结合使用时，在推理检测领域的F1分数下降了约0.5分。我们认为，GPT4本身就具有较强的推理能力，因此额外的检索内容可能会对其判断引入噪声。

总的来说，CoT和检索技术在提高幻觉检测性能方面显示出了潜力，但在特定情况下，如GPT4的推理能力已经很强时，可能需要更加谨慎地使用这些技术，以避免引入不必要的干扰。

讨论与未来展望

1. DiaHalu基准的挑战与价值

DiaHalu基准的提出，旨在解决LLMs在多轮对话中产生的幻觉问题。幻觉问题主要体现在LLMs倾向于生成无意义或不真实的内容，这在实际应用中带来了风险。DiaHalu基准通过模拟真实的人机交互场景，集成了多个来源的对话主题，并让两个ChatGPT3.5模型进行对话，然后由专业学者对样本进行注释，覆盖了知识型、任务型、闲聊和推理等四个常见的多轮对话领域，以及五种幻觉子类型。这一基准的挑战在于，它不仅包括事实性幻觉，还进一步分类了忠实性幻觉，包括不连贯、不相关和过度依赖等类型，并引入了推理领域的推理错误。实验结果表明，DiaHalu对现有的LLMs和检测方法来说是一个具有挑战性的任务，这对未来的研究具有重要价值。

2. 对话级别幻觉检测与消除的未来方向

未来的研究方向应着重于开发能够准确识别和消除对话级别幻觉的方法。目前，大多数幻觉检测基准集中在句子级和段落级，而对话级别的幻觉检测同样重要，但尚未得到足够的关注。对话级别的幻觉不仅涉及事实性错误，还包括忠实性错误，如不连贯、不相关和过度依赖等，这些问题要求模型具备长期记忆能力和识别对话主题转换的能力。此外，推理对话中的推理错误也是一个需要关注的问题。因此，未来的研究应该集中在开发新的检测和消除方法上，以提高LLMs在多轮对话中的准确性和可靠性。