Bendi新闻
>
搜索引擎对AIGC更加偏爱!AIGC会淹没UGC吗?

搜索引擎对AIGC更加偏爱!AIGC会淹没UGC吗?

10月前


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 新智元

「AIGC的繁荣会淹没UGC吗?」

最近,来自人大、中科院计算所和华为的研究者们的2项工作揭示了主流的神经检索模型对于AIGC的内容的"源偏见"(Source Bias),这一研究发现或将重塑信息检索的生态和游戏规则。

LLMs may Dominate Information Access: Neural Retrievers are Biased Towards LLM-Generated Texts

论文地址:https://arxiv.org/abs/2310.20501

随着ChatGPT等大型语言模型(LLM)的出现,人工智能生成内容(AIGC)领域迎来了繁荣的新时代。LLM以其在规模上自动生成类似人类文本的显著能力,使互联网充斥着前所未有数量的AIGC内容。大量涌入的LLM生成内容从根本上改变了数字生态系统,挑战了互联网上内容创作、传播和信息访问的传统范式。

特别是对于信息检索(IR)领域,在LLM广泛出现之前的时代,IR系统主要围绕从人类编写的语料库中检索相关文档,而随着LLM显著推动AIGC的蓬勃发展,IR系统的语料库现在逐渐包括人类编写和LLM生成的文本,如下图所示。因此,这一范式转变引发了一个基本的研究问题:LLM生成内容的流行对IR系统有什么影响?更具体的说,研究者们想探讨现有的检索模型是否倾向于将LLM生成的文本排序靠前,即使其和人类写的文本传达着相似的语义信息。

构建LLM时代的IR评估基准

由于现有的IR数据集都是基于human-written corpus的,目前还没有同时包含human-written content和LLM-generated content的IR数据集。因此,研究者们首先尝试构建了一个合适的评估环境来评估现有的IR模型在LLM时代的表现。

构建这样一个评估环境有两个重要原则:(1)要能够区分corpus中的human-written content和LLM-generated content(2)对于两部分数据,我们都够获取对应的相关性标签。

研究者们提出了一种很自然且巧妙的构建评估环境的方法,他们以human-written corpus作为种子数据,利用LLM对于每一条数据进行改写,得到对应的LLM-generated corpus,具体流程如下图所示。通过这种方式,可以控制使得生成文档和原始人写的文档具有相似的语义信息,从而对于同样的query,他们应该具有相同的相关性标签。同时研究者们还通过一系列的分析实验对于所构建的评估环境的质量进行了验证。通过这种方式,研究者们基于两个主流的检索数据集SciFact和NQ320K构建了两个新的评估基准用于LLM时代IR模型的评估,即SciFact+AIGC以及NQ320K+AIGC。

源偏差:神经检索模型偏向于LLM生成的文本

基于构建的这两个新的评估基准,研究者们做了大量的分析实验。为了更好的度量偏差情况,研究者们计算了在面对human-written corpus和LLM-generated corpus上的Relative Δ指标,该指标可以度量检索模型的偏向情况。当Relative Δ>0的时候,检索模型偏向于将human-written corpus排在前面,而当Relative Δ<0的时候,检索模型偏向于将LLM-generated corpus排在前面。

如下表格的实验结果表明,神经检索器对于LLM生成的文本存在明显的偏见,即将LLM生成的文本排在更高的位置,研究者们称其为"源偏差"(Source Bias)。同时可以看到在Top1的结果上这种偏见最为明显,而Top1的文档往往在实际结果中是最重要的。

上述实验揭示了了第一阶段的神经检索器对于LLM生成的文档有源偏差,研究者们进一步探索了第二阶段的重排模型,同样也存在源偏差的问题,并且更加严重,结果如下面的两个表所示。

源偏差产生的原因分析

在揭示了神经检索模型存在源偏差后,研究者们进一步分析了源偏差产生的原因。研究者们从压缩的角度进行了解释。他们分析了human-written corpus和LLM-generated corpus两种不同来源的语料上的奇异值,发现LLM-generated corpus上头部的奇异值更高,尾部的奇异值更低。这表明LLM生成的文本通常保持更为集中的语义,噪声较少,使其更易于进行精确的语义匹配,如下图所示。 

解决源偏差的方法:去偏约束

进一步地,为了更好地检验基于预训练语言模型的神经检索模型是否能更好地理解LLM生成的文本,研究者们进行了深入的困惑度分析。 他们的实验和理论分析表明,LLM生成的文本始终具有较低的困惑度分数。这些观察结果证实了LLM生成的文本更容易被神经检索模型理解,从而导致源偏差。

进一步的,研究者们进一步提出了一个简单但有效的纠偏方法。具体而言,他们在原有的检索模型的目标函数上额外添加了一个去偏的惩罚项:

该惩罚项通过显式的惩罚具有LLM生成的文档比对应的人类写的文档的预测得分的样本来使得检索模型专注于建模语义相关性,而不是神经检索器和LLM生成内容之间固有的捷径,从而减轻源偏差。实验结果表明该去偏方法可以有效地在不同程度上缓解源偏差,如下图所示:

当然,研究者们也提到,至于是以人为本,结果应该偏向于人类写的文本,还是应该人和机器写的文本应该平等对待,哪种方式对于信息检索的生态和长期发展更有利,仍然是一个开放性的问题,需要整个社区未来进一步共同探讨。

源偏差的潜在影响

最后,研究者们还讨论了源偏差可能带来的影响:

● 随着LLM生成内容的越来越充斥着互联网上的各个角落,源偏差可能导致人类写的文章更难被检索出来,进而会影响信息检索的生态。

● LLM生成内容中常常夹杂着错误信息,源偏差可能会放大这些错误信息在互联网上的传播,进而可能引发重大社会问题。

● 源偏差可能被恶意利用来攻击现有的检索和排序算法,就像当年对于PageRank算法的Spam Link攻击一样。

因此,研究者也希望上述的研究工作能够引起整个IR社区的关注,号召大家一起来关注和解决源偏见的问题,使得IR生态可持续发展。

AI-Generated Images Introduce Invisible Relevance Bias to Text-Image Retrieval

论文地址:https://arxiv.org/abs/2311.14084

这篇文章将source bias在文本模态上的研究扩展到文本-图像模态上,具体而言,本文研究了当用于检索的数据库索引了大量人工智能生成的图片时,其会对文本到图像的跨模态搜索的排序结果造成什么样的影响。

数据集构造

为了研究这个问题,首先,本文基于Flicker30k和MSCOCO构造了一个合理的由真实图像和生成图像组成的检索数据库。在构造过程中,本文通过Diffusion Model利用图像过采样的方法为每个真实图像生成其对应的生成图像,生成过程中通过CLIP模型的额外约束来保证每个生成的图像和真实的图像具有足够相似的语义,从而尽量避免由于语义的差异而对评估引入额外的偏差。本文也提供了一些实验和人工评估的结果来进一步验证所构造的真实-生成图片混合检索数据库的合理性。

跨模态检索器更喜欢生成的图片

在所构造的混合检索数据库上,本文对一些主流的文本-图像跨模态检索模型进行了评估,这些模型即包括需要从头训练的模型如VSE,NAAF,也包括一些已经在海量文本-图像对上预训练过的模型,如BEIT-3,此外,从模型结构上,评估包含了基于表示的Dual-Encoder和基于交互的Fusion-Encoder,评估结果如下图所示:

可以看到,大部分文本-图像跨模态检索模型在真实-生成图片混合检索数据库上表现出了排序偏差(Relative Δ<0). 检索模型给了生成的图片相较于真实图片更高的排序位置。

混入了生成图片的训练会加重偏差

本文进一步研究了当生成的图片被混入文本-图像跨模态检索模型的训练时,这样训练出的模型会表现出怎样的偏差,实验结果表明,随着训练集中包含的生成图片的比例增加,所训练得到的模型将变得越来越喜欢生成图片,生成图相较于真实图像的排序偏差变得越来越严重:

以上两个实验揭示了一个恶性的循环,即:检索模型对生成图像的偏好使得生成的图像更有可能从海量数据中暴露出来,这使得它们更有可能被混入后续检索模型的训练中,这种训练使得生成图像相较于真实图像的排序偏差越来越严重,未来的文本-图像检索结果可能被人工智能生成的图像所包围!

去偏训练

为了缓解以上偏差,本文提出了一种通过衡量和缩小训练过程中检索器对生成图片的偏好程度来进行去偏训练,其优化目标为:

本文通过相应的实验来验证了去偏训练方法的有效性:

导致偏差的原因分析

此外,本文还通过所训练的去偏模型来反向探索了可能导致排序偏差产生的原因,即:人工智能生成的图像会使得基于神经网络的图像编码器在对该图像的表示中嵌入额外的信息,这种额外的信息存在一下三个特点:

1.  这些信息并不能以可见的方式从视觉语义上表达出来,而仅仅能够被基于神经网络的编码器编码而得。

2.  这些信息能够放大图像表示和文本表示之间相似的部分,从而得到更高的排序分数。

3.  这些信息在不同的语义的生成图像之间存在一定的一致性。

本文对以上三个特点通过实验进行了相应的支撑。

这两项工作也在Reddit上引发了关注和讨论:https://www.reddit.com/r/MachineLearning/comments/17l88lw/r_llms_may_dominate_information_access_neural/

https://www.reddit.com/r/MachineLearning/comments/1853e5y/r_aigenerated_images_introduce_invisible/


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

来源:机器学习算法与自然语言处理

相关新闻

定了!中国对新西兰免签!对澳洲免签,还会远吗?重磅!H-1B“一人一抽”正式获批!对中国学生会是利好吗?GPT搜索引擎原型曝光!新模型GPT4-Lite驱动,虽然鸽了发布会但代码已上传谷歌放大招,AI搜索引擎来了,发布最强AI模型!发布会现场:总共提了120次AI、视频模型登场......OpenAI或将在5月9日发布ChatGPT版搜索引擎;中文大模型最新排名出炉,腾讯混元位居前三丨AIGC日报仅次于英伟达,市场对微软的偏爱对吗?Google 发布「AI 全家桶」反击 GPT-4o !搜索引擎罕见大更新, 121 句「AI 」道尽焦虑这才是咱们想要的搜索引擎!500行代码打造AI搜索引擎!贾扬清周末项目登顶GitHub热榜最新!特朗普被判34项重罪!会入狱吗?他能赦免自己吗?“木头姐”说特斯拉目标价2000美元!她还投了OpenAI!都对吗?比安卡越露越多,她黑道出身的爹坐不住了!要找侃爷聊一聊!会怂吗?工信部发AI产业建设指南草案;小米申请注册大模型商标;谷歌推出画圈搜索功能丨AIGC大事日报新西兰总理,卖房了!或能大赚数十万纽币!房市会好转吗?黄金!未来会涨吗?可能和你想的正好相反OpenAI提出人工智能“达到人类智能”的五级标准,自认接近第二级;Perplexity旗下AI搜索助手上线丨AIGC日报中国宣布澳中互发五年签证!对澳洲旅行搜索激增200%以上!华人在澳房产投资居榜首...大学毕业,立拿美国绿卡?他,又放豪言!新西兰会跟进吗?最新数据:大发12.1万张工签...英伟达CEO每天都用,AI搜索会是未来吗?大变革!澳洲毕业生工签政策修改,这些要求提高!新西兰会跟吗?AI搜索引擎来了!谷歌放大招,发布最强AI模型,语音功能正面刚OpenAI重磅突发!这一西方国家宣布征收富人税,高达67%!新西兰会跟进吗?澳加美欧都在收...金饰价格突破700元!还会涨吗?[热议]Costco要大规模开寿司吧了!现做现卖日餐、鱼生!加拿大会跟吗
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。