国际科技财经移民娱乐民生时事体育

>

ICLR被曝巨大黑幕，评审和作者竟私下勾结？49.9%论文疑有AI审稿

ICLR被曝巨大黑幕，评审和作者竟私下勾结？49.9%论文疑有AI审稿

8月前

新智元报道

编辑：好困乔杨

【新智元导读】正在召开的ICLR 2024会议上，成为关注热点的不仅有耀眼的成果和学术明星，关于论文的审稿程序也掀起了一波讨论。大会官方对网上热议的「串通」行为做出了回应，学界关心的「AI辅助审稿」问题也在ICLR 2024的背景下有了相关的研究进展。

由于规格高、论文多，顶会论文审稿过程的公平性和透明度，向来是业界关注和争议的焦点。

本届ICLR在放榜后就有人在Reddit上发帖，质疑委员会接收了违反匿名政策的论文，且没有在评审过程中遵守双盲原则。

而且这种情况绝不是个例。ICLR官方发布的文章表示，关于审稿过程的问题已经收到了7000多封意见书。

很快，随着大会正式拉开帷幕，ICLR也亲自下场表示，目前已经针对这种「串通」行为展开了调查。

所谓Collusion（串通）就是，一些审稿人通过操纵投标系统与特定作者匹配。

不仅如此，部分领域主席（AC）可能也通过类似的方式操作系统并指派同谋的审稿人。

然后，这些审稿人就会给出极高的评价，从而提高论文被接收的可能性。

对此，ICLR表示：
- 目前已发现多起审稿人与作者之间的勾结行为，其中一些案例有直接证据。
- 这些行为均直接违反了道德守则。
- 道德委员会正审查，并评估可能的处罚。

AI辅助审稿

除此之外，关于评审委员会在审稿时能否使用AI工具的问题也一直饱受争议。

相比其他顶会，ICLR审稿较为独特的一点在于，无论是否被接受，每篇论文的评分和评审意见都会被公开发布。

于是，来自洛桑联邦理工学院的研究人员，就利用ICLR 2024的相关公开数据，研究了用AI进行辅助评审的情况。

这篇论文不仅揭示了评审过程中可能存在的大范围使用AI辅助工具的情况，也采用对比分析的方法研究了这种行为对评审结果可能存在的影响。

论文地址：https://arxiv.org/abs/2405.02150

论文作者首先采用了一个商用的LLM检测器GPTZero来评估所有的文字评审意见。GPTZero可以将给定文本分为「完全由人类生成」，「完全由AI生成」和「混合生成」三类，并给出相应的置信度。

这篇研究中，如果GPTZero认为「完全由人类生成」的置信度低于0.5，则被认定为使用了AI辅助。结果显示，AI辅助评审比想象中的更广泛。

2024年评委们给出的28028条评审意见中至少有15.8%是由AI辅助生成的，全部接收文章中的49.9%收到了至少一条由GPTZero判定为AI辅助的评审意见。

基于GPTZero的检测结果，论文继续研究AI辅助生成的评论是否会对论文的评分和接受率产生影响。

文章包括三部分，第一部分分析AI参与审稿的范围，第二、三部分研究AI辅助可能产生的影响

对于每篇既有AI辅助评审意见又有人类评审意见的论文，作者收集了这些等级制评分的结果（包含5个等级：1分、3分、5分、6分、8分），并使用了比例赔率模型（proportional odds model）拟合估计AI辅助评审会打出更高分数的可能性。

总体上，AI给论文的评分会高于人类。对于一篇给定的论文，AI评分有53.4%的可能性高于人类评分。

无论在哪个分数区间，AI辅助评审打出的分数相比人类都会更高

为了研究AI辅助的评审意见会如何影响论文入选结果，作者从全部论文中挑选了内容相似的文章匹配成对，其中一篇全部被判定为由人类评审，另一篇则只含有一条AI辅助评审，且除去AI的给分后，审稿委员会为它们打出了完全相同的分数。

通过以上标准筛选出5132个论文样本后，作者对比了它们的接收情况从而分析AI辅助评分的影响。

总体而言，一条AI辅助的评分让论文有3.1%的更高可能入选，而且对于评分徘徊在接收分数线边缘的论文，这个数字还会提升到4.9%。

评分在5～6分、处于接收线边缘时，AI评分会对论文入选有正面影响

近年来大语言模型的快速发展，尤其是ChatGPT诞生后，学术界就涌现出了对AI参与审稿过程的质疑，自己工作都在「996」的教授们面对审稿的重担很有可能让大语言模型帮自己撰写评审意见。

这篇论文探究了当今顶会的审稿现状，通过控制变量的方法追踪并量化了因果关系，进而揭示了AI辅助评审对论文接收结果可能产生的影响。

大语言模型的快速发展是否会威胁学术界长久以来实行的同行评审制度，一直是期刊和论文的委员会所担忧的。论文作者表示，这项研究的意义之一在于，用量化的证据坐实了这种负面影响。

由于论文投稿数量的激增以及发展得越来越快的文字生成工具，疲于审稿工作的委员们采用AI辅助工具似乎是不可避免的趋势。

以ICLR为例，2023年的总投稿数仅为4955篇，今年就激增了将近一倍，达到7262篇，这无疑给会议的评审委员会带来了很大的工作负担。

论文的最后一部分诚实地表达了作者的担忧，认为审稿过程的准则和评价指标需要跟随大语言模型的发展一同进化。

否则，任由AI放肆地将自己不成熟的价值观投射到学术论文的筛选过程上，尤其是那些含有更多观点和价值表述的论文，将会产生更严重的危机。

最后，作者还分享了他们基于GPTZero打造的检测网站，只要输入你的论文标题，就能看到自己的ICLR论文是不是被「幸运」地分配到了AI辅助评审。

测试地址：http://aireviewlottery.com

参考资料：

https://arxiv.org/abs/2405.02150

https://twitter.com/manoelribeiro/status/1787512594661572878

https://blog.iclr.cc/2024/05/06/code-of-ethics-cases-at-iclr-2024/

https://papercopilot.com/statistics/iclr-statistics/

微信扫码关注该文公众号作者

来源：新智元

相关新闻

审稿人角度：一篇顶会论文有哪些选题技巧？顶流Mamba竟遭ICLR拒稿！AI学者集体破防，LeCun都看不下去了。。。GPT-4「荣升」AI顶会同行评审专家？斯坦福最新研究：ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成如何快速增加学术论文的审稿?可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案三行代码无损加速40%，尤洋团队AI训练加速器入选ICLR Oral论文 2024上半年SCI论文撤稿大数据：中国作者撤稿占到全球的54%！主要涉及这四大原因。。。发表3天被撤稿！想靠AI写孟德尔随机化？用对工具，1天写完！吊打GPT4！幼儿园突然关停怎么办？编内编外能否实现“同工同酬”？专家详解学前教育法草案二审稿【SCI选刊】神经外科丨发文最多期刊、审稿周期大全；及各医院SCI论文掠影（2024上）【SCI选刊】神经科丨发文最多期刊、审稿周期大全；及各医院SCI论文发表掠影（2024）糟了！因多篇SCI被撤稿，主任要求不允许再用AI写论文！医生：如何不留痕迹用AI……糟了！因多篇SCI被撤稿，主任要求不允许再用AI写论文！医生：如何不留痕迹的用AI……ICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性 ICLR 2024接收率31％，清华LCM论文作者：讲个笑话，被拒了 ICLR 2024 放榜！接收率31％！清华LCM论文作者：讲个笑话，被拒了。。。《芭比》不配奥斯卡最佳导演和影后提名？华裔影后杨紫琼发出疑惑：“怎么能漏掉？” （附视频&对话稿）加入富书一年后，我的稿费暴涨10倍，从写作小白变成280w阅读量的作者，我都做对了什么？综述写成“综抄”？研一渣渣综述被拒稿，遭导师吐槽：写的还不如AI……ICLR接收结果出炉！有人提出异议：论文稍微超过9页，就被拒了？？【SCI选刊】营养科审稿最快、发文最多的SCI期刊大全；及各医院SCI发文掠影（2024）【SCI选刊】检验医学审稿最快、发文最多的SCI期刊大全；及各医院SCI发文掠影（2024）【SCI选刊】胸外科审稿最快、发文最多的SCI期刊大全；及各医院SCI发文掠影（2024）【SCI选刊】运动医学审稿最快、发文最多的SCI期刊大全；及各医院SCI发文掠影（2024）