方法若已加密,论文复现就像猜谜?
海归学者发起的公益学术平台
分享信息,整合资源
交流学术,偶尔风月
论文的可重复性一直是困扰学术界的顽疾之一,如果太多宣称取得了非凡进展的论文却无法被复现,那要如何确认进步的存在呢?无法复现论文有可能是假设本身有问题,也有可能是数据披露不足,但更有可能是实验方法说的太模糊。虽然很多研究者强调需要加强数据共享,但是另一些研究者认为,方法描述太过模糊可能更严重:就像仅凭一份菜谱,不同的人很难做出同样的菜肴,原因是在操作中的细节和变量太多。
2021年发表在elife上的一篇论文中,来自美国弗吉尼亚大学、美国开放科学中心和美国科学交流署的研究团队试图复制一批高影响力的癌症生物学论文,但是从一开始就遇到了许多困难:复现实验所需的方法细节难以获得。
最初选择的53篇论文中提到的193个实验都没有足够详细的描述,通过种种努力,只能重复了23篇论文重的50项实验。对于其他连实验设计都无法开始的论文,他们努力联系原作者寻求协助,“经过数周时间和数十封电子邮件”的拉锯战后,依然有41%的作者“几乎没有提供有效的帮助。”
虽然很多人从其他方面,比如对研究人员“究竟想干什么”表示质疑,但是整个过程似乎揭示了一个严峻的事实:不完整的方法部分是可重复性的主要障碍。根据PLOS Biology上最近发表的一项研究,更糟糕的是“快捷引用”:引用另一篇论文而不是完整的描述实验方法。
理论上,快捷引用是有效而且可能是高效的,毕竟如果之前有团队已经非常详细地描述了一种特定的实验操作方法,为什么还要花费时间和宝贵的版面空间来把它再写一遍呢? 还有一个好处是,引用已有的论文可以避免任何潜在的抄袭指责。那么将这种理论上没问题的办法应用于实践效果如何呢?
研究人员系统地分析了神经科学、生物学和精神病学领域的750篇论文,发现超过90%的论文使用了快捷引用。然而当他们试图追踪15篇论文引用的文献时,他们发现一些引用信息是不完整或不准确的,无法找到原始论文。还有一些论文太古老了,以至于团队找不到pdf或在线版本。此外,许多被引用的作品都包含快捷引用,这迫使研究人员像玩解谜游戏一样一层一层的跟着引用去找到更早的引用,以找到最原始的方法描述。此外,几乎所有被引用的论文都是收费的。
《达芬奇密码》剧照
更不用说,追踪相关论文并不能保证找到对这些方法的足够详细的描述。研究人员发现,在他们研究的465种期刊中,只有不到一半的期刊明确要求作者提供足够的信息以供复现。在上述研究涉及的领域中,大约四分之三的期刊对方法描述没有任何规定。
Science杂志的高级编辑Michael Funk说:“我知道很多人认为,‘这只是方法的问题’,因此直接解释或引用被引用论文的方法并不那么重要。” Science杂志为作者提供了一份清单,让他们在评审过程中填写,其中规定了所需的方法细节。但是Funk说,Science杂志并没有定期检查他们的方法所引用的论文是否开放获取或包含快捷引用本身。他说:“我认为还有很多事情可以做。”
实际上对方法描述的忽略可能比研究者所关注到的更普遍,就在近期,DeepMind 的 AlphaFold 团队在Nature上发表了一篇重磅论文,宣布了预测工具AlphaFold3的问世,它不仅可以预测蛋白质复合物的结构,还可以预测蛋白质与其他类型分子(包括 DNA 和 RNA)的相互作用。但是与之前的二代工具论文不同,这次AlphaFold 团队并没有公布底层代码,只是发布了“伪代码”——对代码可以做什么以及它如何工作的详细描述。
图源:AlphaFold Server Demo
此举让很多科学家感到失望,他们认为这样的做法使他们无法验证新工具的有效性和可靠性,就在上述论文发表的两天后的5月11日,加州大学旧金山分校的计算结构生物学家Stephanie Wankowicz,和其他九位科学家共同撰写了一封致Nature的公开信,认为DeepMind的这种做法不符合科学进步的原则,Nature也没有严格执行自己制定的政策,比如“作者必须及时向读者提供材料、数据、代码和相关协议……任何导致不需要共享代码或算法的原因都将由编辑进行评估,如果重要代码不可用,编辑有权拒绝该论文。”DeepMind 的研究副总裁 Pushmeet Kohli 的回应是:会在6个月内发布AlphaFold3模型的全部代码。
这个回应显然没有让公众满意,很多科学家呼吁相关领域的专家出来破解AF3,而另一些开发类似工具的公司则将其视为有利的市场机遇,投入更多资源加速训练更好的模型。有评论指出,AF2的蛋白质数据来源之一是欧洲分子生物学实验室旗下的欧洲生物信息学研究所,这是由英国政府资助的公共机构,那么AF2开源可能就是必须的。但是AF3侧重于蛋白质与其他物质的相互作用,旨在加速药物的开发,主要合作者 Isomorphic Labs则是谷歌母公司 Alphabet 所有的药物公司,所有数据和成果理论上都是私人的。那作为科学成果在Nature发论文和作为商业机密协助兄弟单位加速药物开发,孰轻孰重呢?
如果有论文使用AF3成功的预测了某些特殊分子的性质,其方法论部分则引用了AF3的论文,但是重复论文的科学家却无法使用这个工具,这个“无法复现”的锅应该谁来背呢?
对此您怎么看,不妨留言与大家分享。
扩展阅读
微信扫码关注该文公众号作者