同行评议,是科学进步的最大障碍吗?

  原创 Atom Mastroianni 神经现实

  在过去大约60年里,科学自身在开展一项实验。实验设计不怎么样,既没有随机化,也没有对照组。确切地说,没有人负责这个实验,实际上也没有人进行持续测量。然而,这是史上规模最大的实验,纳入了地球上每一位科学家。

  大多数人甚至没有意识到他们身处实验之中,包括我在内的许多人在实验开始时尚未出生。如果我们曾经注意到会发生什么,也许我们会要求做到最基本的科学严谨。也许无人反对过这项实验,因为它的假设似乎显然是真的:如果我们找人检查每一篇论文,拒绝发表那些未通过评审的,那么科学就能变得更好。人们称之为“同行评议”。

  这是一场规模宏大的变革。从古至今,科学家写信、传播专著,阻止他们交流科学发现的主要因素是纸张、邮资或印刷成本,或者在极少数的情况下,是接待天主教会来访的费用。科学期刊出现于17世纪,但当时它们更像是杂志或简报,挑选文章的机制也各不相同,从“我们收到什么就印什么”,到“编辑询问他的朋友怎么想的”,再到“全学会投票”。有时,期刊无法得到足够的文章发表,所以编辑需要四处恳求朋友投稿,或者亲自上阵。科学发表的大杂烩状况维持了数个世纪。

  (顺便一说,爱因斯坦的论文中只有一篇经历过同行评议,并且这令他感到十分惊讶和不安,最后他将文章发表在另一个期刊上。)

  - Duy Huynh -

  二战之后,一切都变了。政府投入资金用于研究,同时召集了“同行审稿人”,以确保他们没有把钱浪费在愚蠢的提案上。这些资金变成了大量的论文,曾经苦苦挣扎着填满版面的期刊如今难以抉择要发表哪些文章。在20世纪60年代前,发表论文前进行评审“十分罕见”,如今这种现象越来越普遍,最后风行全球。

  现在,几乎每家期刊都会邀请外部专家来评审论文,不讨审稿人欢心的论文会被拒稿。你仍然可以把你的发现写信告诉朋友,但以招聘委员会和资助机构的所作所为看来,仿佛科学仅仅存在于同行评审期刊上的论文中。这就是我们运行了六十年的大型实验。

  结果出现了。同行评议失败了。

  - tommyparker.co.uk -

  海量资金的浪费

  同行评议是一项巨大的、昂贵的干预行动。据估计,科学家群体每年花在评审论文上的时间达15000年(每个审稿人所用时间的总和)。一篇论文需要花费数月或数年才能通过评审系统,当人们试图做一些诸如治愈癌症、阻止气候变化之类的事情时,这无疑会耽误许多时间。同时,大学要支付数百万美元来获得同行评议期刊的访问权限,即使大多数研究都是纳税人资助的,而且这些钱一分也没有流向作者或审稿人。

  大规模的干预理应产生大规模的影响。例如,如果你向学校系统投资1亿美元,顺利的话这笔钱最终能让学生过得更好。如果数年后你出现了,你问:“嘿,我的1亿美元对学校系统起到了怎样的帮助?”然后每个人都说:“呃,我们不确定它起了什么作用,我们现在也对你十分恼火。”那么你会感到非常沮丧和尴尬。类似地,如果同行评议改善了科学,那效果应该是非常明显的;如果它没有带来改善,那我们应该感到非常沮丧和尴尬。

  同行评议并没有改善科学。几十年来,在所有不同的领域,研究生产力一直趋于停滞,甚至在走下坡路,而同行评议似乎没有改变这一趋势。新的想法没能取代旧的想法。许多经过同行评议的发现未能被重复,它们中的大多数可能根本就是错误的。当你让科学家们评价20世纪获得物理学、医学和化学诺贝尔奖的发现时,他们会说,在同行评议前发表的发现和那些在同行评议后发表的一样好,甚至要更好。然而事实上,因为从20世纪90年代到21世纪初做出的诺贝尔奖发现数量太少,你甚至没法要求他们对这些发现进行评价。

  当然,自二战以来,许多其它的事情也发生了变化。而这场实验开展得很糟糕,所以一切都乱套了。从这些大趋势中,我们只能说,我们不知道同行评议是否有所助益,它也可能有害,而且它成本高昂,并且科学文献目前的状况也相当糟糕。在这方面,我们称之为完全的失败。

  - WE AND THE COLOR -

  事后检查

  是哪里出错了?

  这里有一个简单的问题:同行评议是否做了它应该做的?它是否揪出了差研究,阻止它们发表?

  它没有。科学家已经做过这样的研究,他们故意在论文中添加错误,投递给审稿人,统计审稿人会揪出多少错误。审稿人表现很糟糕。在一项研究[1]中,审稿人找出了30%的主要缺陷(Baxt et al., 1998);另一项研究[2]中是25%(Godlee et al., 1998);第三项研究[3]的结论是29%(Schroter et al., 2008)。这些错误都是关键问题,例如“该论文声称使用了随机化对照试验但实际上没有”,“当你看图表时,很明显没有效应”,以及“作者得出了完全不被数据支持的结论”。大多数审稿人都没有注意到。

  *译者注

  [1] Baxt, W. G., Waeckerle, J. F., Berlin, J. A., & Callaham, M. L. (1998). Who Reviews the Reviewers? Feasibility of Using a Fictitious Manuscript to Evaluate Peer Reviewer Performance. Annals of Emergency Medicine, 32(3), 310–317. https://doi.org/10.1016/S0196-0644(98)70006-X

  [2] Godlee, F., Gale, C. R., & Martyn, C. N. (1998). Effect on the Quality of Peer Review of Blinding Reviewers and Asking Them to Sign Their ReportsA Randomized Controlled Trial. JAMA, 280(3), 237–240. https://doi.org/10.1001/jama.280.3.237

  [3] Schroter, S., Black, N., Evans, S., Godlee, F., Osorio, L., & Smith, R. (2008). What errors do peer reviewers detect, and does training improve their ability to detect them? Journal of the Royal Society of Medicine, 101(10), 507–514. https://doi.org/10.1258/jrsm.2008.080062

  事实上,我们已经得到了同行评议无效的现实数据:造假论文一直在发表。如果审稿人发挥了作用,那么我们本该听到许多故事,像是“贾教授今天被解雇,因为他试图向一家科学期刊投递伪造的论文。”但我们从没听说过这样的故事,相反,几乎所有关于学术造假的故事都始于论文通过了同行评议并发表。只有在后来,某个老实人(通常是作者自己实验室的人)注意到一些异常之处,决定进行调查。这就是这篇关于不诚实的论文所发生的事情,该论文显然伪造了数据(多么讽刺),而作者们已经发表了数十甚至数百篇造假论文,这场灾难如下图:

  “等等,那不是误差棒吧……是论文作者把字母T放在条形图顶上了??”

  为什么审稿人没有注意到基本的错误和公然的欺诈呢?一个理由是,审稿时他们从来不看论文背后的数据,而这恰恰是错误和欺诈最容易出现的地方。实际上,大多数期刊不要求你公开数据。你应该“按要求”提供数据,但大多数人不这么做。这就是为什么我们最终会陷入情景式喜剧的状况,比如大约20%的遗传学论文数据完全无用,因为Excel会自动将基因的名字更正为月份和年份。

  (当一名编辑开始要求作者在投稿后补充提交原始数据时,半数作者拒绝了,撤回了投稿。这表明,用这位编辑的话来说,“可能原始数据从一开始就不存在。”)

  同行评议的发明甚至鼓励了糟糕的研究。如果你试图发表论文表明,观看小狗视频能让人们向慈善机构捐更多的钱,然后2号审稿人说“如果这项研究也适用于小猫视频,我会感到印象深刻”,这时候你就受到了极大的压力,要证明小猫视频也能起作用。你可能会篡改数字,或者删掉一些极端数据,或者测试一系列小猫视频,直到筛出一个有用的,然后闭口不提那些没用的。

  - theconversation.com -

  同行评议,我们几乎

  都没把你当回事

  我们还有另一种方式来检验同行评议是否有效:它真的赢得了科学家们的信任吗?

  科学家常常说他们非常认真地看待同行评议。但是,人们会说很多言不由衷的话,比如“很高兴认识你”,“亚当,我永远不会离开你”。如果你看看科学家们实际上所做的事情,很明显,他们并非发自内心地重视同行评议。

  第一:如果科学家很关心同行评议,那么当他们的论文在评审环节被拒时,他们会听取反馈,做更多的实验,重写论文等等。然而实际上,他们通常只是把论文原封不动地投到另一个期刊。这是我作为一名年轻的心理学家最早学到的事情之一,当时我的本科导师解释称,发表论文有“巨大的随机成分”。(翻译一下:“朋友,它就是随机的。”)如果第一个期刊行不通,我们就会尝试下一个。她告诉我,发表就像是中彩票,要想中奖就得把盒子塞满彩票。当非常严谨且成功的科学家们声称,你所谓的科学事实核查系统并不比随机水平更好时,这真是令人沮丧。

  第二:一旦论文发表了,我们就会把审稿人意见撕成碎片。极少数期刊会发表审稿人意见,大多数不会。没有人关心审稿人说了什么,也没有人关心作者如何根据反馈修改了论文,也就是说,从一开始就没有人把审稿人意见当回事。

  第三:科学家们会不假思索地认真对待未经评审的研究工作。我们会阅读“预印本”、工作手稿和博客,它们都没有发表在同行评议期刊上。我们使用来自皮尤(Pew)、盖洛普(Gallup)和政府的数据,它们也未经审核。我们去参加学术会议,听人们交流未经审核的项目,我们不会对任何人说:“太有趣了!我迫不及待地想看它接受同行评议,好判断它是否真实了。”

  相反,科学家们默认,同行评议毫无用处,他们通过阅读论文中的方法和结果来对科学研究作出判断。有时,人们会大声说出潜台词,正如诺贝尔奖得主西德尼·布伦纳(Sydney Brenner)所说:

  我不信任同行评议,因为我认为它非常扭曲,正如我说过的,它只是一次均值回归。我认为同行评议妨碍了科学。事实上,我觉得它已经变成了一个彻头彻尾的腐败系统。

  - businessweek.com -

  我们能够修复它吗?

  不,我们做不到

  我曾设想种种能够改善同行评议的方法。审稿人应该看数据!期刊应该确保论文都没有造假!

  想象事情会变好很容易,我的朋友伊桑(Ethan)和我关于此写过一篇论文,但是让事情变好就没那么容易了。我对于同行评议的怨言就像是,看着每年美国有大约35000人死于车祸,然后说:“人们不应该总是出车祸。”这话没错,但怎么做呢?

  问题并不在于不够努力:请记住,我们现在的系统需要每年总和15000年的人力付出,但它依然很糟糕。为审稿人付费似乎不会让他们做得更好,训练他们也不行。或许我们可以修复一些次要问题,但请记住,既然现在还有人发表论文时使用大写字母T而不是误差棒,所以我们还有很长很长的路要走。

  - AJ Noguerra -

  如果我们让同行评议更严格会怎么样呢?这听上去可能很好,但它会造成更多其它的问题,让同行评议更差劲。

  例如,过去你可以把科学论文写出个人风格,而现在为了取悦审稿人,你必须把论文写得跟法律合同一样。过去的论文开头是这样的:“救命!一个神秘的数字正在迫害我”;而现在的论文开头是这样的:“据说,人类曾经存在于很多不同的时间和地点,甚至拥有一些品质、维度或关于人类真实的东西,但这当然需要进一步研究(Smergdorf & Blugensnout, 1978; Stikkiwikket, 2002; von Fraud et al., 2018b)。”

  糟透了。因此,没有人真的会读这些论文。一些论文长达100页,还附带200页的补充信息,并且写作风格都拒人于千里之外,仿佛想让你立刻停止阅读。最近,有个朋友问我最近一次将一篇论文从头读到尾是什么时候,我记不起来了,他也是。“无论何时有人告诉我他们喜欢我的论文,”他说,“我会说谢谢你,即使我知道他们根本没读。”更加严格的同行评议会意味着论文甚至会变得更无聊,也就意味着它的读者还会变得更少。

  - Bored Panda -

  让同行评议变得严厉也会使最严重的问题加剧:你的想法要么得到审稿人的喜爱,要么就一无是处,只是知道这一点就会让你的思考能力变差。这就像是再次成为青少年:在你做任何事情之前,你会问自己,“但别人会觉得我酷吗?”如果你能否获得和保住一份工作,取决于能否产出受欢迎的想法,那么你就会非常善于监督自己的思维,使自己永远不接受任何奇怪的或不受欢迎的事情。这意味着,我们最终会陷入创新性想法变少的境地。除非你认为现在一切都很完美,否则我们非常需要创新性想法。

  如果你确实找到了一种改善同行评议的方式,不需要让它更糟糕,你可以试着说服现有的近30000家科学期刊,将你的神奇方法用于它们每年发表的约470万篇论文中。祝你好运!

  - Slate Magazine -

  同行评议比什么都没有还糟糕;

  或者,情况已经很尴尬了

  同行评议不奏效,可能也无法修复。但有一点点审查总比没有好,对吧?

  我会说:不可能。

  想象一下,你发现食品药品监督管理局(FDA)“检查”牛肉的方法是派一个人(就叫他加里吧)去闻牛肉的味道,并判断牛肉的味道对不对劲,通过了嗅觉测试的牛肉会获得一张“经FDA检查”的标签。你会非常愤怒。没错,加里可能会找到几批坏的牛肉,但显然他会遗漏大多数有问题的肉。这种极其糟糕的系统比没有还差劲,因为它欺骗人们,让他们以为自己是安全的,而实际上并不是。

  这就是目前的同行评议系统,它很危险。关于疫苗导致孤独症的理论来自一篇同行评议论文,发表在世界上最富盛名的期刊之一,它在发表12年后才被撤稿。有多少孩子因为一篇烂论文通过了同行评审,得到了科学认可的标签,而选择不接受疫苗注射?

  如果你想要在美国出售一瓶维他命C药片,你必须附上一份免责声明,说明瓶子上的任何声明都没有经过美国FDA的评估。或许,期刊也应该在每篇论文上贴上类似的标签:“据我们所知,没有人检查过该论文是否真实,它可能是伪造的。”这至少给了人们适当程度的信心。

  - Gizem Vural -

  科学必须自由

  为什么同行评议一开始看起来如此合理?

  我认为我们错误地理解了科学运作的方式。我们以为科学是一个弱连接问题,即进步取决于我们最差的研究的质量。如果你相信弱连接科学,那么你会认为让错误的观点出局是非常重要的,最好一开始就阻止它们发表。你不介意在过程中是否掩埋了少数好的想法,因为埋葬坏想法太重要了。

  但科学是一个强连接问题:进步取决于我们最好的研究的质量。更好的想法并不总是会立刻成功,但它们终将成功,因为它们更有用。你不能用亚里士多德的物理学登陆月球,你不能用自然发生说把泥巴变成青蛙,你也不能用燃素制造炸弹。牛顿的物理学定律依然存在,但他的炼金术配方不在了。我们不需要科学发表来杀死坏想法,我们需要它来让新的想法挑战旧的想法,时间会完成剩下的一切。

  - i2i Art Inc. Illustration Agency -

  如果你有弱连接的担忧,我完全理解。如果我们让人们想说什么就说什么,那么他们可能会说一些不真实的信息,这听起来很吓人。但现在,我们实际上无法阻止人们说出不真实的信息,我们只是假装这么做。事实上,现在我们偶尔会赞美不真实的信息,它们贴有巨大的标签称“经一个出色的期刊审查”,这些标签很难撕掉。这种情况可要吓人得多。

  弱连接思维让科学审查制度显得合理,但审查制度实际上只是让旧想法更难被击败。回想一下,地心说曾显然是正确的,但是如果在哥白尼的时代存在科学期刊,地心说审稿人会拒掉他的论文,并因为阻止了错误信息的传播而暗自庆幸。优生学曾经是科学中的热门,如果一篇论文表明黑人和白人一样聪明,你认为一批种族歧视者会让它通过吗?任何一篇作者是黑人的论文能有机会发表吗?(不要以为这已经是古老的历史,这样的事情如今依然在发生。)我们仍然不理解宇宙的基本真相,今天我们相信的许多想法某一天会被推翻。同行评议,和每一种审查制度一样,只是放慢了真相的速度。

  - bibliocolors.blogspot.com -

  好耶,我们失败了

  没有人负责我们的同行评议实验,这意味着没有人有责任提出结束时间。既然没有其他人了,那么我猜我会这么做:

  各位,我们结束了!大家举起香槟!干得漂亮,恭喜。我们尝试了同行评议,它不奏效。

  坦白说,我松了一口气,这个系统糟透了!等待数月,只为听到编辑认为你的论文不值得被审稿?阅读来自审稿人的长篇大论,而他们出于某些原因,把你的论文视为宇宙万恶之源?花上一整天向期刊发邮件,乞求他们让你用“years(年)”,而非毫无理由地总是缩写成“y”(我真碰到过这事)?我们再也不用做任何这样的事情了。

  我知道,浪费了这么多的时间,我们或许都有些失望,但对一场失败的实验没什么好羞愧的。是的,我们应该在全球推广前对同行评议进行测试。但是没关系,它一开始似乎是个好想法,但现在我们知道它不是。这就是科学!当然,对于科学家来说,对彼此的想法发表看法总是重要的,只是这种具体的做法没能奏效。

  - thenation.com -

  我们现在应该做什么?上个月我发表了一篇论文,我是说我向互联网上传了一个PDF文件*。我用平常的语言写作,所以任何人都能理解。我没有隐瞒任何东西,我甚至承认我忘记了为什么要开展一项研究。我在里面写了笑话,因为没人能阻止我。我上传了所有的材料、数据和代码,每个人都能看到。我想我看起来像个傻瓜,没有人会注意到我,但至少我很开心,并且做了我认为正确的事情。

  *译者注

  https://t.co/VcU9FKrJuz;推特评论见:https://twitter.com/PsyArXivBot/status/1592280692276215808

  接下来,我没有告诉任何人关于这篇论文的信息,就有数以千计的人发现了它,给它留言评论,在推特上转发。

  完全陌生的人给我发邮件,给出经过思考的评论。终身教授们发给我他们的想法。NPR邀请我进行访谈。现在,比起我上一篇发表在权威期刊PNAS上的同行评议论文,这篇论文拥有更高的阅读量。同时,我预感更多的人会把这篇新论文从头读到尾,因为最后几段得到了许多评论。所以,我不确定,这大概是一个发表论文的好办法?

  我不知道科学的未来会怎么样,也许我们会在元宇宙中创作交互式论文,或者把数据集下载到我们的大脑中,又或者在科技狂欢的舞池中低声耳语,交流我们的发现。无论如何,这都要比过去六十年我们所做的要好得多。为了实现这一天,我们所能做的一切就是我们最擅长的事情——实验*。

  *译者注

  本篇文章的后续问答及其读者评论见:

  https://www.experimental-history.com/p/the-dance-of-the-naked-emperors

  后记

  Xhaiden:谁是同行?

  作者:Atom Mastroianni | 翻译:Xhaiden

  校对:玛雅蓝 | 编辑:光影

  排版:?Anneliese | 封面:theconversation.com

  原文:

  https://experimentalhistory.substack.com/p/the-rise-and-fall-of-peer-review

  阅读原文