英国小镇的麻醉师,扳倒造假“惯犯”的数据名探
导语:麻醉医师John Carlisle已经在数百篇文章中发现了可疑数据,一本顶尖医学期刊因此改变了发表流程。
如果John Carlisle不需要一大早起来喂猫,那些数据造假的科学家也就不会寝食难安。他每天早上四点半起床,把小猫“巫师”放出去活动。然后,由于难以再次入睡,他会打开电脑,将已发表的临床试验论文中的数据一个一个输入。90分钟后,当他妻子的闹钟响起时,他已经把数百人的年龄、体重和身高信息填进了电子表格。基于这些数据,他知道其中一些人根本不存在。
麻醉医师John Carlisle就职于英国托基市的一家医院,工作之余,他热衷于发现医学临床试验中的数据纰漏。来源: Emli Bendixen for Nature
平日里,Carlisle是一名麻醉师,在海滨小镇托基为英国国家医疗服务体系(NHS)工作。闲暇之余,他执着于寻找临床研究文献中的问题数据。过去十年里,他“审查”过各类关于健康问题的临床研究,从特定饮食方式的益处到各式各样的治疗指南。明察秋毫的他,已经让数百篇文章因学术不端或实验差错被撤回或订正。Carlisle还协助让一些造假“惯犯”丢了饭碗——全球撤稿率最高的6名科学家中,有3名是基于Carlisle的数据分析而被扳倒的。
澳大利亚墨尔本阿尔弗雷德医院麻醉和围手术期医学主任Paul Myles与Carlisle一起审查统计数据可疑的研究论文。他说:“Carlisle的方法已被证明非常有用,他用这种方法成功揪出了数起严重的学术造假事件。”
但是,并非所有人都对Carlisle的“打假”副业大加赞赏。批评者认为,他的方法会让一些没有明显缺陷的论文无辜受到不合理的怀疑。
但Carlisle相信自己这么做是在保护病人,这也是他把业余时间都用来琢磨他人论文的原因。他说:“我这么做是出于好奇心的驱使,而不是因为热衷于揭露不当行为。我不想变成一名揭发学术不端的狂人。”
与坚持核实学术论文真实性的其他人一样,Carlisle用实际行动告诉我们,期刊和研究机构作为科学的守门人,在甄别错误方面做得还不够。有时候,Carlisle所关注的这类医学临床试验可能事关生死。
托基看起来和其他的英国传统小镇没什么两样。环形路上随处可见漂亮的花卉,蜡笔色的乡间小屋引人注目。Carlisle在这里生活了18年,一直在镇上的综合医院工作。在空荡荡的手术室里,一位病人接受缝合后刚被推走,Carlisle讲述了自己揭露医学研究数据造假的事业是如何开始的。
十多年前,Carlisle等麻醉学家开始关注日本研究人员藤井善隆(Yoshitaka Fujii)发表的研究结果。藤井善隆彼时任职于东京东邦大学,在一系列随机对照试验中,他声称已经研究了各种药物对预防患者术后恶心呕吐的影响。然而,他的实验数据过于完美,几乎好到不真实。作为存疑的研究者之一,Carlisle决定核对这些数据。他利用统计检验找出数据中不太可能出现的模式。2012年,他用自己的方法证明,在多数情况下,出现文中模式的可能性“微乎其微”[1]。他的分析间接促使期刊编辑要求藤井善隆目前和之前任职的大学参与调查。2012年,藤井善隆被东邦大学开除,他发表的183篇论文全部被撤,创下了空前记录。四年后,Carlisle与人合作发表了对另一位日本麻醉学家斋藤(Yuhji Saitoh)的分析结果,证明他的数据也非常可疑[2]。斋藤与藤井善隆合著有多篇论文,目前已有53篇论文被撤稿。
其他研究人员很快在自己的分析中引用了Carlisle的工作,并在Carlisle的方法上进行了改进。2016年,新西兰和英国的研究人员对日本南部一家医院的骨学研究员佐藤美洋(Yoshihiro Sato)的论文提出了质疑[3],致使27篇论文被撤回。而佐藤美洋参与合作的文章已有66篇被撤回。
在藤井善隆和斋藤之前,麻醉学界就曾因造假丑闻而备受冲击,其中包括德国麻醉师Joachim Boldt的90多篇论文被撤稿。但Carlisle不相信只有自己的领域才存在问题。于是,他选了8本主流期刊,利用业余时间把上面的数千项随机试验都查了个遍。
2017年,Carlisle在英国的《麻醉学》(Anaesthesia)上发表分析文章,指出16年中发表的5000多项临床试验中,有90项存在可疑数据[4]。目前,这些论文中至少有10篇已被撤回,6篇已被更正,其中包括《新英格兰医学期刊》(NEJM)上一篇关于地中海饮食有益健康的高影响力文章。只不过,在这篇文章中,作者没有蓄意造假,而是在随机选择受试者时犯了一个错误。在作者删除了错误的数据后,这篇论文以类似的结论得以重新发表[5]。
Carlisle的打假事业依然在继续。今年,他对意大利中部拉奎拉大学外科医生Mario Schietroma的数十项麻醉研究提出了警告,称这些研究不能作为临床实践的可靠依据[6]。Myles与Carlisle共同撰写了这篇报告。去年,他们在Schietroma的五篇论文中发现对照组和患者组的原始数据存在可疑的相似之处。
麻醉师在手术中使用的氧气罐。来源: Mark Thomas/Alamy
对Schietroma的研究结论提出质疑,对全球范围内的医院都造成了不小的影响。世界卫生组织(WHO)在2016年发布的一项建议中援引了Schietroma的研究成果,推荐麻醉师在手术期间和术后定期提高病人的给氧水平,以减少感染。Myles认为这条临床建议存在争议:麻醉师很清楚,某些手术中,过多的氧气会增加并发症的风险,而这些建议也会让一些贫穷国家的医院把更多预算花在昂贵的瓶装氧气上。
Myles质疑的五篇论文很快被撤回,WHO将其建议从“强烈建议”改为“有条件建议”,这意味着临床医生有更多自由为病人制定个性化选择。Schietroma辩称,他文中的计算通过了一名独立统计学家和同行评审的评估,他故意选择了类似的患者群体,所以数据非常接近不足为奇。他还表示,与试验有关的原始数据和文件在2009年拉奎拉地震期间丢失了。Schietroma所在大学的发言人称,有关质询已交由相关机构调查处理,但没有明说机构名称以及调查是否在进行中。
Carlisle使用的方法就其本质来说并不新颖。他说自己的方法很简单,因为现实生活数据遵循自然的模式,而这种模式是人工数据很难复制的。这种现象最早发现于19世纪80年代,并在1938年由美国电气工程师和物理学家富兰克?本福德推广开来,被许多统计检验人员使用。长期以来,政治科学家一直在使用一种类似的方法分析调查数据,这种方法名为Stouffer法,以社会学家Samuel Stouffer命名,他在上世纪50年代推广了这种方法。
比方说,在随机临床试验(RCT)中,Carlisle会检查描述志愿者基本特征的基线数据,通常包括对照组和干预组。这些数据包含身高、体重和相关的生理特征,通常在论文的第一个表格中列出。
在真正的随机临床试验中,志愿者被随机分配到对照组或(一个或多个)干预组。因此,每个特征的均值和标准差应该大致相同,但不会太过相似,否则就显得过于完美。
Carlisle会先为每一对构建一个P值,如果志愿者确实是随机分配,这个P值就代表了所报告基线数据的可能性。然后,他会整合所有P值,评估数据整体上的随机分布情况。如果合并后的P值看起来过高,说明数据过于平衡而值得怀疑;过低则表明患者的随机分配有误。
这种方法并非万无一失。统计检查要求表中的变量是相互独立的,而实际情况常常做不到(例如,身高和体重是相互关联的)。在实践中,这会导致一些文章被冤枉,这也是部分统计学家批评Carlisle的原因。
但Carlisle说,他的方法很适合用来作初步筛选,在此基础上找出需要进一步核实的研究,并要求论文作者提供患者个体的相关数据。
Myles表示:“这种方法可以用来在可疑数据中竖一面红旗、一面黄旗或5面、10面红旗,借此说明数据可疑的严重性。”
Carlisle说自己很注意,尽量不把原因归咎于他发现的可能问题。2017年,《麻醉学》发表了Carlisle对5000个临床试验开展的大型分析——Carlisle是该期刊编辑。与此同时,澳大利亚悉尼大学的麻醉学家John Loadsman和Tim McCulloch同期发表了一篇社论,在文中提出了更为激进的观点[7]。
该文章使用了“不诚实的作者”和“学术恶行”等词,还说其他已发表临床研究的作者也会迎来对他们的“灵魂拷问”。社论还强烈建议全球所有期刊把业已发表的随机对照试验全部过一遍Carlisle的方法。
这篇文章引起了美国的《麻醉学》(Anesthesiology)期刊编辑部的强烈回应,该期刊一共发表了12篇被Carlisle列为有问题的论文。期刊主编、北卡罗莱纳州杜克大学的麻醉学家Evan Kharasch说,Carlisle的分析文章存在伦理问题,以这种方式对已发表文章的作者点名批评,无疑是一种伤害[8]。他的这篇回击文章与波士顿的麻省综合医院的麻醉学家、麻醉学统计顾问Timothy Houle共同完成。他们强调了这种方法会导致假阳性的问题,并在给英国《麻醉学》的回应中写道,能检测数据伪造和篡改的有效方法(类似于剽窃检查软件)固然受到欢迎,但Carlisle的方法还没到那个程度[9]。
今年5月,美国的《麻醉学》对Carlisle提出质疑的一篇论文做出了更正,指出文章两个表格中的P值存在“系统性错误”,并表示作者丢失了原始数据,无法重新计算。但Kharasch依然坚持自己在社论中的观点。Carlisle认为Loadsman和McCulloch的社论“合乎情理”,但批评他的工作并不能抹去这些工作的价值。他说:“我相信这些努力是值得的,虽然有的人不这么想。”
除了Carlisle的方法之外,近年来还涌现了一些其他的检查方法。
Michèle Nuijten在荷兰蒂尔堡大学研究分析方法,她开发了一种名为“统计拼写检查”的程序,可以扫描期刊文章,检查所描述的统计数据是否内在一致。这种方法被称为“statcheck”,可以用来验证结果一栏中的数据是否与计算的P值一致。早在几十年前,它就被用来标记期刊文章中错误,主要用来发现一些数值的输入错误。
荷兰格罗宁根大学的心理学研究生Nick Brown以及美国东北大学从事科学方法研究的James Heathers,将一个叫做GRIM的程序用来复核统计学计算,这也是鉴定可疑数据的另一种方法。
寻找论文可疑数据的James Heathers (左) 和Nick Brown。来源:James Heathers/Nick Brown
然而,这两种方法都不适用于描述随机对照试验的论文,也就是Carlisle纠错的研究类型。Statcheck只适合严格符合美国心理学协会格式要求的数据;而GRIM只适用于整数数据,比如心理学问卷要求从1到5进行评分的一类离散数字。
斯坦福大学的John Ioannidis表示,人们对这类检查的兴趣越来越高。专门研究科学方法的他提倡巧用统计学来提高科学的可重复性。他说:“这些都是很实用的工具,非常有创意。”但他也提醒称,不能对问题的原因妄下结论。学术造假和输入错误完全是两件事。”
Brown、Nuijten和Carlisle都认为他们的方法只能用来发现需要进一步调查的问题。Nuijten说,我真的不想把statcheck和造假联系在一起。Ioannidis则说,这类工具的真正价值在于,它们能在论文发表前筛查出问题数据,从源头防范虚假或错误的数据进入文献库。
Carlisle说,越来越多的杂志编辑联系他,希望能用他的方法实现上述目标。目前,大部分这方面的数据检查都是一些临时起意的非正式工作,而且只有在编辑觉得可疑的情况下才会开展。
不过,至少有两家期刊已将数据检查作为所有论文发表前的正式流程。除了Carlisle担任编辑的《麻醉学》以外,《新英格兰医学杂志》的编辑也将该方法作为例行公事。该期刊的一位发言人说:“我们这么做是想预防一些罕见的、但会产生巨大影响的负面事件。为此,我们值得投入额外的时间和费用。”
Statcheck的开发者Michèle Nuijten,statcheck可以用来检验文献中的数据是否一致。来源: Michèle B. Nuijten
Carlisle表示,像《新英格兰》这种级别的期刊引入数据检查令他深受触动,因为这项工作繁琐耗时,并非广受欢迎。但他认为,鉴于全球每年会发表200万篇文章,即使只检查其中一小部分,都需要将这种方法自动化,而他也相信这是可以做到的。Nuijten说这正是statcheck的用法,它常被一些心理学杂志用来筛查已提交的论文。例如,文本挖掘技术可以评估几千篇论文中的P值,发现“P值操控”(专指调整数据以产生显著P值的行为)。
该领域的几位研究人员表示,资助者、期刊和许多科学界人士对这类检查的重视程度还不够高。正如Nuijten所说:“这不是一项很有回报的工作。试图在别人的工作中找茬是不会让你受到爱戴的。”
另外,即使发现研究涉嫌造假,也不一定能解决问题。2012年,韩国的研究人员向《麻醉与镇痛》(Anesthesia & Analgesia)提交了一篇试验报告,研究如何从面部肌肉张力判断将呼吸管插入喉咙的最佳时间。Carlisle接受了非官方邀请,检查了文章中的数据,发现患者数据和总计数据之间存在不符,这篇文章因此被拒稿。
有意思的是,这篇论文随后投到了Carlisle的杂志,虽然文中的患者数据略有更改,但Carlisle还是一眼认出了它。于是,文章再一次被拒。两本期刊的编辑都联系了作者及其所在机构,表达了他们的担忧。令Carlisle吃惊的是,几个月后,这篇文章一动未动地发表在了《欧洲麻醉学杂志》(European Journal of Anaesthesiology)上。在Carlisle将这篇文章的疑点告知期刊编辑后,该文章于2017年被撤回,原因是“数据不规范,包括对结果的错误陈述”[10]。
在目睹了众多数据造假和输入错误后,Carlisle对于为何有些研究人员会选择编造数据提出了自己的理论。他说:“这些人相信,是偶然发生的情况让他们得到的现在的数据,而这些数据与他们眼中的世界运作方式是有出入的。为此,他们把结果改成了他们认为应该是的样子。”
从Carlisle的身上我们看到,只有意志坚定的数据审核人才能识破这些骗术。
参考文献:
1. Carlisle, J. B. Anaesthesia 67, 521–537 (2012).
2. Carlisle, J. B. & Loadsman, J. A. Anaesthesia 72, 17–27 (2017).
3. Bolland, M. J., Avenell, A., Gamble, G. D. & Grey, A. Neurology 87, 2391–2402 (2016).
4. Carlisle, J. B. Anaesthesia 72, 944–952 (2017).
5. Estruch, R. et al. N. Engl. J. Med. 378, e34 (2018).
6. Myles, P. S., Carlisle, J. B. & Scarr, B. Anaesthesia 74, 573–584 (2019).
7. Loadsman, J. A. & McCulloch, T. J. Anaesthesia 72, 931–935 (2017).
8. Kharasch, E. D. & Houle, T. T. Anesthesiology 127, 733–737 (2017).
9. Kharasch, E. D. & Houle, T. T. Anaesthesia 73, 125–126 (2018).
10. Eur. J. Anaesthesiol. 34, 249 (2017).
原文发表在2019年7月23日《自然》新闻特写上,原文作者:David Adam
?https://www.nature.com/articles/d41586-019-02241-z
Nature|doi:10.1038/d41586-019-02241-z
版权声明:
本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件China@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。
? 2019 Springer Nature Limited. All Rights Reserved