顶尖学术期刊的同行评审存在问题?一篇《自然》论文引发争议
来源:http://www.jamesyang.com/
编译 | 施佳鑫(《知识分子》特约撰稿人、香港科技大学硕士研究生)
责编 | 陈晓雪
● ● ●
同行评议是主流国际学术期刊决定一篇文章是否录用的重要制度,除了期刊编辑外,同一领域的匿名评审人对来稿扮演着“把关人”的角色。正是这项制度的存在,才保证了期刊论文的质量,然而,这项制度也并不是完美无缺。
最近,《自然》(Nature)杂志发表的一篇关于人类寿命极限的论文迅速吸引到媒体和学界的关注,BBC和《纽约时报》均对该论文做了报道。论文的研究方法也随之遭到多方质疑,甚至有同行认为《自然》这样的顶级刊物不应该发表这一研究。荷兰《新鹿特丹商报》(Nieuwe Rotterdamsche Courant)首先揭开了该文审稿过程的曲折,并引发学界关于期刊同行评议的讨论。
假设与数据相符可能只是巧合?
去年10月,美国阿尔伯特爱因斯坦医学院(Albert Einstein College of Medicine)的遗传学家Jan Vijg和其团队的博士后董潇、博士生Brandon Milholland在《自然》发表了题为“人类寿命极限的证据”(Evidence for a Limit to Human Lifespan)的研究,宣称世界上最长寿命自1995年起就不再增长了,“人类的寿命的极限大约是114.9岁”。 实际上,最长寿命纪录的保持者是1997年去世的法国女子Jeanne Calment,她活了122岁。文章指出,从统计学上来说,人类活到122岁的概率几乎可以忽略不计。
这一研究主要基于两个全球长寿老人数据库,运用统计分析来说明世界最长寿命在1995年出现转折点。研究人员发现,自20世纪中至1995年,世界最长寿命持续上升,而1995年后出现了下降趋势。
下面的两张图是文章的核心部分,展现了这一趋势。图1出现在正文,图2用了另一数据库,作为材料补充出现在附录。
►图1
►图2
值得注意的是,Vijg先假定有以上趋势,再用统计方法拟合出以1995年为分界点的两条潜在的“趋势线”。
荷兰乌得勒支大学(Universiteit Utrecht)的方法学与统计学教授Peter van der Heijden就文章数据提出质疑:“分析数据前,先要有非常可靠的理论背景。当只是用你的数据来推测存在这样一个转折点,你所发现的很有可能只是巧合。”他指出,文章研究中1995年后的下降趋势仅仅是基于122岁的Calment和另外11个长寿老人的寿命得到的,样本量非常有限。
统计学上用显著性水平来判断根据样本模拟出的趋势在多大程度上接近真实情况,一般认为95%的显著性水平是可以接受的,实际上,根据Vijg等人的论文,第二段趋势线并没有达到95%的显著水平(P=0.27,P值越小,表明结果越显著),意味着真实的最长寿命随着年份的变化不一定是下降,它也可能是上升或者不变。
在《新鹿特丹商报》的采访中,Vijg回应说,“你不需要用统计学来说明你用眼睛就能看出的东西”,他认为,人类最长寿命以1995年为转折点、先升后降的趋势很明显。
而《新鹿特丹商报》的制图员利用GRG数据重新制作了图表,不同的是,他去掉了论文中的两条斜线,把所有点换成同一个颜色,并且未将数值近似,这样得到的图就很难看出先升后降的趋势了。
除了一些非正式的批评,荷兰跨学科人口研究所(Netherlands Interdisciplinary Demographic Institute)的博士候选人Ilya Kashnitsky在经同行审查的在线论文发表平台Publons上发表文章批评Vijg等人的研究。
他就数据选取、异常值处理和对不同国家、不同世代的寿命差异的忽视等方面提出了质疑。例如,Vijg等人只使用数据库中法、日、英、美等国的数据,他们的理由是“这几个国家是长寿老人最多的国家”,而Kashnitsky认为这么选取数据缺乏足够的理由。另外,Kashnitsky认为分析数据时应去除异常值,因为是否保留异常值对结果的影响很大,而Vijg等人认为丢掉异常值意味着丢掉40%的数据,因此保留了异常值。
关于统计结果的批评,在《新鹿特丹商报》的报道中,Vijg反驳说:“我们的统计系认为这么做没问题,而且两个评审人本身也是人口学家,他们应该知道对不对,是吧?”Vijg的这番话也反映了许多人对“同行评审”的观点,那就是,能够通过同行审查的学术文章想必是没有什么问题。
最初被拒
“这么顶尖的杂志发表这一研究,令人沮丧。”在《新鹿特丹商报》的报道中,联合国人口部门主任John Wilmoth说。
有同行评审人参与的“把关机制”是主流国际学术期刊决定一篇文章是否录用的重要制度。把关人由期刊编辑和同行评审人构成,同行评审人是同一领域的专家,他们被邀请来评估来稿是否有资格发表。像《自然》这样的顶尖期刊往往要拒绝许多文章,而最后通过同行评议的文章一经发表,常常成为学术界和社会的热门话题。
在《新鹿特丹商报》接下来的调查中,关于这一论文评审的过程被重构出来,而学术期刊“把关机制”中的一些问题也浮出水面:同行评审应该审哪些内容?把关人是否做到了认真、严格、独立的评审?
Vijg等人的文章起初是遭到《自然》拒绝的。
在收到Vijg等人的文章后,在《自然》杂志有着21年工作经历的编辑Marie-Therese Heemels做了一个重要决定:送审文章。
根据《新鹿特丹商报》的调查,有三位匿名评审人独立评审这篇文章,其中两位是法国国家健康与医学研究院(Institut national de la santé et de la recherche médicale,INSERM)的人口学家Jean-Marie Robine和伊利诺伊大学芝加哥分校(University of Illinois at Chicago)的流行病学家Jay Olshansky,还有一位审稿人的信息未能得到。
2016年4月14日,Jean-Marie Robine第一次收到这篇文章的审稿邀请时,他看到了方法部分的缺陷:当时初稿只用了美国的数据,却把结论推广到全人类。他建议Vijg等人用全球的人类死亡数据库(Human Mortality Database)。
而初稿的第二部分使用了年龄超过110岁的长寿老人的数据,这是Robine的专长。自2002年起,Robine与合作者建立了包含每个国家寿命超过110岁的老人的“国际长寿老人数据”(International Database on Longevity,IDL)。Vijg等人初稿使用的是“老年学研究小组”(Gerontological Reserch Group,GRG)的数据,而GRG记录的是打破长寿记录的的案例,与吉尼斯世界长寿记录相同。
“建议《自然》拒稿”,Robine审稿的意见很负面。
Jay Olshansky的评审意见涉及较多方面,最主要的建议是关于生物学原理的,“我强调他们应该在文中加入这样的话:人体内并没有控制衰老或者死亡的‘基因程序’,人体不存在这样的‘生物钟’。” 除了这些,他没有其他重要的意见了。“我可能提到过一些技术性的问题,但作为一个审稿人,我不会过多谈及技术问题。”他说。
“审稿人关注的重点并不是统计分析,而是一篇文章的整体观点,那就是人类的寿命的增长不会永无止境。那才是重点!”在《新鹿特丹商报》的报道中,Olshansky解释说。
在《自然》的审稿要求中,审稿人的最主要的职责并不是为研究方法部分把关。《自然》为审稿人列出了11条符合“理想的评审”的标准,其中无一条涉及统计或者研究方法,在11条以外的次要标准中,有一条关于方法部分,但仅在“时间允许的情况下”。在这11条中,有5条都关于新颖性和重要性,例如“这篇文章是否有可能成为本年度本学科最重要的五篇文章之一”。
Olshansky不记得他对第一稿的最后意见了,可能是拒稿,也可能是重新修改。
而Vijg告诉《新鹿特丹商报》,所有的审稿人对第一稿都给了“大量的批评意见”,其中有一位匿名评审人对分析方法的每一个部分都有批评,他认为那个评审人“非常不开心”。
《自然》编辑决定不予录用这篇文章,投稿三周内Vijg就收到了拒稿信。
“最初编辑说,我们不感兴趣。但我们说,为什么不再看看呢?”文章的第二作者Milholland回忆道。
得到第二次机会
没想到的是,去年五、六月份的时候,《自然》的编辑们又改变了想法,Vijg他们得到了第二次机会。
这一次他们热切地向审稿人“学习”如何进行人口学分析。“他们手把手地告诉我们人口学分析错在哪里,我们应该如何做。”Vijg说。
Olshansky说,“编辑们给我多次来信,几个作者也坚持不懈,他们努力去完善这篇文章。”
Robine向作者建议用IDL的数据,后来被采纳,GRG的数据分析结果在最终论文中只是作为补充。“IDL是一个基于总人口的数据库,也就是说,它包含了一定时期某一特定人口中的所有长寿老人的案例。因此,我们可以无偏误地得到在一定人口中,长寿老人的数量或该人口中所能达到的最长寿命随着不同时期的变化”,Robine向《知识分子》解释道。
“你可以说我们是非常好的学生”,Vijg说。Vijg虽然是文章的通讯作者,对文章负有最终的责任,但在他看来,几个审稿人几乎成了他的合作者。在《自然》杂志,文章的最后有这样一行字:“《自然》感谢Robine和其他几位匿名审稿人对此文的同行审查工作。”
在第一次收到审稿邀请后的三个月里,三位审稿人再次收到了Vijg等人修改后的文章,第二版文章使用了新的数据,在文后的附录中,还有200张基于人类死亡数据库的图表,分析了41个国家的死亡人口数据。
审稿人会看这些图吗?
“我不记得我是否看过那些图了”,Robine说,“有其他的专家对这个更在行”。他第二次审稿时仅仅研究了新用的数据库(IDL)。论文附录中的每张图如同两欧元的硬币大小,Robine觉得这些图表“无聊、混乱和令人费解”。
Robine并不是唯一一个疏忽了图表的,据《新鹿特丹商报》报道,Milholland记得第二次审稿时没有一个审稿人提及41个国家死亡人口数据分析的细节。当被问及这是否让他感到失望时,他表示不会,“当你的审稿人说这篇论文不错,没有人会因为审稿人没过多谈及细节而失望。文章发表,你知道,就够好了。”总体来说,审稿的过程会让人有一点点失望,Milholland表示,“有的时候你觉得审稿人谈论得很肤浅,你真的会想,你们读论文了吗?”
Robine的第二次审稿意见很简短。他写道,“……很难强烈地反对这篇文章”,因为“作者完全根据我之前的建议修改了”。
只有第三个审稿人坚持一审的意见,认为“这不是真的”,Vijg在接受《新鹿特丹商报》的采访中说。
在Robine给编辑写信给出积极的评价后6天,他从《自然》得到信息:Vijg的文章已经被录用,发表日期为2016年10月5日。在《自然》面向媒体的推荐中,这篇文章也出现了,还配有一整页的正面评论,作者署名 Jay Olshansky。
评论中,Olshansky并没有说明自己是该文的审稿人。审稿人发表评论性文章却不说明自己的审稿人身份是否合适?《自然》出版经理Rebecca Walton向《知识分子》表示,出于保密需要,他们无法对发表的学术或评论文章的审稿过程作出回应。
妥协的结果?
今年1月,《自然》向《知识分子》表示,他们所发表的文章都经过了严苛的同行评议。
但回顾《新鹿特丹商报》调查所展示的审稿过程,荷兰蒂尔堡大学(University of Tilburg)的研究方法学与同行评审专家Jelte Wicherts与原《英国医学期刊》(British Medical Jpurnal)总编辑Richard Smith表示,审稿人的独立性出现了“妥协”,审稿人对数据的批判性不够。
比如,Jean-Marie Robine认为文章的数据分析并不足以支撑这个结论。不过,他又认为,审稿人不能因为不认同对结果的解读就建议拒掉一篇文章。在《自然》的11条审稿标准中,还有一条 “文章的分析令人信服吗?”显然,Robine并没有考虑到这一点。
去年11月在荷兰的一个报告上,Robine提到了这篇论文,他表示很难预测人类寿命的极限,也不认为Jan Vijg论文中使用的是正确的方法。
而Olshansky在第二次审稿时认为图表中新西兰1960-1980年的曲线波动是数据有限的结果,但他并不认为这是什么问题。
只是,为什么《自然》会突然改变主意,给Vijg等人的文章第二次机会呢?
Smith猜测,可能是因为论文结论的“性感”。Wicherts认为,可能是因为编辑们意识到这一论文有“新闻价值和影响力”,“这也是他们的商业模式”。
与《自然》杂志一样,世界上很多顶尖杂志都通过第三方的同行评审来决定录用哪篇文章。《自然》的官网感谢了2015年的32319位审稿人。据统计,92%的来稿被编辑或匿名审稿人拒绝了。就Vijg等人的文章,《自然》的编辑以及三位审稿人是否完成了严格、独立的把关人的角色?据《新鹿特丹商报》,出版伦理委员会(Committee on Publication Ethics,COPE,一个由约2万名科学杂志编辑组成的机构)的副主席Chris Graf持否定观点,他说,“我不认为《自然》会为发表这篇文章而开心,这件事反映了《自然》并没有起到把关人的作用。”
今年1月,Vijg告诉《知识分子》,文章发表后收到的大部分反馈是“非常正面的”,他说,“(不仅仅是研究方法)也有许多批评是针对结论的,我们都尽可能答复那些批评。因为我们用的是公开的数据,任何人都可以复制我们的研究。”
在Vijg看来,人类寿命是否有极限这样一个具有争议的话题,受到批评是难免的。他说:“如果我们没有受到任何批评或者反对,我们反倒会不开心,因为那意味着我们的研究没人关心。”
参考资料
1. Dong, X., Milholland, B., & Vijg, J. (2016). Evidence for a limit to human lifespan. Nature, 538(7624), 257-259.
2. Kashnitsky, I. (2016). A cohort is not representative of humanity. Publons.com.
3. Olshansky, S. J. (2016). Ageing: Measuring our narrow strip of life. Nature, 538(7624), 175-176.
4. Van Santen, H. (2016). Nature article is wrong about 115 year limit on human lifespan. Nrc.nl. https://www.nrc.nl/nieuws/2016/10/07/human-lifespan-limited-to-115-years-a1525476
5. Van Santen, H. (2016). Peer review post-mortem: how a flawed aging study was published in Nature. Nrc.nl. https://www.nrc.nl/nieuws/2016/12/09/how-weak-science-slipped-past-through-review-and-landed-in-a-top-journal-a1535637#photo=MjAwNDc
6. Van Santen, H. (2016). Statistical problems, but not enough to warrant a rejection. Nrc.nl.