同行评审制度的发展历史和科学家的思考

高能所 2022-05-09 16:17:39

■童国梁/文


今天,同行评审已经是论文发表出版、科研经费申请以及学术奖励的一项基本制度。评审制度起源于英国,美国是第二个采用这种办法的国家,同行评审在美国发展、完善,已作为一种学术和科学研究中行之有效的制度深深根植于美国的历史、文化和立法中。但是这种制度在美国学界也经常受到批评。有些美国学者认为同行评审看上去是个好机制,但实际上是有缺点和带倾向性的。本文将对有关情况做些介绍,供读者参考【1】。


从爱因斯坦的论文被拒发
的故事说起


1915年,爱因斯坦的广义相对论论文发表,革新了自牛顿以来的引力观和时空观,创造性地论证了引力的本质是时空几何在物质影响下的弯曲。1916年爱因斯坦在广义相对论的框架内,又发表论文论证了引力的作用以波动的形式传播。时至1936年,爱因斯坦和他的助手罗森( Nathan Rosen )展开了对引力波严格解的研究,而后,他们写了一篇《引力波存在吗?》(Do Gravitational Waves Exist?)的论文寄给《物理评论》(Physical Review)。其中他们认为引力波并不存在,那是违背现行科学共识的有争议的主张。在论文提交6周后,《物理评论》主编约翰.托伦斯.泰特(John Torrence Tate)给爱因斯坦做了回复:


“在发表您的论文之前,我希望看到您对审稿人的各种评论和批评的反应告诉他。”


并附了关键审稿人的审阅报告副本。爱因斯坦很惊讶,他的论文竟会被送到外部审查。他在回复泰特的信中说,


他和罗森已经把我们的手稿寄给你了,但没有授权你在印刷之前把它给专家看。我看不出有什么理由要处理你的匿名专家的任何错误评论。基于这件事,我宁愿在别处发表这篇论文。


爱因斯坦的回信语气生硬,署名缺失,并表示他再也不会把他的研究论文发表在《物理评论》上。显然,爱因斯坦生气了。作为一个高级物理学家的自我展示,他认为他的名气会让他跳过同行评审的过程。然而,如果深入挖掘同行评审的历史,将揭示出一个更加复杂的情景。在1936年,世界顶尖科学期刊稿件评审并不是一个普遍的做法。甚至也不是《物理评论》的普遍做法。爱因斯坦的前一篇1935年发表在《物理评论》上的论文,即爱因斯坦-波多尔斯基(Podolsk)-罗森的“EPR佯谬”论文尽管带有挑衅性的反量子结论,但他们并没有收到审稿人报告。尽管这次爱因斯坦的表现不够谨慎,我们多少还得理解爱因斯坦在收到批评他的文章的匿名报告后感到的困惑。


80年后的今天同行评审是学术界和几乎每一门学科论文发表和出版的既定政策,给科学杂志投递的论文在它们进入出版科学论文资料库之前,将被审读和评论,通常还需要修改。当然,让这个故事更具趣味性的还在于这次犯错的不是审稿人,而是大名鼎鼎的投稿人爱因斯坦教授。半年后事情发生了转变,爱因斯坦对原论文作了大幅修改,在论文结尾处,爱因斯坦还专门对一位年轻的相对论专家罗伯逊(H·Robertson)教授表示了感谢:


“…我们原先曾错误地诠释了我们的公式结果。我要感谢我的同事罗伯逊教授友好地帮助我澄清原先的错误。”


of the Franklin Institute)上,标题也由原来的“引力波存在吗?”改为“论引力波”(On Gravitational Waves),这与他1918年那篇奠定引力波四极辐射公式的论文同名,试想一下,如果不是那位《物理评论》审稿人的拒发意见,那么爱因斯坦和罗森的那篇论文早就在《物理评论》上发表了。那不免会让爱因斯坦作为“引力波先驱”的身份有所失色,而且也必将对引力波的研究和寻找产生重大影响。这个故事可以看成是同行评审成功的范例。在这里还应该特别指出,经过多年考证,爱因斯坦在大幅修改后发表的论文中致谢的罗伯逊教授正是原来拒发爱因斯坦那篇论文的审稿人【2】。



杂志审稿的起源


今天,同行评审这个过程或者制度已成为科学生活的基本制度。那么,这种思想是如何变得如此根深蒂固的呢?这还要从同行评审制度起源和发展来认识。


关于同行评审起源问题几乎都有相同的说法。1665年英国皇家学会给其秘书亨利.奥尔登堡(Henry Oldenburg )编纂伦敦皇家学会的《哲学汇刊》( Philosophical Transactions )的许可,此杂志通常被视为世界上第一份科学杂志。奥尔登堡立刻想到收集专家对他想发表的论文的意见。如此,同行审查诞生了,此后也是科学出版坚守的一部分。是这样吗?最近的历史研究对这种说法提出了质疑。在现实中,奥尔登堡很少对发表在《哲学汇刊》的论文征询外边的意见。他紧紧地控制着杂志的内容,他有时还把自己称为“作者”。该杂志甚至还没有正式的论文提交过程。奥尔登堡只会打印他感兴趣的和他想可能是读者有价值的东西,这些不仅包括实验论文,还包括其他二手的实验报告、近期书籍讨论,甚至还包括他自己的私人信件。


虽然奥尔登堡的确是位科学出版历史上关键角色,但他不是同行评审的发明人。这个荣誉属于威廉·威厄尔(William Whewell),一位剑桥大学的博学者,也就是他创造了“物理学家”和“科学家”这两个名词。1831年威厄尔建议皇家学会应撰写书面报告在《哲学汇刊》发表。他认为这些报告应该发表在学会的新杂志《伦敦皇家学会会议录》上,从而可以达到培植丰富多彩的科学讨论和提供新的出版材料的双重目的。


皇家学会采用了威厄尔征集报告的建议,但不久就偏离了他想为公众讨论打印这些报告的愿景。有少数报告确实出现在回忆录中,但此类实践在1830年代中期就停止了。相反,学会认为评审人的意见主要有助于避免在出版物中印制任何尴尬的东西。十九世纪中叶,《哲学汇刊》的评审几乎完全是由两个秘书管理,一个在物理科学,另一个在生物科学。秘书是社会上的名人,他们都带一个助理秘书给提交《哲学汇刊》的论文安排评审人。评审人的报告被视为秘密公文用于社会的内部使用。多年来,审阅报告并没有提供给论文作者,不管论文是被接受或被拒绝。


英国博学家威廉.休厄尔(1794–1866)。

1831建议皇家学会收集和发表关于《哲学汇刊》文件的报告。


因为作者没有看到审阅人的报告,实际上没有相当于今天的常见的“修订并重新提交”的决定。给《哲学汇刊》的稿件或要么接受,或被拒绝。然而,秘书们偶尔也会鼓励《哲学汇刊》的作者在打印之前修改文章。物理学家斯托克斯(George Gabriel Stokes),曾担任该学会物理科学秘书30多年,他经常通过个人信函建议作者修改。斯托克斯会引用《哲学汇刊》审稿人有用的评论,如果他本人审阅某篇论文的话,他也会给投稿人一份由他签名的报告。


20世纪早期的评审


十九世纪末,科学团体的评审人观点开始发生了一个重要的转变。随着有关的科学论文整体质量提高,评审不再是简单地帮助保护科学团体或期刊的声誉,评审越来越被视其工作的人是为了保护整个科学论文的声誉和诚信,正如一位生理学家和议会成员迈克尔·福斯特(Michael Foster)把此说成是止住“真正的污水扔进科学纯流”的洪水。


二十世纪早期评审人本身往往属于精英科学家的小网络,那时的评审程序也不够正式,论文作者通常看不到评审报告。例如,在《物理评论》中,评审人知道编辑会把他们的评论转述给作者,并且经常提交简短的、随意的、偶尔讽刺的报告。直到1935年,《物理评论》为评审人提供关于论文的标准问卷。到了上世纪60年代为所有论文的系统评审成为一个官方政策。


以盈利为目的的商业期刊出版商甚至不可能有冷战前那样的系统评审。但如《哲学杂志》(Philosophical Magazine)或《自然》(Nature)那样的刊物则继续把内部的编辑审议工作持续到二十世纪。那些期刊很重视杂志的快速出版。许多人都是雄心勃勃的编辑,他们几乎没有理由在一个可信任顾问的圈子之外征求任何人的意见来决定一篇论文的优劣。同样的,许多英语世界中著名的杂志也很依重编辑的判断来选择内容。这样的期刊往往会计算在编辑职员中该国一些最受人尊敬的科学家的数目。例如,马克思•普朗克(Max Planck)是一份受人尊敬的物理学杂志《物理学报》(Annalen der Physik)编辑委员会的长期成员。一些物理学家质疑普朗克真会听取来自外界的意见的来处理《物理学报》的稿件。


拨款组织外部评审的故事与杂志的评审故事相似。洛克菲勒基金会等私人拨款组织在第一次世界大战后不久常常将基金的决定权交给他们信任的中层管理人员手中。与政府或科学团体联系的拨款组织更倾向于使用外部评审人,但这种做法绝不是普遍的。美国政府于1948年成立美国国立卫生研究院(the National Institutes ofHealth)时,NIH的研究资助部门自己就首先评估拨款申请,很少或者根本不向外部评审人进行咨询。相反,一些小的“研究课题”则由NIH附属的科学专家首先来审查申请提案。有关资助的最终决定权掌握在国家卫生研究院的主管——国家癌症研究所等NIH组成机构的负责人的手中。


国家科学基金会根据联邦法律于1950年成立,比NIH更依靠外部专家对申请提案提出意见。有些提案是专门为邮件评审发送的:提案的副本通过邮寄发给评审专家,这些专家则由回复邮件提交他们的意见。另一些提案则由设在华盛顿特区的专家小组评估。


然而,与NIH的情况一样,NSF资助的决定权大部分掌握在NSF雇员手中。董事们负责决定资助哪项提案申请,评审人的意见被视为他们决定中的一个重要部分,但不是NSF接受或拒绝资助的决定性因素。此外,NSF和NIH都没有向基金申请人分享评审报告。提交建议书的科学家将只收到政府雇员编写的简短摘要,说明接受或拒绝的主要原因。


冷战前,期刊或拨款组织避开评审,而把重要权力搁在编辑和主管手上,这种做法并不被视为比依靠评审更不可靠或不科学。爱因斯坦的《物理评论》冲突的故事表明,此时研究者也习惯于编辑或基金会董事的决定,而并不把外部评审视为一个优越的体系。毕竟,一个作者为什么应该相信一个匿名评审者的话,而不相信一个愿意签上自己名字并受人尊敬的编辑或项目主任呢?


公众信任与同行评议


“同行评审”这个术语是在上世纪60年代第一次出现在科学出版方面。有趣的是,这个词似乎没有起源于学术杂志。相反,“同行评审”最初被用来形容拨款组织的评审委员会——通常是NIH和医学界。

 

  “同行评议对于不同的人有不同的含义”作为医生和研究者的欧文·H·佩奇(Irvine H. Page)在《美国医学协会杂志》(the AmericanMedical Association)的1973的一篇社论中说。他解释道:


对大多数美国医生这意味着PSRO[专业标准审查组织,审查遵守美国联邦医疗法情况](the Professional Standards Review Organization, which reviewed compliance with American Medicare laws),对英国上议院是同行审查其他同行的反公德行为,对科学团体,则是研究项目和决定受赠人的财务和未来可能的研究前途。


值得注意的是期刊审稿并不在是佩奇所做的那些定义之中,尽管科学家和编辑们在20世纪70年代为此目的逐步采纳了这样的做法。使这个术语更普遍地使用的一个插曲是1975年的一次关于NSF基金的辩论,这次辩论将突出和巩固同行评审对研究界日益重要的作用。美国科学家,特别是物理学家,在曼哈顿项目的成功中进入了冷战时期。1953年美国政府在科学上的花费比战前的数字增加25倍——而科学的公众支持也是1957年苏联发射人造卫星进入太空之后。


但是,美国科学基金的热情证明是有限的。早在1966年初,,,例如新武器,尚未取得重大进步。这项研究发表在称为“项目后知(认识)”(Project Hindsight)的报告中,其结果引起了一些立法者和评论家对宽泛的科学花费的质疑。此报告是一个早期提示:科学家在冷战初期获得的社会和财务状况可能有风险。


1975年两个超级大国之间的冷战已经进入了一个相对缓和的平静时期。跟上苏联的目标似乎不那么要紧了。此外,美国遭受经济危机。几家主要产油国拒绝向美国出售石油,以报复美国在1973年在阿拉伯-以色列战争中对以色列的支持,石油和天然气供应萎缩。经济增长停滞。通胀和失业率飙升。国会迫于税收的减少和削减开支的压力,一些立法者把目光投向了美国国家科学基金会。


NSF的最杰出的对手是威斯康星州民主党的一位善于宣传的参议员威廉·普罗克斯迈尔(William Proxmire)。1975年3月,普罗克斯迈尔开始设立他著名的金羊毛奖,奖给他认为当月最糟糕的使用纳税人钱的政府项目。 Hutchinson)关于为什么人类,老鼠和猴子在压力情况下咬牙切齿的两个项目。普罗克斯迈尔呼吁NSF“离开爱的讹诈”,宣称哈钦森的“废话”“愚弄了美国纳税人。


参议员威廉.普罗克斯迈尔(1915–2005)

20世纪70年代对NSF做了直言不讳的批评,还是一个尖刻的新闻稿的好手。


同时,另一个名叫约翰·康兰(John Conlan)的雄心勃勃的共和党议员开始批评NSF在其教育计划(特别是在男人方面教育)的花费,这些项目包括:一个研究课程(MACOS)和个性化科学教学系统(ISIS)。MACOS 是一个社会科学的课程,在康兰的家乡亚利桑那州70年代初期以来一直存在争议,批评者声称它提倡道德相对主义。ISIS项目中针对第四年级学生的一项计划被指责对生殖教育过于露骨。


他在寻求发现为什么MACOS和ISIS会得到政府的资助,康兰与NSF的领导发生了冲突,包括基金会的理事,H.盖福德·斯蒂夫(H. Guyford Stever)。康兰要求NSF提供评审报告的完整副本,以及评审人的名字。斯蒂夫说评审人提交的报告仍处在“默认的保密承诺”下,而开放报告的正文或审稿人的姓名违反国家科学基金会的政策。但是,这些都没有说服康兰。


我再次提醒你,我是一个国会议员,负责监督国家科学基金会。因此,我再次要求你提供我所要求的同行评议专家最初评论,而是要不经解释和完整的形式。


论及NSF基金拨款的公开辩论和私下交流导致国家科学基金会同行评议特别监督听证会于1975年7月当着众议院科学、研究和技术小组委员会的面举行。在六天的时间里,国会的提问者和见证人详细地讨论了美国国家科学基金会的同行评审过程。康兰在他的证词认为,NSF的系统把太多的决策权搁在NSF董事手中,但并没有给出足够的有分量的评审报告。他声称,让基金会负起责任的唯一办法是将评审报告连同评审人的名字一起公开。


NSF小组来到听证会,准备对批评做出回应。斯蒂夫(Stever)主任宣布,自1976年1月1日起,申请者将得到给予他们的完整评审报告的复印件,而不仅仅是一份总结报告。然而,斯蒂夫主任坚持评审人必须保持匿名以保证他们的公正。NSF领导人还表示,在未来,一个新的审计办公室将确保董事们对正面和负面的评审报告给予适当的权重——换句话说,把更多的决策权交给评审人。


听证会后,美国国家科学基金会的教育项目明显缩小,而MACOS和ISIS的资金几乎完全停止了。这样,NSF的同行评审改革安抚了凶猛的批评,至少暂时是这样,且争议也很快淡出了公众视野。此时,普罗克斯迈尔卷入了一场诉讼,金羊毛奖获奖人哈钦森控告他诽谤。最终,普罗克斯迈尔对这位心理学家进行公开道歉并从未来的金羊毛奖新闻稿中删掉了个别人的名字。


虽然大部分的批评都是针对社会科学的,但是来自不同学科的科学家们接着发生了争论。《今日物理》密集报道了听证会和美国国家科学基金会的政策变化。总编辑哈罗德•戴维斯(HaroldDavis)在一篇社论中说,听证会证明“同行审查是迄今为止我们决定如何在某一特定区域分配资金的最佳手段。” (见《今日物理》,1975年9月,96页。)在同一篇社论,戴维斯继续宣布,《今日物理》将向每一位国会成员发送(特别重要或大众关注的)有关材料,阐明科学团体的内部工作。正如戴维斯所说:“在一个社会问题无法避免越来越紧密地参与科学和技术的时代,我们需要更多的同行评审,而不是更少。”


20世纪60年代和70年代似乎是同行评议思想转变的关键时期。在二十世纪中叶,外部评审只是期刊或拨款分配机构对提交稿件或基金申请可以选择接受或拒绝的多种方法中的一种。冷战结束时,同行评议是科学受人尊敬的前提条件。


NSF的争议强烈表明,至少在美国,越来越多地强调同行评审的一个原因是冷战期间科学家和公众之间关系的转变。1950年代和1960年代,基础研究和应用研究的支出大幅增长——但是,当怀疑开始蔓延到所资助的工作究竟有多少公共价值时,科学家们面临了失去公众信任和获得研究资金的前景。立法者希望由公众资助的科学能够担起责任;科学家们希望关于科学的决策留在专家手中。相信同行审查,以确保只有最好的和最重要的科学得到资金,这似乎是一种折中。


同行评议的质疑


今天的同行评审是出版任何科学论文或获得基金资助所要求的部分。然而,很少有人说这是一个完美的过程。许多观察家感叹,欺骗或错误的结果仍然登载在经过同行评议杂志的页面上。其他人抱怨的同行评审制度有利于已确立的思想和知名人士,会扼杀科学创新。 Eisen),科学公共图书馆(PLoS)创始人之一,告诉华尔街日报(Wall Street Journal),科学家和非科学家需要丢弃这样的概念,即“任何杂志上的同行评议意味着一项科学工作是正确的。实际上无非是,一些(1 - 4)个人读了一遍,而没有看出任何大问题。”


再则,评审人员的工作一般不关乎他们的任期或晋升,这是现行同行评审制度的另一个缺点。不堪重负的科学家面临缺乏有力的激励去写认真、详细的报告,因为这超越他们的作为一个好的科学公民的最小责任。


网络出版和阅读的转变似乎提出了审阅文章的替代方法,例如允许科学家对他们阅读的文章发表评论。物理学家们长期以来依靠非同行评审的arXiv.org(美国国家科学基金会和美国能源部资助,在美国洛斯阿拉莫斯(Los Alamos)国家实验室建立的电子预印本文献库)来发现该领域最新的出版物,虽然读者可能会认为一篇发布在arXiv但未在杂志上发表的论文可能有些问题。


其他杂志也在尝试对同行评议制度进行一些修改。一个著名的开放存取期刊《公共科学图书馆期刊》(PLOS One)指示它的评审人只评判论文中科学的质量,而不是判断工作的重要性和影响。公共科学图书馆的政策背后的理由是,科学工作者将决定出版后哪些论文最重要。另一个杂志,eLife,把评审人和编辑的相互通讯后对某论文前途达成的联合决定发给作者,而不是向作者发送多个可能互相不同意的报告。


当科学团体考虑同行评议的未来时,想想它的过去也许是有益的。我们常说评审是从艾萨克·牛顿时代起一直不变的稳定的科学的一部分,但是,实际上同行评议的故事比我们通常想象的历史要短,但更复杂。它也充满了批评。早在1845年,科学评审被描述为“充满了嫉妒,仇恨,恶意,和所有苛刻的批评。” 关于审稿人无用和偏见的抱怨,这也不是什么新鲜事。


这一点也很重要即最初时的评审程序并没有发展检测欺诈和确保科学主张的准确性。威厄尔认为评审报告将激励科学讨论,而科学团体接受评审报告以确保没有明显尴尬的东西出现。论文作者,而不是评审人应对他们的论文内容负责。直到20世纪,有人认为评审人应该对科学文献质量负责,而到了冷战结束,同行评审才被认为科学上的合法性。


“我们的评审人,我们信得过”
——同行评议的根本和希望


同行评审在科学界的作用从来就不是一成不变的。它的形式和功能根据科学家们从实践中的需要已经成形和改造——无论是社会公信力,或保证公共资助者知道自己的钱花得很有责任感。


一些应对措施,例如邀请评审人的回避制度,对申请人承担的基金项目数目的限制(遏制名人和单位垄断),设立专项基金(帮助年轻人或鼓励创新),对克服同行评审的弊端会起到一定作用。但是为了提振和重塑同行评审的公信力,美国科学界发出了“我们的评审人,我们相信吗?”的声音。确实是这样,一支科学家信得过的评审人队伍是提高同行评议公信力的根本和希望。本文的开头,我们把《物理评论》拒发爱因斯坦论文的故事看作同行评审成功的范例。但仔细想一想,要不是当时《物理评论》主编泰特的认真负责,敢于坚持真理向权威的错误说不,要不是审稿人罗伯逊(H·Robertson)极其认真和仔细地审读爱因斯坦复杂的广义相对论方程求解过程的话,要不是他水平高,能正确看出其中的错误,没有这些,还有什么力量能阻止爱因斯坦错误论文的发表呢?所以,我们在缅怀那些为在科学界确立同行评审制度的精英的同时,更要记住泰特先生和罗伯逊教授,正是他们的科学道德和专业精神为同行评审赢得了巨大的声望。如果有这样的人主持同行评审,那些弊端恐怕就很难现身了。

  

【1】  本文内容大多取自Melinda Baldwin撰写的“In Referees we Trust?”,44 Physics Today| February 2017。M·Baldwin为《今日物理》的图书编辑和《自然》:科学期刊的历史(芝加哥大学出版社,2015)一书的作者。

【2】  详见卢昌海“时空的乐章—引力波:百年漫谈(四)”,《现代物理知识》,第29卷第4期(总第172期)