brianring的个人博客分享 http://blog.sciencenet.cn/u/brianring

博文

科学界出现可重复性危机,不可重复未必就没有意义 精选

已有 19151 次阅读 2016-10-9 16:27 |系统分类:观点评述| 科学研究, P值, 可重复性



科学之路困难重重。

其实天下难事一大堆,烤出可口的法式长棍很难,记住每个朋友的生日很难,搞科研也很难。但是科学研究有一个特点,就是它的难度可以被量化:p值。p值可以帮助我们识别有显著统计学意义的研究结果,不过想要得到较低的p值很难。

在医疗科学领域,具备统计学意义往往意味着提出了一个好的问题、有大量的患者样本、并且能够做好相关的分析和计算。提出好问题得够聪明,大量的患者样本得有足够的资源,做好分析和计算则需要研究人员足够勤奋,让某个研究人员或者研究小组同时具备这些条件就难了。拿我个人来说,我就一直不明白冰箱那些存储箱都是干嘛用的,更别说搞清楚临床研究的整个工作流程了。

不幸的是,当今的科学界对每一项研究的p值都非常重视以确保这些p值能够告诉他们想要得到的信息。研究所得的数据不仅应该意义重大,还应该可重复。不幸的是,不少研究结果往往是不可重复的。实际上,有一些人说我们现在正处于“可重复性危机”的漩涡之中。大量的研究表明,医学和社会科学领域已经发表的大多数研究结果虽然在一开始取得了很好的p值,却几乎都是不可重复的。

那么为什么会出现这种危机呢?难道是因为科学界盛行欺骗和懒惰的不良风气,想要解决危机就只能推翻科学界?可能这个问题比想象中的更为复杂,研究设计应该怎么做,真正可重复的科学结果到底是什么,学界应该就这些取得共识。

20世纪20年代,RonaldFisher首次提出了P值的使用标准,最初用于识别有统计学意义的结果。小于0.05的P值通常被用作阈值,有时候也会听到这样的解释,“做出错误假设的几率低于5%。”这种解释是不准确的。它实际的意思是,“如果假设完全错误,那么得到这些结果(或者更极端的结果)的几率低于5%”(定义p值还有很多更为精确的方式,但是这个应该就可以了)。虽然这两种版本的解释之间差异不大,但是却十分重要


举个例子,假设你是星舰号的科学官,货舱里装着小麦与小黑麦,准备运往薛曼星系,星际联邦和克林贡帝国正在争夺那儿的主权。有一天你在粮仓里发现了很多毛球族,毛球们吃掉了粮仓粮食,而且其中一半的毛球已经死了。假设在毛球族生命周期已知的情况下,毛球死亡数量超过了我们的预期,那么粮食很有可能被克林贡人下毒了。接下来就应该进行统计检验了!

1000个毛球族中454个死亡,其他546个还活着。已知毛球族的寿命,以及舰上所有毛球族都是由上周带来的两个毛球繁衍而来的(毛球族繁殖速度非常快),正常情况下,死亡率不会超过10%。标准的统计测试会得出一个小于0.0001的p值,这决定了我们对毛球族死亡率的预估是否准确,不过对一大批已经死亡的毛球族进行长时间观察的可能性很低。

P值小,就排除了毛球族按预期概率死亡的情况。这是否意味着克林贡人对粮食下了毒?因为p值很小,所以形势似乎对他们不利,但是这不一定就意味着都是克林贡人的错。前面也说到了,p值并不是为了检验我们的假设(毛球族死亡率高于正常水平,可能是因为这些邪恶的克林贡人)是否正确。相反,这个研究只是想要证明如果毛球族的生命周期是一定的,不太可能出现一半族群死亡的情况。可能我们研究的毛球族正好属于寿命较短的那一类,可能这种毛球族讨厌小麦,也有可能是有人在中子等离子体流穿过货舱的时候逆转了它的的极性,导致时间出现了折叠(这一假设很有可能是正确的,所有的星际迷都可以作证)。换句话说,一个低p值并不意味着我们的假设是正确的,只是在提醒我们(目前)不要忽略它。

如果可供测试的毛球数量很少,也会得出具有误导性的p值。可能打开粮仓的时候清理出了一部分毛球族,导致剩下的可供测量的毛球族数量很少,只找到了六个活着的毛球族以及四个已经死了的。考虑我们可能再也找不到任何死毛球了,我们还是得出了一个重要的p值(p=0.0018)。然而我们还是可以提出这样的疑问,因为我们只对少数的毛球族进行了测试,那么对于测试结果的准确性有多大的把握呢?

另一项测试表明,我们有95%的信心保证毛球族死亡的真实比例在10%至70%之间。因为我们预期自然死亡的毛球族占10%的毛球族,所以相对而言这个区间范围还是挺大的。相反,当我们要对1000个毛球族进行测试的时候,毛球族95%的置信区间范围死亡率为42%-48%。

这是在暗示这都是克林贡人搞的鬼吗?我们有一些证据可以表明克林贡人阻碍了薛曼星系的殖民化(虽然证据至今还不是很明确),但是这跟当前科学界的可重复性危机有什么关系呢?

一,可重复性需要对大量的对象进行研究。我们已经发现,即使是在p值很小的情况下,样本的大小都会影响结果的准确性。除了p值之外,提供更多的参数逐渐成为现在发表科学研究的标准要求,列出置信区间将有助于我们规范研究的可靠性。这样列出来之后,会发现,如果只是对十个毛球族进行研究,那么得到的结果很难给人留下深刻的印象。在贸然攻打克林贡国之前,可能还得对更多的毛球族进行另外一次测试。当然,这一点对于临床研究同样适用。如果研究得到的P值好得令人诧异,多半的原因是因为样本太小了。

二,可重复性需要一个良好的假设。在毛球族测试研究中,p值低并不意味着我们的假设就是对的。撇开等离子体流引起的时间褶皱理论,我们真正有信心的是毛球族的死亡可能与粮食有关。由于食用了那些粮食,所以毛球族死亡速度超过了预期,那些没有吃的则安然无恙。在这种情况下,认为是克林贡人在搞破坏似乎是个合理的猜想,但是也有可能跟粮食本身有关,毕竟他们想建立殖民地的星球是一个新的空间混合体。

克林贡人是否在粮食中下了毒,粮食本身是否有问题,这两个因素可能会影响我们重复毛球族研究的能力,这也是为什么说在遇到可重复性危机的时候干草叉也很实用的原因。糟糕的研究设计与分析都会降低一项研究的可重复性,即使是那种p值已经很低的研究。因此科学界就有义务找到一个更好的方法来激发适当的分析和研究的技术从而确保可以发表可重复性更高的研究。

针对如何更好地做研究报告和研究设计以改善这一问题,最近已经有很多人提出了建议。这是一个好事,在没有有效成果的研究上浪费钱(通常是公众的钱)会阻碍我们探索科学真相的进程。所以那些诉诸“p黑客”的人,请使用正确的统计测试或者研究子集来反驳那个神奇的“p值<0.05”,注意一下我们的小情绪。

缺乏可重复性由多种原因引起的,可能也存在同样多的解释,研究人员的不称职并不是唯一的原因。例如,继续我们的太空小麦/毛球族研究可能也没法证明克林贡人就是邪恶的粮食下毒犯。也许更多的研究会表明杂交小麦在太空中是不稳定的从而分解成了对毛球族而言致命的毒药(这也被证明会导致人身上难看的皮疹)。此外,毛球族可能比想象中的要更多样化,部分种群在太空中容易病变,从而更容易受到太空小麦的毒害。因此,我们的研究是不可重复的,但是有用的。最初我们完全没有想到杂交小麦会出问题。基于死掉的毛球族萌发了一个想法,即其死亡可能是由于小麦有毒,我们最终针对杂交小麦、太空旅行和毛球族如何相互作用得出了一个复杂却可重复的解释。最初的研究对于深化最终发现太空小麦问题的研究很有必要。


举一个更为现实的例子,我们曾经做过一项研究,主要研究预测癌症风险的基因变异的可重复性。我们的重点并不在于可重复性,而是在于针对一国国民实施的基因肿瘤风险研究是否适用于另一个国家的人们。我们发现,根据一项标准,那些研究通常无法适用于其他国家的人。大多数基因肿瘤风险研究无法在不同的民族中重复执行。然而我们也发现有些基因变异的基本作用在不同民族之间具有共通性。另一项研究得出的p值可能低于0.05,但是在一组人群中得到的高风险标记物更容易预测另一组人群的高风险而不是低风险。

因此,这些“不可重复”的研究看起来还是有意义的。他们测试的遗传标记还不能供临床使用,但是它们都指向了相同的生物学效应,这些效应在临床上可能就是有意义的。特别是,已经测试过的变异基因可能就是真正风险等位基因的标记物,或者非常接近,只是不完全符合研究等位基因的位置。

这就指出了一个很少被提及的、与可重复性危机相关的有趣问题:可重复性有多少才是正确的?这不仅仅是一个科学问题,也是一个伦理问题。接受低的可重复性意味着实施更难的研究,而且是在以实施大量结果不明了的研究为代价的前提下。获取高可重复性则可以节省时间和金钱,但是却意味着更多科学问题将没法得到应有的答案。

正如我们所说,样本容量太小是导致可重复性不足的关键性因素。针对小型群体所做的研究所得出的效果明显会比现实世界中的大,因此导致可重复性低。因此有人提议说只有具有优先级可能性的研究才应该被实施。根据这项标准,一项测量细微影响或者只影响一小部分的人的研究不应该被实施,例如能延长癌症患者几个月寿命的药物研究。这成为了一个相关性越来越强的问题,特别是在癌症研究中,因为我们发现很多疾病其实就是相关疾病的一个集合,每一种相关集合都只会影响一小部分人。

研究死亡的毛球族(或者预测癌症风险的变异基因)时,构思好的假设可能会遇到哪些困难,这一点值得考虑。实际上,初次提出的假设正确且可重复的几率很小,而且初步研究可能也不会对得出预期结果提供太大的帮助。我们只能寄希望于它会引出下一项更好的研究。但是如果可重复性是衡量和实施研究的主要标准,那么这项研究根本就不会被执行。

决定是否实施一项研究的标准应该是哲学性质的而不仅仅是科学性质的,意识到这一点很重要。难道科学研究的目标不是有效实现利益的最大化吗?还是说,在受益的只是少数群体、可重复新较低的前提下,道德原则应该服从科学原则?前者可以被认定为实用功利主义的一种表现,认为最符合道德原则的行为才能惠泽大多数人,而且这种惠泽程度可以凭经验衡量。这种方法的优点是可量化,几乎任何实用的事物(套用实用主义的一个哲学概念)都可以被量化。数字更适用于交流沟通,至少与模棱两可的价值概念相比是这样的。然而功利主义者有一个信念,即“实用”与“道德上正确”基本上是一样的,这一信念也成了功利主义的根基。这种思维模式无法容许正义的存在。它指出任何带有明显自我牺牲、利他主义或博爱倾向的行为,如果符合道德原则,那么就应该为所有人谋福利。只为少数人谋福利的行就为是不符合道德原则的。这似乎是一种比较委婉的自我牺牲形式,但是考虑到研究经费的紧张情况,这并不是一个人可能会做出的最小牺牲。

科学之路苦难重重。我们不仅要在所有工作的最后得出一个好的p值,这就需要构思一个好的假设并且对足够大的群体进行研究;我们还需要能够利用哲学理论来捍卫自己的研究。我们是否将自己局限于影响力大的研究,为此聚集大量的患者作为研究样本,确保研究具有较高的可重复性,从而确保研究经费得到了高效率的利用?还是说虽然研究的可重复性较低,只要存在让人们受益的可能性,我们就应该进行研究?或者在假设处于构思的最初阶段时,我们还没有足够的研究来证实需要对什么进行测试,那么我们是否可以在一个未知的领域重新进行研究?

提高研究效率有助于减少可重复性问题,而且在决定研究什么的时候不用担心平等和公正的问题。但是显然这不是一个非此即彼的决策过程。努力改善可重复性问题,或者至少突出重复实施研究过程中出现的问题,其出发点都是好的。然而将可重复性的门槛设置得过高也就违背了我们对科学的诉求。大多数人对科学的认知中都包含了实践和对新的科学领域不断的探索,研究中出现不可重复性没准就是一条通往真理的必经之路。


(本文为Dr.Brain Ring 原创,小编编译,点击http://charter-of-the-genome.org/2016/05/14/in-defense-of-irreproducible-results/即可阅读原文。如有转载需求,请联系yangqiao@idna.com.cn。)




https://blog.sciencenet.cn/blog-3213734-1007649.html

上一篇:基因组里基因知多少?
下一篇:先读后写,基因学3R理论中的编写技能被提上议程!
收藏 IP: 58.19.1.*| 热度|

17 许培扬 李颖业 邱趖 刘立 李红雨 黄永义 王春艳 姜长城 蔡小宁 张骥 张文军 孙学军 xlianggg yzqts daoa nm1 ddsers

该博文允许注册用户评论 请点击登录 评论 (37 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-17 07:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部