关于 P 值的几点问题

2018-01-05, 1923 words, 7 min read

关于假设检验中的 P 值相关的文章和批评实在太多了。最近看大一本书中有提到了 P 值的部分，简单做个整理。

可能性极小和基本不可能有天壤之别

P 值的诞生伴随着假设检验，人们经常会把“可能性极小”理解成“基本不可能”，而且，“基本”一词的影响力越来越小，最终淡出人们的考虑范围。

但是，“不可能”与“可能性极小”是不同的概念，两者的意思相去甚远。不可能的事情绝不会发生，而可能性极小的事件并不少见。这就意味着我们在根据可能性极小的观察结果进行推理时，由于受到归为不可能法的影响，会产生一种不可靠的逻辑立场。

统计功效是个大问题

关于 P 值其实总有说不完的话和吐不完的槽。国外更是有一众大牛执着于吐槽 P 值。其中一位是希腊人约翰·约安尼迪斯（John Ioannidis），2005 年他发表了一篇题为“公开发表的研究成果大多不真实的原因何在”的论文，在临床医学领域引发了一场罕见自我批评的狂风暴雨，不过随之而来的是一波自我辩解的风潮。

约安尼迪斯认为我们在医学上尝试使用的介入治疗法大多不起作用，我们所检测的各种关系大多是子虚乌有。以基因与疾病之间的关系为例。基因序列中有大量基因，其中绝大多数都不会引发癌症、抑郁症或肥胖症等，至少人们没有直接观察到基因会导致人们患此类病症。例如基因对精神分裂症的影响，由于这种疾病有遗传的可能，人们几乎可以肯定是基因在起作用。对 10 万“遗传性多态现象”进行检验，以期找出与精神分裂症有关的基因。在这些基因中，大约有 10 种真的会对精神分裂症产生影响。那么，其余的 99 990 个与精神分裂症没有任何关系。但是，其中的 1/20 或者说 5 000 种会顺利通过统计学显著性检验。

如果研究方法的功效不足，真实结果就完全有可能被认定为不具有统计学显著性而被排除在外。也就是在仅有的 10 个真实结果中还有几个被你扔掉了，多惨。

赢家诅咒与不可重复

统计功效低下的研究只能找出非常显著的效果，但是效果有时就是非常小。在检验基因的作用时，研究人员有可能认为检验结果不具有统计学显著性，因此将其排除在外；而那些顺利通过检验的结果，要么是假阳性，要么是过度夸大基因作用的真阳性结果。在样本量小、影响程度通常有限的研究中，统计功效低下的风险尤为突出。

如果研究规模比较小，那么人们在用 p 值过滤时，往往会排除影响程度较为接近 p 值的结果，因此，上述检验得到的较大显著性差异是有悖常理的。

这种现象称作“赢家诅咒”。有的实验取得了令人信服、广受赞誉的结果，但是人们在重复这些实验时，却常常得到乱七八糟、令人失望的结果。之所以出现这样的情况，赢家诅咒就是一个原因。2012 年，加利福尼亚一家名叫安进的生物技术公司开展了一项计划，科研人员通过重复实验去验证癌症生物特征方面的一些著名的实验结果，总计 53 种。结果，他们只成功验证了其中的 6 种。

文件柜效应

另一个问题被称为“文件柜效应”，假定我们在了解基因与我们研究的某种疾病之间是否存在相关性时，测试了 20 个遗传标记，并发现只有一个测试结果的 p 值小于 0.05，其实在所有的遗传标记都不起作用时，我们的成功率正好是 1/20。

如果 20 组研究人员分别在 20 个实验室里针对绿色软糖行了共计 20 次测试，结果会怎么样呢？有 19 个实验室不会得出具有统计学显著性的测试结果，他们也不会据此发表论文。这是毫无疑问的，谁会把“吃绿色软糖与得痤疮之间没有相关性”作为重大发现公开发表呢？第 20 个实验室里的研究人员比较幸运，得出了一个具有统计学显著性的测试结果，还发表了。这其实还是有幸存者偏误的成分。我们没看到应该锁到柜子里的 19 次失败结果。

P 值操控

如果你做过一些数据分析，就会发现如果我们找出各种理由，修改与研究结果直接相关的统计数据，我们常常可以把 p 值由 0.06 降至 0.04。乌里·西蒙逊（Uri Simonsohn）是宾夕法尼亚大学的一位教授，他是重复实验研究的开创者，他把这些做法称作“p 值操控”。

问题在于，通常 p 值操控并不像我们理解的那样粗暴，而且一般都不是恶意行为。在操控 p 值时，人们坚信自己的假设是正确的。此时，人们很容易找到理由，认为自己得出可以发表的研究结果是正确的，甚至还会后悔一开始的时候没有朝这个方向努力。
我们可以把众多研究发表结果的 P 值做一个统计。按道理应该从 0 到 0.05 逐渐减少。

但是统计调查人员发现，在政治科学、经济学、心理学及社会学等多个领域里，p 值曲线在接近 0.05 这个临界值时会明显向上倾斜。大量本来位于 p=0.05 这个临界值之上而无法发表的实验结果，经过对数据的坑蒙拐骗、威逼利诱甚至严刑逼供之后，变成了令人满意的结果。

用 0.05 设置一个生死界线，是在基本范畴的问题上犯错误，把连续变量（我们有多少证据可以证明这种药物有疗效，这种基因可以决定智商分数，排卵期的女性倾向于支持民主党总统候选人）当作二进制变量（对或者错）来处理。也就是说，我们应该允许科研人员报告不具有统计学显著性的研究结果。

本文作者：思考问题的熊

如果你对这篇文章感兴趣，欢迎通过邮箱订阅我的 「熊言熊语」会员通讯，我将第一时间与你分享肿瘤生物医药领域最新行业研究进展和我的所思所学所想，点此链接即可进行免费订阅。

· 分享链接 https://kaopubear.top/blog/2018-01-05-pvalue/

统计