统计世界的那些八卦 1

2017-12-28, 2373 words, 8 min read

《女士品茶》读书笔记

最近整理前一段时间看过的书，想了想先从《女士品茶》开始，正如这本书的自序所言，全书没有关于概率统计的抽象概念，但是却介绍了一些概率统计在各个领域的应用。这几篇系列文章将依托于《女士品茶》这本书，对概率统计世界的那些八卦做一些梳理。

随机性概率和统计

随机性，概率和统计这三个名词经常会同时出现，以至于很多人都会把它们混为一谈，其实这三个数学概念有着巨大的区别。

所谓随机性通常都是不可预测的同义词，但是在数学中随机性并非不可预测出乎意料，随机事件都拥有一个可以进行数学描述的结构。

而概率表达的是人们对于可能发生的时间的感受。概率的数学理论中具有复杂的方法用于计算事件发生的概率。并且这其中伴随着很多重要定律的产生。

统计分布概念的提出很大程度上是概率理论的功劳。但是概率理论本身又不足以描述统计方法，有时科学上的统计方法还会违反某些概率定律。

一切要从那位喝茶的姑娘开始

虽然这本书的名字叫做《女士品茶》，但是这本书和女士以及茶都没有什么关系。但是整个概率统计的历史又必须从一个喝茶的姑娘开始。

题外话，如果你就在电脑边不妨立刻打开 R，然后输入?fisher.test() 查看 fisher.test 在 R 中的帮助文档，其中对该检验使用的示例就是一个女士喝茶的故事。

20 实际 20 年代末，一群剑桥的老师及她们的家人在一起喝下午茶，这个时候一个女士坚定的认为这个奶茶你是先放奶还是先放查会有极大的差别。然后一个叫做罗纳德埃尔默费希尔的老哥就陷入了沉思，他在思考如何才能判断这个不知道谁家的败家玩意儿的话到底是对的还是错的。于是乎他们一帮人就用各种方式泡了好多杯奶茶让这为女士一次品尝。

整个实验过程在他的《实验设计》这本书中有详细的论述。主要问题就在于给她多少杯茶合适，她猜对多少才算她真的能喝出差别，同时需要给这位女士透露多少信息等。但是书中并没有写真的存在这么一件品茶的故事。

故事暂且告一段落，但是《实验设计》这本书对 20 世纪的前 50 年产生了暴风般的影响。你要知道，在此之前，所有的科学实验都是说不清为什么要那样做，做完实验也不会把所有结果全部公布。其中最著名的一个例子就是孟德尔这位小哥的豌豆实验，那个神奇的 3：1 分离比，你知道他这个结论是怎么写的么。他用的描述方法是：“两组实验的前 10 个结果可以说明……”。

费希尔的贡献则是完全改变了这一局面，比如人们曾经争论了 20 年那种肥料更有效，最后他说其实之前那些数据和天气的关系更大。意不意外，惊不惊喜。

至于那个品茶的女士，据当时在场的其他人会议，她的所有判断全部正确。意不意外，惊不惊喜。

自己的坑自己来填

这一趴首先出场的配角是英国科学家弗朗西斯高尔顿，作为一名正宗的爵士，他最大的贡献是发现了指纹独一无二的特性，而且还做了分类和识别的方法，类似于指纹这种不规则的凹凸，被称为“高尔顿标识”。也就是说，你每次在使用指纹给手机解锁的时候，都应该默念一句“感谢老高”。

对于统计，他的贡献则在于因为他非常希望把数学的严谨性带到生物学中，为此统计了大量的父子身高数据。然后发现了一个重要的现象“均值回归”。一句话解释就是“高爸爸的儿子比高爸爸矮，矮爸爸的儿子比挨爸爸高”！你可别看这句话和绕口令一样，但是均值回归延申出来的统计模型主导了经济学和工程学。

如果说均值回归的意义，就是人类的身高基本稳定，不会因为“高爸爸的儿子比高爸爸高，矮爸爸儿子比矮爸爸矮”而造成人类身高的迅速两极分化，从而确保物种的平衡和相似。进而高尔顿又给出了相关系数的概念。

故事到这里，配角就该告一段落了，真正把相关系数用公式完整表达出来的则是他的学生卡尔皮尔逊。而他也是这一趴的主人公。皮尔逊的革命性思想在于阐明了实验结果并非是仔细测量的精确值，而只是一些数字的分布，进而这些分布可以写成公式来描述观测值等于给定值的概率。一句话就是在实验里，我们只谈数值的概率而不谈确定的值。

既然我们测到的不是真的，就需要来解决随机属性的问题，于是就有了所谓的钟形曲线或者正太分布。

说到正太分布，当我在读这一章节的时候，最吸引我的其实不是正文的内容，而是脚注对于正态分布的注解。

正态分布有时又叫高斯分布，这是因为人们曾经认为高斯是第一个写出正态分布公式的人。实际上，首个写下正态分布公式的不是卡尔·弗里德里希·高斯，而是一位更早的数学家，名叫亚伯拉罕·棣莫弗。另外。我们有理由相信。在此之前，丹尼尔·伯努利曾在无意中发现了这个公式。这些事实可以证明当代科学史学家斯蒂芬·施蒂格勒所说的误称定律，即数学上一切以入命名的概念都不是以发现者的名字命名的。

皮尔逊在正太分布的基础上提出了所谓的“偏斜分布”，同时定义了这个体系中的四个重要的参数：均值，标准差，对称度和峰度。这个事情在我们今天看来，其实就是我们所有观测的东西都需要这四个参数来描述，但是我们永远无法真的知道这四个参数，只能用已有的数据去估计。即参数估计。

这一部分的结尾也是这一章节的高潮，当然也是我觉得最喜感的地方。

为了应用自己的研究成果，皮尔逊和他的几个老铁创办了《生物统计》杂志，本意是要用他们的数学思想证明达尔文关于进化论的观点。简单说就是算出某一个物种某种特点的全部四个参数，进而观察这四个参数的变化。不过虽然他们收到了世界各地超级多的数据，但最后就变成了为了数据而数据的堆砌。

在这个过程中，1908 年，一个作者使用**“学生”** 的笔名提出了一种叫做**“t 检验”** 的思想，也就是所谓的“student t test”。这是该“学生”的首次登场，后面还有他的故事。

在皮尔逊的整个为了证明达尔文进化论而努力的生涯中，他曾经在《生物统计》杂志发表了一篇文章，论述澳大利亚土著人和欧洲人身体测量结果具有相同分布，同时提出了一种叫做“拟合优度检验”的统计工具，“拟合优度检验”这个家伙可是非常厉害了，能判断一组观测值是否符合某个预期分布。

它厉害到什么程度呢？老皮尔逊的儿子埃贡皮尔逊后来就是用老爷子的“拟合优度检验”推翻了大部分他爸爸的工作。对于卡尔皮尔逊来说，正所谓“自己挖的坑，终究要由自己来填”

未完待续

本文作者：思考问题的熊

如果你对这篇文章感兴趣，欢迎通过邮箱订阅我的 「熊言熊语」会员通讯，我将第一时间与你分享肿瘤生物医药领域最新行业研究进展和我的所思所学所想，点此链接即可进行免费订阅。

· 分享链接 https://kaopubear.top/blog/2017-12-27-ladytasttea1/

统计