统计学基础与 R-7

2017-10-02, 1422 words, 6 min read

写在前面

入门生物信息，所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用 R 语言进行简单地计算和分析。

比例分析

在之前几节内容中提到了均值分析和比较，但有时候我们关心的并不是均值而是比例 (proportion)。

单比例检验

对于 n 比较大（通常为 $np \geq5$ 同时 $nq \geq5$ ）的样本来说，根据中心极限定理，样本近似于正态分布，可以使用 z 检验，其检验统计量计算公式为：

z = \frac{p_o-p_e}{\sqrt{p_oq/n}}

其中， $p_o$ 表示观测到的比例， $p_e$ 为预期比例，n 表示样本量， $q=1-p$ 。

如果样本比较小，则使用二项分布进行统计。

在 R 中，对于小样本，采用binom.test()，对于大样本使用正态分布近似二项分布，利用prop.test()进行分析。
在单样本比例检验中，我们关心的是具有同种特性的两个群体，在该特性总体中所占有的比例情况。例如，小鼠中公鼠母鼠各有一半，有 100 只患有某种疾病，其中有公鼠 60 只，母鼠 40 只。想知道是否公鼠患病率比母鼠高。在该问题中成功次数为公鼠患病数 55，总次数为 100，预期比例为 50%（公母鼠数量相等）。

prop.test(60, 100, p = 0.5, alternative = "greater")

# 	1-sample proportions test with continuity
# correction
#
# data:  60 out of 100, null probability 0.5
# X-squared = 3.61, df = 1, p-value = 0.02872
# alternative hypothesis: true p is greater than 0.5
# 95 percent confidence interval:
#  0.5127842 1.0000000
# sample estimates:
#   p
# 0.6

其中，x 为成功的次数，n 为总测试，p 为要测试的概率大小。在结果中，显示了卡方检验的统计量值，自由度和 p 值和置信区间，最后给出了样本概率估计值。

双比例检验

如果我们已知两组具有不同特性（A 和 B）样本的样本量和这两组样本中具有某种共同特性（C）的个体数量（也就是知道了 C 特性各自群体比例和总体比例），想要计算具有 C 特性的个体在 A 特性群体和 B 特性群体中的比例是否一样，就需要用到双比例检验。

当样本数量较小时（所有 np 和 nq 都小于 5），通常采用非参数检验** Fisher Exact probability test** 进行分析。当样本力量较大时，我们还是近似使用正态分布 z 检验来进行预测。

例如，男生 500 人，女生 500 人，其中喜欢阅读的男生有 400 人，喜欢阅读的女生有 460 人。男生喜欢阅读的比例是否比女生高。我们假设男生喜欢阅读的比例比女生高，则备择假设是男生喜欢阅读的比例比女生低。

 prop.test(x = c(400, 460), n = c(500, 500), alternative = "less")

#  	2-sample test for equality of proportions with
# continuity correction
#
# data:  c(400, 460) out of c(500, 500)
# X-squared = 28.912, df = 1, p-value = 3.787e-08
# alternative hypothesis: less
# 95 percent confidence interval:
#  -1.0000000 -0.0824468
# sample estimates:
# prop 1 prop 2
#   0.80   0.92

由结果可知，p<0.05，拒绝原假设，即男生喜欢阅读的比例比女生低。

卡方分布

$\chi^2$ 分布可以通过原假设，得到一个统计量来表示期望结果和实际结果之间的偏离程度，进而根据分布，自由度和假设成立的情况，得出观察频率极值的发生概率（比当前统计结果更加极端的概率）。计算方法是对概率分布中的每一个频率，用期望频数和实际频数差的平方除以期望频数，最后把所有结果相加。得到的统计量结果越大，说明差别越显著，数值越小说明观察和期望的差别越小，当观察频数和期望频数一致是卡方为 0。其实就是在比较观测到的比例和期望的比例的关系。

\chi^2=\sum \frac{(O-E)^2}{E}

卡方分布就可以用来检验某个分类变量各类的出现概率是否等于指定概率，可以检验数据的拟合优度（指定的一组数据与指定分布的吻合度），也可以用来检验两个变量的独立性（两个变量之间是否存在某种关联）。

在使用卡方检验时，需要的一个参数被称为自由度，指的是独立变量的个数（组数减去限制数）。通常，二项分布已知 p，泊松分布已知 $\lambda$ ，正态分布已知 $\mu$ 和 $\sigma^2$ 时的自由度是 n-1。进行独立性检验时，h 行 kl 列联列表的自由度是 $(h-1)\times(k-1)$ 。

本文作者：思考问题的熊

如果你对这篇文章感兴趣，欢迎通过邮箱订阅我的 「熊言熊语」会员通讯，我将第一时间与你分享肿瘤生物医药领域最新行业研究进展和我的所思所学所想，点此链接即可进行免费订阅。

· 分享链接 https://kaopubear.top/blog/2017-10-02-RandStatistics7/

R 数据科学统计