统计学基础与R-3

统计学基础与R-3

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用R语言进行简单地计算和分析。

第三节 估计

在通常的试验中我们获得的信息总是来自样本,想要知道总体的参数,只能通过已有样本参数进行估计。

样本均值是总体均值的点估计,通常样本均值用$\overline x$表示,总体均值用$\mu$表示。

在估计总体方差$\sigma^2$时,计算公式为$$\sigma^2=\frac{\Sigma(x-\overline x)^2}{n-1}$$

用样本方差估计总体方差会使得估计结果偏低,样本越小两个方差的差别可能就越大。在这里,估计总体方差的公式中除的是$n-1$,能够更接近总体方差。另外,总体方差点估计公式通常记做$s^2$,写作:$$s^2=\frac{\Sigma(x-\overline x)^2}{n-1}$$

用样本均值估计总体均值时也会产生误差,均值的标准误差是$\sigma/\sqrt{n}$,估计量是$s/\sqrt{n}$。标准误差表示了样本均值的分散情况,从公式中我们可以看出,n越大,用样本均值估计总体均值越准确。当样本足够大(大于30),即便总体不符合正态分布,但从中取出的样本均值分布仍然近似于正态分布(中心极限定理)。$\overline X \sim N(\mu, \sigma^2/n)$

除了对总体进行点估计以外,我们往往还会对总体进行区间估计,即对通过点估计得到的结果加减一定范围的误差。


本文作者:思考问题的熊

版权声明:本博客所有文章除特别声明外,均采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×