统计学基础与R-2

统计学基础与R-2

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用R语言进行简单地计算和分析。

概率相关内容

统计学中大量内容源于概率,学习统计学也就必须要了解一些概率中的基本概念,其中尤为重要的是条件概率,以及延伸出的贝叶斯定理(也许是最牛也是最难充分掌握的内容)。

几个概念

样本空间(sample space)是所有可能结果的一个集合,事件(event)则是样本空间中所有感兴趣结果的一个子集。某事件的概率(probability)是该事件在无限次试验次数中的相对频率。

事件的交集并集和补集,概率的加法法则和乘法法则在本章中不再做介绍。

条件概率(Conditional Probability)用来描述与其他事件的发生相关的某事件的概率,通常被描述成“在A事件下发生事件B的概率”。在书写时用|表示,例如P(A|B)是在B发生的情况下A发生的概率。计算方式为AB同时发生的次数除以所有B发生的次数。

条件概率计算方法:$P(A|B)=P(A\cap B)/P(B)$

可推出: $P(B|A)=P(A\cap B)/P(A)$ => $P(A\cap B)=P(A)\times P(B|A)$

全概率公式:$P(B)=P(A)\times P(B|A)+P(A’)\times P(B|A’)$ (贝叶斯定理分母部分)

贝叶斯定理:$P(A|B)=\frac{P(A)\times P(B/A)}{P(A)\times P(B|A)+P(A’)\times P(B|A’)}$

得到的贝叶斯定理可以帮助我们计算逆条件概率。

在实际的生物学数据处理的过程中,我们还会接触到灵敏度(sensitivity)特异度(specificity)假阳性(false negative)假阴性(false positive) 几个概念。在疾病相关研究中,对于某一个症状,灵敏度指发病后出现症状的概率,特异度是不发病时不出现症状的概率。假阳性是指实验结果阳性但是实际为阴性,假阴性是指实验结果为阴性但是实际为阳性。基于灵敏度和特异度可以使用ROC曲线,通常来说在两个检验中,曲线下面积大的较好。

概率能够告诉我们事件发生的可能性,但如果想要利用概率预测未来的结果并且评估预测的确定性就需要引入概率分布。

离散概率分布

随机变量: 样本空间中,对不同事件指定有相应概率的数值函数。

随机变量是可以等于一系列数值的变量,这些值都和一个特定概率关联。它的写法是$P(X=x)$,表示随机变量X取特定值为x时的概率。随机变量包括离散和连续两种形式,所谓离散指变量只能取一些确定值。连续指的是有无限多种可能取值。

概率分布也叫概率质量分布,$P(X=x)$。在描述统计量中,样本的频数分布描述每个取值及对应发生次数,如果样本总数除以对应发生次数,得到的频率分布就类似于这里的概率分布。后面会提到的“拟合优度检验”就是比较有限样本频率分布和概率分布的差异。

如果将随机变量和样本对应起来理解,样本中均值的概念在总体(随机变量)中称为期望,也叫作总体均值,表示为$\mu$(和均值一致)或者$E(X)$。计算方式是将每个可能值和概率相乘再把所有乘积相加。和均值类似,这里的期望也无法描述相关数值分散程度。

同样,在随机变量中也有类似于样本方差的概念,称为总体方差(随机变量方差),用来表示分散程度。其计算公式为 $Var(X) = E(X-\mu)^{2}$。而概率分布的标准差$\sigma$同样是方差的平方根。

计算$E(X-\mu)^{2}$时,首先计算每个数值x的$(x-\mu)^{2}$,然后再将结果乘以概率,最后把所有结果相加。

在数据集中,方差和标准差表示的是数据和均值的距离,在概率分布中表示特定数值概率的分散情况。方差越小,结果越接近期望。

累加分布函数(cumulative-distribution function, cdf): 随机变量X,对于X的任一指定值x,概率值$P(X\leq x)$。即随机变量取值不大于指定值的概率。记作$F(x)$

常见的离散概率分布

几何分布:进行一组相互独立实验,每次实验有成功失败两种可能且每次试验概率相等,想知道第一次成功需要进行的试验次数。
$$P(X=r)=pq^{r-1}$$
$$P(X>r)=q^{r}$$
$$P(X \leq r)=1-q^{r}$$

期望$E(X)=\frac{1}{x}$;方差 $Var(X)=\frac{q}{p^{2}}$

二项分布:进行一组相互独立试验,每次实验有成功失败两种可能,每次试验概率相等且试验次数有限,想知道在有限次试验中成功的次数。
$$P(X=r)=C^{r}_{n}p^{r}q^{n-r}$$
期望$E(X)=np$;方差$Var(X)=npq$

二项分布和几何分布差别在于,前者试验次数固定求成功概率,后者求第一次成功前试验次数。

泊松分布:常与稀有事件相关,单独事件在给定区间(区间可以是时间或者空间)内随机独立发生,该区间内的事件平均发生次数已知且为有限值。这个值用$\lambda$表示。给定区间内发生r次事件的概率计算公式:$$P(X=r)=\frac{e^{-\lambda}\lambda^{r}}{r!}$$
期望是给定区间内能够期望的事件发生次数λ,方差也是λ。如果一个离散随机变量的一批数据计算后方差和均值近似相等,则可以推测样本符合泊松分布。

当二项分布的p很小且n非常大时,$npq\approx np$,方差和期望近似相等,可以用泊松分布来近似二项分布,从而使计算简化。通常,n大于50且p<0.1时为典型的近似情况。

连续概率分布

当数据连续分布,人们关心的是取得某一个特定范围的概率。

概率密度函数(probability density function, pdf):本质是一个函数,用这个函数可以求出在一个范围内某连续变量的概率,同时该函数可以指出该概率分布的形状。换句话讲,任意a,b两点之间及函数对应曲线下组成的面积等于随机变量X落在ab间的概率。曲线下面积总和是1。

概率密度可以指出各种范围内的概率大小,用面积来表示。概率密度只是表示概率的一种方法而非概率本身。

累加分布函数a点上的值等于随机变量X取值$\leq a$的概率,也是概率密度函数a左边曲线下的面积。

正态分布是连续数据的一种理想状态。正态分布的概率密度函数是一条对称的钟形曲线,均值具有最大的概率密度,偏离均值概率密度逐渐变小。参数$\mu$是均值,也是曲线的中央位置,$\sigma$表述曲线的“胖瘦”。

连续随机变量X符合均值为$\mu$,标准差为$\sigma$的正态分布时写作$X\sim N(\mu,\sigma^{2})$.

线性变换:$$aX+b \sim N(a\mu +b,a^{2}\sigma^{2})$$

当X和Y相互独立(彼此之间没有影响)时:
$$X+Y \sim N(\mu_{x}+\mu_{y},\sigma_{x}^{2}+\sigma_{y}^{2})$$
$$X-Y \sim N(\mu_{x}-\mu_{y},\sigma_{x}^{2}+\sigma_{y}^{2})$$
期望$E(X_{1}+X_{2}+…+X_{n})=nE(X)$;方差$Var(X_{1}+X_{2}+…+X_{n})=nVar(X)$

当X和Y并不彼此独立时,使用协方差(Covariance)来描述两个随机变量间的关系,记做Cov(X,Y)
$$Cov(X,Y)=E[(X-\mu_{x})(Y-\mu_{y})]$$

二项分布正态近似:通常情况,当二项分布满足$np\geq 5$ (也有建议$npq\geq 5$)时,可以用正态分布代替二项分布。其中$\mu = np$,$\sigma^{2}=npq$。另外,当泊松分布的λ>15时,也可以用正态分布进行近似。


本文作者:思考问题的熊

版权声明:本博客所有文章除特别声明外,均采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×