先验后验和贝叶斯

随机并不随机

设想一个转盘游戏有红黑两种,且颜色各占一半。现在请你写下自己的预测结果。如果你配合可以此刻直接写到评论区,再来看文章后续内容。

首先要说的一点是,转盘是否公平,你心里其实已经预先有了答案。

曾有大量人参与过这一实验,5 次转动转轮产生的红、黑(R/B)颜色序列,一共有 32 种可能。由于每次转动转轮之后小球停在红色或黑色区域的概率相同,因此上述 32 种序列出现的概率也相同。

关于 P 值的几点问题

关于假设检验中的 P 值相关的文章和批评实在太多了。最近看大一本书中有提到了 P 值的部分,简单做个整理。

可能性极小和基本不可能有天壤之别

P 值的诞生伴随着假设检验,人们经常会把“可能性极小”理解成“基本不可能”,而且,“基本”一词的影响力越来越小,最终淡出人们的考虑范围。

但是,“不可能”与“可能性极小”是不同的概念,两者的意思相去甚远。不可能的事情绝不会发生,而可能性极小的事件并不少见。这就意味着我们在根据可能性极小的观察结果进行推理时,由于受到归为不可能法的影响,会产生一种不可靠的逻辑立场。

统计世界的那些八卦 1

《女士品茶》读书笔记

最近整理前一段时间看过的书,想了想先从《女士品茶》开始,正如这本书的自序所言,全书没有关于概率统计的抽象概念,但是却介绍了一些概率统计在各个领域的应用。这几篇系列文章将依托于《女士品茶》这本书,对概率统计世界的那些八卦做一些梳理。

随机性 概率和统计

随机性,概率和统计这三个名词经常会同时出现,以至于很多人都会把它们混为一谈,其实这三个数学概念有着巨大的区别。

Excel 初级公式

懒是人类进步的绊脚石,偷懒是人类进步的阶梯。如果完成任何一项工作时觉得复杂,那一定就有还不知道的更简单的方法。

基本知识

Excel 可以处理的数值有效位数最多为 15 位,公式中文本类型的常量必须写在半角双引号内

运算符包括算数运算符和比较运算符,其中比较运算符返回逻辑值

<> 表示不等于

excel 所有数据类型中,数值最小,文本大于数值,最大的是逻辑值 true

文本运算符 & 可以将两个数据合并为一个文本类型数据

统计学基础与 R-8

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用 R 语言进行简单地计算和分析

第八节 常用高阶分析方法

回归分析

所谓回归分析 (regression analysis),在统计学中有着非常重要的作用,从大的层面来讲指用自变量(解释变量或者预测变量)来预测因变量(相应变量或者结果变量)的方法。比如在几个自变量中找到和因变量更相关的一个,利用自变量和因变量的关系生成等式对因变量进行预测。从小的层面来说,回归的模型非常之多,也非常复杂,例如最小二乘回归,logistic 回归和泊松回归等等。

最小二乘回归是最常用到的回归模型,包括简单线性回归(一元一阶),多项式回归(一元多阶)和多元线性回归(多元)。所谓最小二乘法是用一条直线$y=ax+b$(回归线)拟合一组两变量数据的方法,使得误差平方和(点到直线的距离平方和)最小。对数据进行最小二乘回归分析时,要求数据符合正态分布,独立和同方差性。

统计学基础与 R-7

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用 R 语言进行简单地计算和分析。

比例分析

在之前几节内容中提到了均值分析和比较,但有时候我们关心的并不是均值而是比例 (proportion)。

单比例检验

对于 n 比较大(通常为$np \geq5$ 同时 $nq \geq5$ )的样本来说,根据中心极限定理,样本近似于正态分布,可以使用 z 检验,其检验统计量计算公式为:

$$z = \frac{p_o-p_e}{\sqrt{p_oq/n}}$$

统计学基础与 R-6

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用 R 语言进行简单地计算和分析。

第六节 多样本均值分析

在上一节讨论了单样本和双样本均值比较的几种情况,但是很多实验不仅仅有两组样本。进行多组样本之间的均值比较就需要进行单因素方差分析 (one-way analysis of variancd) 和双因素方差分析 (two-way analysis of variancd)

one-way ANOVA

在单因素方差分析模型中样本的组数是任意的但是要求样本之间相互独立,每一组的观测值符合正态分布的同时方差相等,目的是比较每个组的均值。原假设是各组间均值相等(观察的差异有随机误差构成),备择假设是至少有一组和其他组均值不同。数据的变异通常来自于组内部的变异和组间真是变异,其中组内变异一方面由个体差异导致,一方面由实验误差导致,而组间变异则是由不同的处理(因子)导致。如果通过计算,非系统性的变异(组内误差)远大于由不同处理造成的变异(组间变异)如下图 b 所示,则接受原假设,反之则拒绝原假设,如下图 a 所示。

统计学基础与 R-5

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用 R 语言进行简单地计算和分析。

单双样本均值分析

根据数据组数的不同,均值比较可以分为单样本、双样本和多样本。本节首先介绍单样本和双样本。

假设检验一般步骤

谈具体的假设检验之前首先介绍假设检验的一般步骤。

  1. 确定假设

原假设 (null hypothesis, $H_0$) 指需要检验的假设,只要当我们有足够的证据时才能否定。在某种意义上与原假设相反的的假设被称为备择假设(alternative hypothesis,$H_1$)。

假设检验是无法给出绝对证明的,我们只能在假定原假设为真的情况下通过假设检验来判断结果是否可信。如果结果极不可能发生,则拒绝原假设,进而接受备择假设。

根据接受假设和真实情况之间的关系,会有四种可能发生。

统计学基础与 R-4

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用 R 语言进行简单地计算和分析。

第四节 相关性分析

本节提到的相关性分析和后面会提到的 t-test, ANOVA 以及回归分析等被称为参数检验,这些检验在进行时我们常默认数据符合一定前提条件,如符合正态分布和方差相等等。当样本数量大于 30 时,根据中心极限定理,我们通常认为数据符合正态分布;在进行 t-test 和 ANOVA 分析时,还需要满足样本方差相等。

在进行各种检验之前需要初步检验数据是否符合某种检验的前提条件,如果不符合则应该考虑使用非参数检验或其他方法。

统计学基础与 R-3

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用 R 语言进行简单地计算和分析。

第三节 估计

在通常的试验中我们获得的信息总是来自样本,想要知道总体的参数,只能通过已有样本参数进行估计。

样本均值是总体均值的点估计,通常样本均值用$\overline x$表示,总体均值用$\mu$表示。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×