66种测序数据分析方法和流程

写在前面:看了标题进来的老铁,这里不可能在一篇文章里写好66个pipeline 给你,实际上我就是给你推荐一个网站。

闲着乱看的时候发现在bioinformatics 上发表了一篇文章SequencEnG: an Interactive Knowledge Base of Sequencing Techniques,再一看Abstract,写道

Next-generation sequencing (NGS) techniques are revolutionizing biomedical research by providing powerful methods for generating genomic and epigenomic profiles. The rapid progress is posing an acute challenge to students and researchers to stay acquainted with the numerous available methods. We have developed an interactive online educational resource called SequencEnG (acronym for Sequencing Techniques Engine for Genomics) to provide a tree-structured knowledge base of 66 different sequencing techniques and step-by-step NGS data analysis pipelines comparing popular tools

艾玛,原来现在已经有至少66种不同测序技术了? 掰着手指想了想,知道的做过的撑死也超不过一双手啊。这66种测序技术都是啥,于是点开了这篇文章的网站想探探路。嗯,果然很多没听说过:)

贯穿你我一生的基因之谜

无处不在的基因

选一个心情不错的时间,打开手中叫做「唾液采集器」的小管子吐进一些唾液,再把它寄给一家公司。几天后你就会收到一份复杂而详细的报告,这份报告里将记录你和上百项健康风险、几十项遗传性疾病是否有关,甚至还会帮你寻根溯源,告诉你有多少少数民族或东南亚的祖先。没错,得到这些结果需要的仅仅是你那 1ml 唾液加上口袋里的两三百块钱,而这项业务就是近两年国内愈发火爆的「消费级基因检测」。目前来看,基因检测似乎是帮你从根源上判断自己是否属于一个「少数派」略显极客的不错选择。

基因检测项目(WeGene官网)

2017 年 12 月 28 日,我国正式启动为期四年的「中国十万人基因组计划」,这是我国在人类基因组研究领域实施的首个国字号项目。在这之前,美国于 2016 年开始自己的精准医疗计划(Precision Medicine Initiative),其中有 1.3 亿美元预算用作 百万基因组计划 。如果再向前追溯,英国早在 2012 年就启动了 10 万人基因组项目

如果你是一个非常关注自我健康或者对新技术保持敏感的人,应该对上述基因检测的场景并不陌生或者它已经真切地在你身上发生过;如果你是一个爱看财经和科技新闻的人,国际诸如 23andMe 、国内诸如华大基因、贝瑞合康这类已经进入A股的基因产业相关公司也会时不时霸占你的头条。即便你不在上述两类人之列,每天只「关心粮食和蔬菜,希望面朝大海春暖花开」,也一定逃不掉转基因这个话题。

统计学基础与R-8

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用R语言进行简单地计算和分析

第八节 常用高阶分析方法

回归分析

所谓回归分析(regression analysis),在统计学中有着非常重要的作用,从大的层面来讲指用自变量(解释变量或者预测变量)来预测因变量(相应变量或者结果变量)的方法。比如在几个自变量中找到和因变量更相关的一个,利用自变量和因变量的关系生成等式对因变量进行预测。从小的层面来说,回归的模型非常之多,也非常复杂,例如最小二乘回归,logistic回归和泊松回归等等。

最小二乘回归是最常用到的回归模型,包括简单线性回归(一元一阶),多项式回归(一元多阶)和多元线性回归(多元)。所谓最小二乘法是用一条直线$y=ax+b$(回归线)拟合一组两变量数据的方法,使得误差平方和(点到直线的距离平方和)最小。对数据进行最小二乘回归分析时,要求数据符合正态分布,独立和同方差性。

统计学基础与R-7

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用R语言进行简单地计算和分析。

比例分析

在之前几节内容中提到了均值分析和比较,但有时候我们关心的并不是均值而是比例(proportion)。

单比例检验

对于n比较大(通常为$np \geq5$ 同时 $nq \geq5$ )的样本来说,根据中心极限定理,样本近似于正态分布,可以使用z检验,其检验统计量计算公式为:

$$z = \frac{p_o-p_e}{\sqrt{p_oq/n}}$$

统计学基础与R-6

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用R语言进行简单地计算和分析。

第六节 多样本均值分析

在上一节讨论了单样本和双样本均值比较的几种情况,但是很多实验不仅仅有两组样本。进行多组样本之间的均值比较就需要进行单因素方差分析(one-way analysis of variancd)和双因素方差分析(two-way analysis of variancd)

one-way ANOVA

在单因素方差分析模型中样本的组数是任意的但是要求样本之间相互独立,每一组的观测值符合正态分布的同时方差相等,目的是比较每个组的均值。原假设是各组间均值相等(观察的差异有随机误差构成),备择假设是至少有一组和其他组均值不同。数据的变异通常来自于组内部的变异和组间真是变异,其中组内变异一方面由个体差异导致,一方面由实验误差导致,而组间变异则是由不同的处理(因子)导致。如果通过计算,非系统性的变异(组内误差)远大于由不同处理造成的变异(组间变异)如下图b所示,则接受原假设,反之则拒绝原假设,如下图a所示。

统计学基础与R-5

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用R语言进行简单地计算和分析。

单双样本均值分析

根据数据组数的不同,均值比较可以分为单样本、双样本和多样本。本节首先介绍单样本和双样本。

假设检验一般步骤

谈具体的假设检验之前首先介绍假设检验的一般步骤。

  1. 确定假设

原假设(null hypothesis, $H_0$) 指需要检验的假设,只要当我们有足够的证据时才能否定。在某种意义上与原假设相反的的假设被称为备择假设(alternative hypothesis,$H_1$)。

假设检验是无法给出绝对证明的,我们只能在假定原假设为真的情况下通过假设检验来判断结果是否可信。如果结果极不可能发生,则拒绝原假设,进而接受备择假设。

根据接受假设和真实情况之间的关系,会有四种可能发生。

统计学基础与R-4

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用R语言进行简单地计算和分析。

第四节 相关性分析

本节提到的相关性分析和后面会提到的t-test, ANOVA 以及回归分析等被称为参数检验,这些检验在进行时我们常默认数据符合一定前提条件,如符合正态分布和方差相等等。当样本数量大于30时,根据中心极限定理,我们通常认为数据符合正态分布;在进行t-test 和ANOVA 分析时,还需要满足样本方差相等。

在进行各种检验之前需要初步检验数据是否符合某种检验的前提条件,如果不符合则应该考虑使用非参数检验或其他方法。

统计学基础与R-3

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用R语言进行简单地计算和分析。

第三节 估计

在通常的试验中我们获得的信息总是来自样本,想要知道总体的参数,只能通过已有样本参数进行估计。

样本均值是总体均值的点估计,通常样本均值用$\overline x$表示,总体均值用$\mu$表示。

统计学基础与R-2

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用R语言进行简单地计算和分析。

概率相关内容

统计学中大量内容源于概率,学习统计学也就必须要了解一些概率中的基本概念,其中尤为重要的是条件概率,以及延伸出的贝叶斯定理(也许是最牛也是最难充分掌握的内容)。

几个概念

样本空间(sample space)是所有可能结果的一个集合,事件(event)则是样本空间中所有感兴趣结果的一个子集。某事件的概率(probability)是该事件在无限次试验次数中的相对频率。

统计学基础与R-1

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用R语言进行简单地计算和分析。

描述性统计量

为了解决某个问题,我们通常会观察一组和该问题相关的样本,利用总体中的部分样本来推断总体的情况进而得到相关结论。在通过样本推断总体前,首先需用对已有样本数据进行简单的评估和描述,针对这一需求也就引出了描述统计量这一概念。进行描述性统计时,我们最关注数据两个层面的问题:数据的集中趋势和变异分散性。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×