66 种测序数据分析方法和流程

写在前面:看了标题进来的老铁,这里不可能在一篇文章里写好 66 个 pipeline 给你,实际上我就是给你推荐一个网站。

闲着乱看的时候发现在 bioinformatics 上发表了一篇文章 SequencEnG: an Interactive Knowledge Base of Sequencing Techniques,再一看 Abstract,写道

Next-generation sequencing (NGS) techniques are revolutionizing biomedical research by providing powerful methods for generating genomic and epigenomic profiles. The rapid progress is posing an acute challenge to students and researchers to stay acquainted with the numerous available methods. We have developed an interactive online educational resource called SequencEnG (acronym for Sequencing Techniques Engine for Genomics) to provide a tree-structured knowledge base of 66 different sequencing techniques and step-by-step NGS data analysis pipelines comparing popular tools

艾玛,原来现在已经有至少 66 种不同测序技术了? 掰着手指想了想,知道的做过的撑死也超不过一双手啊。这 66 种测序技术都是啥,于是点开了 这篇文章的网站 想探探路。嗯,果然很多没听说过:)

SRA 数据下载自救指南

还在羡慕海峡那边的朋友下载 SRA 快到飞起?还在难过用 wget 下载数据经常下载不完整?用了官方的下载工具还是慢的不行?这里有一个 SRA 下载自救尝试指南供你参考。

需要用到两个工具

  • SRA Toolkit
  • IBM aspera 高速文件传输工具

因为这是一篇极简自救指南,所以一切都不解释,直接给出链接,不明白的自行学习(爱学不学)。

SRA Toolkit 网址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc

aspera 网址:https://support.asperasoft.com/hc/en-us

aspera 官方对于下载 NCBI 数据的说明

https://support.asperasoft.com/hc/en-us/articles/216125898-Downloading-data-from-NCBI-via-the-command-line

转录组时间序列数据小结

针对转录组数据,平时分析中最常见两组之间的比较,比如不同处理或者不同突变体。面对这样的数据用用 DESeq2 或者 edgeR 基本就差不多。如果样本量或者不同条件很多的话可以还做 WGCNA 的分析。但是生物体的生长发育和时间这个维度有着非常密切的关系。如果碰上了一组和时间有关系的数据可以怎么处理呢?

时序分析

所谓时序分析 (time series analysis) 在 data science 中是非常重要的一个方向。对大多数商业行为而言如果能够通过已有不同时间数据来进行预测就有可能大大提高自己的胜率。通常时间序列数据会包括趋势部分和不规则部分, 我们需要做的就是剔除不规则部分然后找到趋势所在,再进行预测。在预测过程中通常可以采用移动平均法、局部加权回归法、指数平滑法和自回归整合移动平均等方法。

生物学时序分析

生物学的时间相关数据本身预测属性和商业数据相比要弱很多。一种是单一条件的纯时间序列,主要看不同基因的表达模式,根据相似的表达谱将基因归为多个类有助于找到功能相似的基因。另一种情况是含有对照和处理的时间序列,需要再考察不同条件的差异基因。

生物信息学简史

前几天看到 Briefings in bioinformatics 发了一篇 文章 介绍生物信息学发展历史。个人有两个感慨,一是这样的文章也可以发表(不禁想给自己的博客投稿),二是感慨生物信息学发展之快。对整篇文章进行了粗糙的翻译整理,供大家了解。

起源:1950-1970

20 世纪 50 年代早期,DNA 的历史地位还没有被建立,那个时候人们普遍认为蛋白质才是遗传信息的载体。直到 1952 年的噬菌体感染实验,人们才第一次证明 DNA 是真正的遗传物质。因为这个历史原因,生物信息学在 DNA 中的应用要落后于蛋白质研究将近 20 年时间。

3D 基因组与生物信息

重要的 Hi-C 相关文献

第一篇 Hi-C 文章: Comprehensive Mapping of Long-Range Interactions Reveals Folding Principles of the Human Genome; DOI: 10.1126/science.1181369

TAD 提出: Topological Domains in Mammalian Genomes Identified by Analysis of Chromatin Interactions ;doi: 10.1038/nature11082

高分辨率 Hi-C: A 3D Map of the Human Genome at Kilobase Resolution Reveals Principles of Chromatin Looping https://doi.org/10.1016/j.cell.2014.11.021

单细胞 Single cell: Hi-C reveals cell-to-cell variability in chromosome structure doi: 10.1038/nature12593;3D structures of individual mammalian genomes studied by single-cell Hi-C doi:10.1038/nature21429

综述:老师所讲 Hi-C 相关基础知识主要来自于综述 Organization and function of the 3D genome,doi:10.1038/nrg.2016.112

贯穿你我一生的基因之谜

无处不在的基因

选一个心情不错的时间,打开手中叫做「唾液采集器」的小管子吐进一些唾液,再把它寄给一家公司。几天后你就会收到一份复杂而详细的报告,这份报告里将记录你和上百项健康风险、几十项遗传性疾病是否有关,甚至还会帮你寻根溯源,告诉你有多少少数民族或东南亚的祖先。没错,得到这些结果需要的仅仅是你那 1ml 唾液加上口袋里的两三百块钱,而这项业务就是近两年国内愈发火爆的「消费级基因检测」。目前来看,基因检测似乎是帮你从根源上判断自己是否属于一个「少数派」略显极客的不错选择。

基因检测项目 (WeGene 官网)

2017 年 12 月 28 日,我国正式启动为期四年的「中国十万人基因组计划」,这是我国在人类基因组研究领域实施的首个国字号项目。在这之前,美国于 2016 年开始自己的精准医疗计划(Precision Medicine Initiative),其中有 1.3 亿美元预算用作 百万基因组计划 。如果再向前追溯,英国早在 2012 年就启动了 10 万人基因组项目

如果你是一个非常关注自我健康或者对新技术保持敏感的人,应该对上述基因检测的场景并不陌生或者它已经真切地在你身上发生过;如果你是一个爱看财经和科技新闻的人,国际诸如 23andMe 、国内诸如华大基因、贝瑞合康这类已经进入 A 股的基因产业相关公司也会时不时霸占你的头条。即便你不在上述两类人之列,每天只「关心粮食和蔬菜,希望面朝大海春暖花开」,也一定逃不掉转基因这个话题。

variant分析阶段小结3-对变异进行注释

variant annotation

通过上面几步内容,我们找到了一些可信度相对高的突变位置,接下来一个很重要的内容就是对这些突变位点进行注释和功能预测。注释目前常用的工具有两种,一个是snpEFF,另一个是annovar。注释的思路也可以分为两类,一类是按照基因注释,另一类是按照位置注释。

SnpEFF

首先来说说SnpEFF,这个软件的用法说难不难,但是需要注意的地方不少。输入文件是前面生成的filter过的vcf文件(也可以是跑ChIP-seq等出来的peak文件),正式使用前首先需要下载好所研究物种的数据库,比对后的新vcf文件会在INFO这一列生成一个名字是ANN的tag 。软件下载安装好之后,注释过程主要有三步:

转录调控与生物信息

cis-regulatory motifs

转录调控

img

  • Transcription start site (TSS)
  • Transcription factor binding sites (TFBS)
  • Cis-regulatory module (CRM) 有多个 TF 在一起
  • Proximal promoter and distal enhancer 近端的启动子远端的增强子

在人中,有 300 个 TF 结合在核心启动子区域;有 1500 个结合在基因其他区域,可以调节一系列基因

图示

img

  • 其中的 insulator 可以阻隔 enhancer 起作用

表观遗传与生物信息

不同层次的表观

img

  • Broadly, features at different levels of chromatin organization are generally associated with inactive (off) or active (on) transcription.
  • From the top, genomic DNA is methylated(Me) on cytosine bases in specific contexts and is packaged into nucleosomes, which vary in histone composition and histone modifications (for example, histone H3 lysine 9 trimethylation (H3K9me3)); these features constitute the primary layer of chromatinstructure.
  • Here, different histone modifications are indicated by coloured dots and histone variants such as H2A.Z are brown.
  • DNA in chromatin may remain accessible to DNA-binding proteins such as transcription factors (TFs) and RNA polymerase II (RNAPII)or may be further compacted.
  • Chromatin can also organize into higher-order structuressuch as nuclear lamina-associated domains and transcription factories.
  • DOI:10.1038/nrg2905

表观实例

基因印迹

img

表观遗传定义

  • A mitotically or meiotically heritable state of different gene activity and expression (phenotype) that is independent of differences in DNA sequence (genotype) – based on Conrad Waddington, 1942
  • The sum of the alterations to the chromatin template that collectively establish and propagate different patterns of gene expression (transcription) and silencing from the same genome.
  • Epigenetic changes influence the phenotype without altering the genotype.
  • While epigenetics often refers to the study of single genes or sets of genes, epigenomics refers to more global analyses of epigenetic changes across the entire genome.

马尔科夫模型

马尔科夫是谁

马尔科夫是一位俄国的数学家,他最为人所知的是他在随机过程方面的研究。他早期研究的重点是数论而在 1900 年之后他所研究的重点转向了概率论。他研究的成果颇丰以至于在他 1905 年正式退休之后他仍然在教授课程直至去世。

在他的研究中,马尔科夫成功地拓展了大数定理以及中心极限定理,并将其应用于由独立随机变量组成的特定序列中,如今这也被称为马尔可夫链。

马尔可夫链被广泛的运用于物理学,经济学,统计学,生物学等方面。两个最著名的应用是布朗运动以及随机漫步。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×