转录组时间序列数据小结

针对转录组数据,平时分析中最常见两组之间的比较,比如不同处理或者不同突变体。面对这样的数据用用 DESeq2 或者 edgeR 基本就差不多。如果样本量或者不同条件很多的话可以还做 WGCNA 的分析。但是生物体的生长发育和时间这个维度有着非常密切的关系。如果碰上了一组和时间有关系的数据可以怎么处理呢?

时序分析

所谓时序分析 (time series analysis) 在 data science 中是非常重要的一个方向。对大多数商业行为而言如果能够通过已有不同时间数据来进行预测就有可能大大提高自己的胜率。通常时间序列数据会包括趋势部分和不规则部分, 我们需要做的就是剔除不规则部分然后找到趋势所在,再进行预测。在预测过程中通常可以采用移动平均法、局部加权回归法、指数平滑法和自回归整合移动平均等方法。

生物学时序分析

生物学的时间相关数据本身预测属性和商业数据相比要弱很多。一种是单一条件的纯时间序列,主要看不同基因的表达模式,根据相似的表达谱将基因归为多个类有助于找到功能相似的基因。另一种情况是含有对照和处理的时间序列,需要再考察不同条件的差异基因。

生物信息学简史

前几天看到 Briefings in bioinformatics 发了一篇 文章 介绍生物信息学发展历史。个人有两个感慨,一是这样的文章也可以发表(不禁想给自己的博客投稿),二是感慨生物信息学发展之快。对整篇文章进行了粗糙的翻译整理,供大家了解。

起源:1950-1970

20 世纪 50 年代早期,DNA 的历史地位还没有被建立,那个时候人们普遍认为蛋白质才是遗传信息的载体。直到 1952 年的噬菌体感染实验,人们才第一次证明 DNA 是真正的遗传物质。因为这个历史原因,生物信息学在 DNA 中的应用要落后于蛋白质研究将近 20 年时间。

3D 基因组与生物信息

重要的 Hi-C 相关文献

第一篇 Hi-C 文章: Comprehensive Mapping of Long-Range Interactions Reveals Folding Principles of the Human Genome; DOI: 10.1126/science.1181369

TAD 提出: Topological Domains in Mammalian Genomes Identified by Analysis of Chromatin Interactions ;doi: 10.1038/nature11082

高分辨率 Hi-C: A 3D Map of the Human Genome at Kilobase Resolution Reveals Principles of Chromatin Looping https://doi.org/10.1016/j.cell.2014.11.021

单细胞 Single cell: Hi-C reveals cell-to-cell variability in chromosome structure doi: 10.1038/nature12593;3D structures of individual mammalian genomes studied by single-cell Hi-C doi:10.1038/nature21429

综述:老师所讲 Hi-C 相关基础知识主要来自于综述 Organization and function of the 3D genome,doi:10.1038/nrg.2016.112

贯穿你我一生的基因之谜

无处不在的基因

选一个心情不错的时间,打开手中叫做「唾液采集器」的小管子吐进一些唾液,再把它寄给一家公司。几天后你就会收到一份复杂而详细的报告,这份报告里将记录你和上百项健康风险、几十项遗传性疾病是否有关,甚至还会帮你寻根溯源,告诉你有多少少数民族或东南亚的祖先。没错,得到这些结果需要的仅仅是你那 1ml 唾液加上口袋里的两三百块钱,而这项业务就是近两年国内愈发火爆的「消费级基因检测」。目前来看,基因检测似乎是帮你从根源上判断自己是否属于一个「少数派」略显极客的不错选择。

基因检测项目 (WeGene 官网)

2017 年 12 月 28 日,我国正式启动为期四年的「中国十万人基因组计划」,这是我国在人类基因组研究领域实施的首个国字号项目。在这之前,美国于 2016 年开始自己的精准医疗计划(Precision Medicine Initiative),其中有 1.3 亿美元预算用作 百万基因组计划 。如果再向前追溯,英国早在 2012 年就启动了 10 万人基因组项目

如果你是一个非常关注自我健康或者对新技术保持敏感的人,应该对上述基因检测的场景并不陌生或者它已经真切地在你身上发生过;如果你是一个爱看财经和科技新闻的人,国际诸如 23andMe 、国内诸如华大基因、贝瑞合康这类已经进入 A 股的基因产业相关公司也会时不时霸占你的头条。即便你不在上述两类人之列,每天只「关心粮食和蔬菜,希望面朝大海春暖花开」,也一定逃不掉转基因这个话题。

转录调控与生物信息

cis-regulatory motifs

转录调控

img

  • Transcription start site (TSS)
  • Transcription factor binding sites (TFBS)
  • Cis-regulatory module (CRM) 有多个 TF 在一起
  • Proximal promoter and distal enhancer 近端的启动子远端的增强子

在人中,有 300 个 TF 结合在核心启动子区域;有 1500 个结合在基因其他区域,可以调节一系列基因

图示

img

  • 其中的 insulator 可以阻隔 enhancer 起作用

表观遗传与生物信息

不同层次的表观

img

  • Broadly, features at different levels of chromatin organization are generally associated with inactive (off) or active (on) transcription.
  • From the top, genomic DNA is methylated(Me) on cytosine bases in specific contexts and is packaged into nucleosomes, which vary in histone composition and histone modifications (for example, histone H3 lysine 9 trimethylation (H3K9me3)); these features constitute the primary layer of chromatinstructure.
  • Here, different histone modifications are indicated by coloured dots and histone variants such as H2A.Z are brown.
  • DNA in chromatin may remain accessible to DNA-binding proteins such as transcription factors (TFs) and RNA polymerase II (RNAPII)or may be further compacted.
  • Chromatin can also organize into higher-order structuressuch as nuclear lamina-associated domains and transcription factories.
  • DOI:10.1038/nrg2905

表观实例

基因印迹

img

表观遗传定义

  • A mitotically or meiotically heritable state of different gene activity and expression (phenotype) that is independent of differences in DNA sequence (genotype) – based on Conrad Waddington, 1942
  • The sum of the alterations to the chromatin template that collectively establish and propagate different patterns of gene expression (transcription) and silencing from the same genome.
  • Epigenetic changes influence the phenotype without altering the genotype.
  • While epigenetics often refers to the study of single genes or sets of genes, epigenomics refers to more global analyses of epigenetic changes across the entire genome.

马尔科夫模型

马尔科夫是谁

马尔科夫是一位俄国的数学家,他最为人所知的是他在随机过程方面的研究。他早期研究的重点是数论而在 1900 年之后他所研究的重点转向了概率论。他研究的成果颇丰以至于在他 1905 年正式退休之后他仍然在教授课程直至去世。

在他的研究中,马尔科夫成功地拓展了大数定理以及中心极限定理,并将其应用于由独立随机变量组成的特定序列中,如今这也被称为马尔可夫链。

马尔可夫链被广泛的运用于物理学,经济学,统计学,生物学等方面。两个最著名的应用是布朗运动以及随机漫步。

机器学习在生物信息学中的应用

recap

Machine learning methods

general-purpose approaches to learn functional relationships from data without the need to define them a priori

Advantage

derive predictive models without the need for strong assumptions about underlying mechanisms, which are frequently unknown or insufficiently defined (especially for genomic data)

序列比对其他相关问题

全局比对 Global Alignment

由芝加哥的 Needleman 和 Wunsch 两位于上个世纪 70 年代初提出,常被称之为 Needleman-Wunsch 算法。算法针对用户指定的打分函数,确定性地找出两条序列间的最优比对。

Needle-Wunsch 算法对两条序列所有残基进行全局比对的局限性。

  • 功能相关的蛋白之间虽然可能在整体序列上相差甚远, 却常常会具有相同的功能域
  • 序列片段能够独立发挥特定的生物学功能,却在不同蛋白之间相当保守
  • 仅靠全局比对的算法无法发现这样的片段
    • 内含子的发现使得在做核酸水平的序列比对时必须要正确处理内含子导致的大片段的差异

序列比对与动态规划

生物信息的思考方式

biological question

  • 生物学问题
  • 有什么意义

data

  • 输入数据是什么
  • 哪些可接受的数据格式 A

model

  • 如何用计算的方法解决
  • 什么是数据的 model

algorithm

  • 算法是什么
  • 效率如何,有哪些局限性
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×