转录组表达分析知识图谱

文章信息

Van den Berge, Koen, Katharina M. Hembach, Charlotte Soneson, Simone Tiberi, Lieven Clement, Michael I. Love, Rob Patro, and Mark D. Robinson. 2019. “RNA Sequencing Data: Hitchhiker’s Guide to Expression Analysis.” Annual Review of Biomedical Data Science 2 (1): 139–73. https://doi.org/10.1146/annurev-biodatasci-072018-021255.

Annual Review 系列杂志的综述应该说是综述界的老大哥。最近在 Annual Review of Biomedical Data Science 发表了「另」一篇 RNA-Seq 相关的重磅综述。之所以说是另一篇,因为同期在 Nature Reviews Genetics 发表过一篇看名字就非常霸气的综述:RNA sequencing: the teenage years 。

船新版本 DESeq2 处理大量样本速度显著提升

太长不看版本

DESeq 最新版本(v1.25.9)针对大样本分析的速度和之前相比有了质的飞越,果子老师的 1215 个 TCGA 样本差异分析时间从 1200 分钟缩短到单线程 20 分钟,使用多线程的情况下最快 6 分钟搞定。

解决 Stringtie 基因重复定量的意外收获

Bioinformatics was like a box of chocolates. You never konw what you’re gonna get ——阿飞正传

铺垫

由于自己之前一直不喜欢用 cufflinks,所以后面的 stringtie 也是能不用就不用,偶尔用下也都是浅尝辄止。因为 stringtie 可以直接拿到基因的 TPM 值,比 RSEM 需要单独构建一次索引的操作省力些,所以最近自己注释了些基因就用它对十几个样本跑了一波基因定量的常规操作。心想做个表达矩阵进行下游分析,结果偶买噶,每个定量结果的行数(基因数)竟然都不一样。同一个注释文件定量出了不同的结果,检查一下原始基因数,发现有的定量结果行数要比实际基因数多 7 个,有的要多 5 个,还不尽相同。

RNAseq 必读综述和在线教程

最近读到一篇 博文,介绍了学习 RNAseq 数据分析非常推荐的两篇综述和七个在线教程并发表了相关评论。本文将进行简要整理并对相关评论内容进行大致翻译,供国内读者参考。

SRA 数据下载自救指南

还在羡慕海峡那边的朋友下载 SRA 快到飞起?还在难过用 wget 下载数据经常下载不完整?用了官方的下载工具还是慢的不行?这里有一个 SRA 下载自救尝试指南供你参考。

需要用到两个工具

  • SRA Toolkit
  • IBM aspera 高速文件传输工具

因为这是一篇极简自救指南,所以一切都不解释,直接给出链接,不明白的自行学习(爱学不学)。

SRA Toolkit 网址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc

aspera 网址:https://support.asperasoft.com/hc/en-us

aspera 官方对于下载 NCBI 数据的说明

https://support.asperasoft.com/hc/en-us/articles/216125898-Downloading-data-from-NCBI-via-the-command-line

转录组时间序列数据小结

针对转录组数据,平时分析中最常见两组之间的比较,比如不同处理或者不同突变体。面对这样的数据用用 DESeq2 或者 edgeR 基本就差不多。如果样本量或者不同条件很多的话可以还做 WGCNA 的分析。但是生物体的生长发育和时间这个维度有着非常密切的关系。如果碰上了一组和时间有关系的数据可以怎么处理呢?

时序分析

所谓时序分析 (time series analysis) 在 data science 中是非常重要的一个方向。对大多数商业行为而言如果能够通过已有不同时间数据来进行预测就有可能大大提高自己的胜率。通常时间序列数据会包括趋势部分和不规则部分, 我们需要做的就是剔除不规则部分然后找到趋势所在,再进行预测。在预测过程中通常可以采用移动平均法、局部加权回归法、指数平滑法和自回归整合移动平均等方法。

生物学时序分析

生物学的时间相关数据本身预测属性和商业数据相比要弱很多。一种是单一条件的纯时间序列,主要看不同基因的表达模式,根据相似的表达谱将基因归为多个类有助于找到功能相似的基因。另一种情况是含有对照和处理的时间序列,需要再考察不同条件的差异基因。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×