每周文献-190330-DTU分析及转录组denovo拼接解析等

2019-03-30, 1446 words, 6 min read

文献题目 Relative Abundance of Transcripts (RATs): Identifying differential isoform abundance from RNA-seq

DOI(url): https://doi.org/10.12688/f1000research.17916.1

发表日期：24 Feb 2019

关键点

差异表达中比较少见的一种方式

参考意义

在 F1000Research 发表的这篇文章介绍了一个利用 alignment-free RNA-seq quantifications 结果进行差异分析的工具，主要是用来对转录本进行差异定量分析。在日常的分析中我们进行差异分析最常见的是对差异基因进行定量分析，这里没有考虑到每个基因内部转录本的情况。

在这篇文章中提到了一个三种差异分析的方法，分别是：

differential gene expression (DGE)
differential transcript expression (DTE)
differential transcript usage (DTU)

根据需求的不同，这三种方法会分析出非常不同的结果。在 DTU 中，即便是两个表达总量没有差异的基因其也可能发生 isoform switching，及 dominant isoform 的改变。而文章中作者发表的 R 包即可进行 DTU 的分析，其输入数据可以是 Kallisto 或者 Salmon 的定量结果。

R 包地址：https://github.com/bartongroup/Rats

文献题目 Error, noise and bias in de novo transcriptome assemblies

DOI(url): https://doi.org/10.1101/585745

发表日期：March 22, 2019

关键点

详细讨论转录组 de novo 拼接的那点事。

参考意义

这篇发表在 biorxiv 的文章，从多个方面阐述了转录本拼接本身存在的问题。这其中包括作者评估的几个算法都没有拼出数百个真是表达的基因，一大部分拼接处的 contigs 完全由内含子和 UTR 组成；对转录本有效长度的不准确给定量带来了很大的偏差等等。最后建议现在测序价格便宜了，能拼基因组就拼基因组吧。（这道理难道我不懂么，我只是没钱）。

这篇文章更值得参考的是他做的分析和采用的方法，50 页的文本非常详细的记录了具体的分析过程以及参数。也提醒了我们在做类似的分析是有哪些角度可以思考。

主要分析流程

Short read processing：trimgalore
De novo transcriptome assembly
- TRINITY
- SHANNON
- BINPACKER
- BUSCO
Assembly and read functional composition
Coverage of reference transcripts and genes
- RSEM
- TRANSDECODER
Expression estimation
Analysis of missing genes
- PANTHER
Evaluating assembly redundancy
SNP-based analysis of assembly composition

文献题目 Predicting the effects of SNPs on transcription factor binding affinity

DOI(url): https://doi.org/10.1101/581306

发表日期：March 18, 2019

关键点

非编码区 SNP 可以研究的方向之一，对转录因子结合能力的影响。

参考意义

GWAS 显示 88％的疾病相关 SNP 位于非编码区。然而，非编码 SNP 仍未得到充分研究，这其中一部分原因是它们难以确定实验验证的优先级。这篇文章作者提出一种确定非编码区 SNP 重要性的评判标准以及方法。通过观察全基因组功能性转录因子结合位点内 SNP 的 ChIP-seq 信号强度差异来估计转录因子结合亲和力
的变化。

目前用来分析转录因子结合位点的 martix 叫做 position weight matrix (PWM)，而文章中则提出了 SNP effect matrices (SEM)。

SNP Effect Matrix pipeline

使用数据

ChIP-seq data： provides a transcription factor's endogenous binding in the genome
DNase I hypersensitive sites sequencing (DNaseseq) data: represents regions of open chromatin where transcription factors are known to function
position weight matrices (PWMs): denote previous knowledge of the binding pattern of transcription factors

流程

文献题目 LNISKS: Reference-free mutation identification for large and complex crop genomes

DOI(url): https://doi.org/10.1101/580829

发表日期：March 19, 2019

关键点

针对 Bulk segregant analysis (BSA) 设计的无参考基因组 call snp 流程

参考意义

对于植物（作物）来说，通常手里拿到的材料并不是真正的测序品种。比如水稻就包括籼稻和粳稻，而且很可能手里的粳稻也不是真正的粳稻。面对这种情况，其实不少用到和参考基因组比对的工作都或多或少的存在一些问题，因为那个基因组在很多位置其实你都无法「参考」，而其中影响最大的一类工作就是 call snp 相关的工作。当你的材料和参考基因组差别比较大的时候就会存在很多黑箱。如果能够不依赖基因组信息而直接 call snp 一定程度上就可以规避这类问题。但是准确度如何需要进一步考证。