每周文献-181130-lncRNA

每周文献-181130-lncRNA

文献信息

标题:Global identification of Arabidopsis lncRNAs reveals the regulation of MAF4 by a natural antisense RNA

DOI(url): 10.1038/s41467-018-07500-7

发表日期:29 November 2018

关键词:lncRNA, H3K4me3, natural antisense transcripts, concordantly expressed

文献概述

  • 鉴定了 6510 个 lncRNA ,其中包括 4050 个 NAT-lncRNA 以及 2460 个 lincRNA
  • 在不同组织或逆境处理条件下,很多 NAT-lncRNA 与邻近蛋白编码基因的表达呈现正相关趋势。
  • 通过人工 miRNA 沉默部分 NAT-lncRNA 表达可导致邻近蛋白编码基因表达下降,表明 NAT-lncRNA 可正向调控邻近基因的表达。
  • 拟南芥成花抑制基因 MADS AFFECTING FLOWERING4(MAF4) 基因位点有一个 NAT-lncRNA,MAS。
  • MAS 受冷处理诱导并在转录水平激活 MAF4 表达,抑制拟南芥过早开花。MAS 对 MAF4 的激活依赖于一类参与组蛋白 H3K4me3 修饰的 COMPASS-like 复合体。
  • MAS 与复合体中的一个核心蛋白组分 WDR5a 结合并辅助该复合体招募到MAF4 基因位点,促进 H3K4me3 修饰,从而促进 MAF4 表达。

笔记

文章主要内容和结论

测序和建库类型,作者使用了三种建库方式,分别是去rRNA, poly(A)+ 和 poly(A)− 。

using high-depth strand-specific RNA sequencing (ssRNA-seq). We generated cDNA libraries for rRNA-depleted total, polyadenylated [poly(A)+] and non-polyadenylated [poly(A)−] RNAs in whole cell extract, nuclear and cytosolic fractions

对转录本进行拼接,从64,987 genomic loci 找到了106,421 unique transcripts。

106,421 unique transcripts from 64,987 genomic loci. Among these, 25,245 were previously annotated protein-coding transcripts

去除掉编码 RNA,已知的非编码 RNA,短于150bp以及最大 FPKM < 1 的转录本以及编码能力大于0的转录本以及和编码 RNA 在同一个方向并且有部分重叠的部分,剩下一共注释了 6510 个 lncRNAs。这里面的数据包括了不同组织和不同胁迫处理。

找到了lncRNA之后必然需要进行一些泛泛的统计和分类。首先作者把 NAT lncRNA 分成了3类:overlapping (2117), divergent (1296) and convergent (637)。具体每一类的特点如下图所示。

NATlncRNA

随后作者统计了 lncRNA 特征并和可以翻译的进行了对比,总之就是长度短外显子少isoforms 也少,当然表达量也低。作者也检查了植物(拟南芥)里的lncRNA 到底有没有 polyA 尾巴。在我之前的认知里感觉很多 lncRNA 是没有polyA 的,但是作者的通过对两种建库方式进行严格筛选后发现大部分的lncRNA 其实是有 polyA 尾巴的。具体信息如下:

we found that 1352 lncRNAs were significantly enriched in the poly(A)+ fraction, whereas 198 lncRNAs were significantly enriched in the poly(A)− fraction

我没有想到的一个统计指标是作者对 lncRNA 的核质分布情况进行了分析,发现细胞核比细胞质多的 lncRNA 要多一些。

239 lncRNAs had significantly higher levels in the nuclear fraction than that in the cytosolic fraction, whereas only 43 lncRNAs were more abundant in the cytosolic fraction

lncRNA 的表达特异性自然肯定也是要做的,包括不同组织和不同胁迫条件,文章特别提到了也验证出 COOLAIR 冷处理后表达量会升高。

至此都是比较平淡的信息,随后的结论就开始逐渐接触正题。

关于 lncRNA 和 adjacent genes 的关系一直争论,有抑制的也有促进的,各自都有一些实验结果支撑。可能目前的结论就是二者都有。作者计算了他找到的lncRNA 和对应的基因之间的相关性,发现只要 NAT 相关性系数就要比不是 NAT 的高很多,而且还是正相关。

整个文章中所有的高通量分析数据作者每一步都挑了若干个 RT-qPCR 进行验证。不知道是不是 review 的要求。

We found that the p.c.c. values of overlapping NAT-lncRNA/sense gene pairs were significantly higher than the values between adjacent protein-coding pairs (Fig. 3a), suggesting that overlapping NAT-lncRNAs have a stronger tendency to have positively correlated expression patterns with their sense overlapping genes

正相关还说明不了什么。为了证明是正调控,作者使用 artificial microRNAs knocked down 21 NAT-lncRNAs。 发现,其中 15 个 cognate sense genes显著下调,3 个上调。

有了现象就要解释结论,目前关于 lncRNA 的作用机制其实已经有不少了,比如当做一个靶点替编码基因吸引敌人,或者通过R-loop 来发挥作用。当然,如果一个现象用正常的方法很难解释,有一个挺不错的万金油就是用表观遗传学来解释,这里的万金油是个中性词,我自己就是做表观遗传的。

作者想要说明 lncRNA 能够正向调节对应的编码基因,那么最好的方法就是看看是不是和一些类似于H3K4me3 的激活型修饰联系起来。随后作者很「自然」的focus 到了一个叫做 MAF4 的基因,对应的NAT 叫做 MAS,至于为什么要做这个基因也没什么解释。

MAS结构

首先作者用实验证明了这两个转录本到底是编码的调控了非编码的还是反之,然后尝试分析了一些机制,比如会不会双链RNA 产生的 sRNA,或者影响了编码RNA的稳定性。然后通过若干的实验证明了顺式作用MAS在转录水平激活MAF4表达。 因为已知H3K4me3 参与了MAF4 的激活,所以作者就像是不是可以把这个NAT 和 H3K4me3 联系一下。然后又进行了一系列实验验证。表明确实在MAS 的突变体中这个表观修饰有变化且一个相关的复合体因子很重要。

模式图

讨论部分几点信息

从讨论部分可以发现,作者找到的组蛋白 H3K4me3 修饰的 COMPASS-like 复合体核心蛋白组分 WDR5a 之前已经在Nature 中被报道过和其它的 lncRNA 存在作用,但是找到的机制不同。另外,作者的结果与先前的发现一致,即相邻基因通常具有相关表达,而与其方向无关。

另外,作者也提到了基因之间的“ripple effects ”, 至于原因可能是因为NAT-lncRNA的TSS与其配对基因之间的平均距离较小,也可能是NAT-lncRNAs在激活其配对基因的表达中确实起着至关重要的作用。

主要方法

作者在计算表达量的时候用的还是 Cuffidff, 我并不是反感 Cuffdiff 但是我看到它就会想到 Tophat2 ,果然在2018年作者使用的 mapping 软件还是 TopHat2。转录组拼接用的也是cufflinks 和 cuffmerge 那一套。

R 的版本是3.1.0, 这一版 R 的更新日期要追溯到2014年4月10号了, 我猜测要么是这个文章的时间跨度确实已经有三四年了,或者是他们实验室没有一个真正做生物信息且对软件版本有强迫症的人。不过从使用的比对软件来看,也有可能是一个 pipeline 流传了很多年,祖传代码。

相关性计算使用的是 Pearson correlation coefficients,sRNA-seq 用的是 bowtie allowing no mismatches,然后定量单位是reads per million (RPM)。

比较关心的几个问题

  • RT-qPCR 的时候如何区分正负链

  • 如何保证amiRNAs 影响反义链的时候不影响正义链的基因表达

    关于这个问题,作者在文章中给了正面的回答

    Alteration of sense gene expression in amiRNA knockdown lines was not due to targeting of sense genes by amiRNA*s. Eight out of 21 amiRNA*s do not base pair with sense mRNAs at all. The rest of the amiRNA*s have mismatches to corresponding sense mRNAs at critical positions。 Furthermore, most of the amiRNA*s do not have 5’ terminal uridine , making it less likely that they are loaded into the effector AGO1 to suppress gene expression

  • 作者在文章中看似自然的从宏观层面过度到了一个具体的基因,然后讲了一个NAT 和表观的故事。比较好奇的是其他十几个也找到正向调控的几组为什么都没有提到呢?如果按照正常的套路,一方面可能是他们先做了这个基因然后发现有lncRNA 可能参与才有了文章开头的高通量试验,另一方面可能是其他的基因也做了,但是似乎表观又解释不了。

  • 文章中关于 ChIP 的部分并没有做高通量试验,或者做了至少没有放在文章中,只是用ChIP-qPCR 去验证。只要做一个ChIP-seq 的实验很容易看看其他十几个基因的修饰情况,甚至可以K27, K36 这些修饰都做一做。如果能有一半的基因做出表观的相关性,我都会更相信这个机制。

review 怎么看

nature 系列的杂志目前似乎可以公开作者和文章review 之间的质疑和回应内容,在这篇文章的附件中可以看到完整的review 意见,其中「如何保证amiRNAs 影响反义链的时候不影响正义链的基因表达」也是review 的问题。

个人感觉仔细阅读 review 和 作者之间沟通的这个记录比阅读原文更有意思。

相关文献

植物中研究的比较多的几个lncRNA

  • COLDAIR: Swiezewski, S., Liu, F., Magusin, A. & Dean, C. Cold-induced silencing by long antisense transcripts of an Arabidopsis Polycomb target. Nature 462, 799–802 (2009).

  • APOLO: Ariel, F. et al. Noncoding transcription by alternative RNA polymerases dynamically regulates an auxin-driven chromatin loop. Mol. Cell 55, 383–396 (2014).

  • ELENA: Seo, J. S. et al. ELF18-INDUCED LONG-NONCODING RNA associates with mediator to enhance expression of innate immune response genes in Arabidopsis. Plant Cell 29, 1024–1038 (2017).


本文作者:思考问题的熊

版权声明:本博客所有文章除特别声明外,均采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。

# 文献
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×