每周文献-181223-单细胞单分子表观

单细胞及单分子在表观的应用

文献题目:Single-cell and single-molecule epigenomics to uncover genome regulation at unprecedented resolution

DOI(url): https://doi.org/10.1038/s41588-018-0290-x

发表日期: 2018 Dec 17

关键点

这篇综述介绍了单细胞和单分子表观基因组学正在以前所未有的分辨率揭示基因组调控的各种机制。作者重点介绍了变革技术中的一部分,并讨论了它们如何被用于识别新的基因调控模式

生物信息发文章哪家强

如果想在生物信息学专业杂志上发一篇不用做任何具体生物信息分析的文章,应该怎么做?最近发表在 Bioinformatics 的一篇文章或许可以给你一点思路。

随着生物信息的发展,生物信息学相关的文章近10年呈现大量增加的趋势。世间万物皆可比较,你有没有想过,生物信息发文章哪家强。(山东技校找蓝翔?)

一句话介绍

BIOLITMAP :一个基于地理位置,允许按照年份、杂志和主题轻松筛选查看生物信息学文章发表情况的网站。

每周文献-181216-lncRNA差异分析流程测评

文献信息

标题:Differential gene expression analysis tools exhibit substandard performance for long non-coding RNA-sequencing data

DOI(url): https://doi.org/10.1186/s13059-018-1466-5

发表日期:24 July 2018

关键词: lncRNA, Differential gene expression, RNA-seq, differential expression

文献概述

这篇文章详细的分析了不同标准化和差异分析方法在 lncRNA 分析中的差别。一共使用了25个分析流程,主要关注点是 lncRNA 和一些低表达 mRNA。使用15种指标来评估差异基因的分析方法和标准化方法,一共使用了 6 中不同 RNA-seq 数据集,同时还提供了一个 shiny 网页可视化工具用来展示这些分析结果。按道理类似类型的文章应该达不到这个水平的杂志,lncRNA 分析方法的测评能够发到 Genome Biology 上也是牛,想必定有过人之处。

简单说最后的结论是使用 limma 和 SAMSeq 分析lncRNA 或者表达量很低的mRNA 效果要稍微好些,值得注意的是,为了获得至少 50% 的 sensitivity,在实际环境(如临床癌症研究)中研究表达水平时需要超过80个样本(what ?)。测试使用的大约一半的方法显示出过多的假阳性,非常不可靠。

每周文献-181208-DNA甲基化和几个工具

文献信息

标题: A DNA methylation reader complex that enhances gene transcription

DOI(url): 10.1126/science.aar7854

发表日期: 07 Dec 2018

关键词: DNA methylation; reader complex; SUVH1 and SUVH3; activate

文献概述

emmm , 挺长时间没有植物甲基化的文章发表在 science 上了,文章的通讯作者是美国科学院院士。

DNA 甲基化(DNA methylation)是最早发现的表观修饰遗传标记。DNA 甲基化在调控基因表达、维持染色质结构、基因印记以及胚胎发育等生物学过程中发挥着重大的作用。在真核生物中,DNA 甲基化通常标记转座元件。在植物中,RNA 介导的 DNA 甲基化(RNA-directed DNA methylation, RdDM)是一种重要的甲基化途径,植物中有三种甲基化形式CG、CHG、CHH。CG 由DNA甲基化转移酶 MET1 维持,在植物中 DNMT1 的同源蛋白;植物特异的 CMT3 结合 H3k9me2 促进 CHG 甲基化;CHH 由DRM2 及 CMT2 维持。转座子的插入可以对邻近的基因在转录水平产生影响,启动子的甲基化通常来说会抑制这些基因的表达,但也存在DNA甲基化促进基因表达的例外情况。

每周文献-181130-lncRNA

文献信息

标题:Global identification of Arabidopsis lncRNAs reveals the regulation of MAF4 by a natural antisense RNA

DOI(url): 10.1038/s41467-018-07500-7

发表日期:29 November 2018

关键词:lncRNA, H3K4me3, natural antisense transcripts, concordantly expressed

文献概述

  • 鉴定了 6510 个 lncRNA ,其中包括 4050 个 NAT-lncRNA 以及 2460 个 lincRNA
  • 在不同组织或逆境处理条件下,很多 NAT-lncRNA 与邻近蛋白编码基因的表达呈现正相关趋势。
  • 通过人工 miRNA 沉默部分 NAT-lncRNA 表达可导致邻近蛋白编码基因表达下降,表明 NAT-lncRNA 可正向调控邻近基因的表达。
  • 拟南芥成花抑制基因 MADS AFFECTING FLOWERING4(MAF4) 基因位点有一个 NAT-lncRNA,MAS。
  • MAS 受冷处理诱导并在转录水平激活 MAF4 表达,抑制拟南芥过早开花。MAS 对 MAF4 的激活依赖于一类参与组蛋白 H3K4me3 修饰的 COMPASS-like 复合体。
  • MAS 与复合体中的一个核心蛋白组分 WDR5a 结合并辅助该复合体招募到MAF4 基因位点,促进 H3K4me3 修饰,从而促进 MAF4 表达。

66种测序数据分析方法和流程

写在前面:看了标题进来的老铁,这里不可能在一篇文章里写好66个pipeline 给你,实际上我就是给你推荐一个网站。

闲着乱看的时候发现在bioinformatics 上发表了一篇文章SequencEnG: an Interactive Knowledge Base of Sequencing Techniques,再一看Abstract,写道

Next-generation sequencing (NGS) techniques are revolutionizing biomedical research by providing powerful methods for generating genomic and epigenomic profiles. The rapid progress is posing an acute challenge to students and researchers to stay acquainted with the numerous available methods. We have developed an interactive online educational resource called SequencEnG (acronym for Sequencing Techniques Engine for Genomics) to provide a tree-structured knowledge base of 66 different sequencing techniques and step-by-step NGS data analysis pipelines comparing popular tools

艾玛,原来现在已经有至少66种不同测序技术了? 掰着手指想了想,知道的做过的撑死也超不过一双手啊。这66种测序技术都是啥,于是点开了这篇文章的网站想探探路。嗯,果然很多没听说过:)

SRA 数据下载自救指南

还在羡慕海峡那边的朋友下载SRA 快到飞起?还在难过用wget 下载数据经常下载不完整?用了官方的下载工具还是慢的不行?这里有一个SRA 下载自救尝试指南供你参考。

需要用到两个工具

  • SRA Toolkit
  • IBM aspera 高速文件传输工具

因为这是一篇极简自救指南,所以一切都不解释,直接给出链接,不明白的自行学习(爱学不学)。

SRA Toolkit 网址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc

aspera 网址:https://support.asperasoft.com/hc/en-us

aspera 官方对于下载NCBI数据的说明

https://support.asperasoft.com/hc/en-us/articles/216125898-Downloading-data-from-NCBI-via-the-command-line

转录组时间序列数据小结

针对转录组数据,平时分析中最常见两组之间的比较,比如不同处理或者不同突变体。面对这样的数据用用 DESeq2 或者 edgeR 基本就差不多。如果样本量或者不同条件很多的话可以还做WGCNA的分析。但是生物体的生长发育和时间这个维度有着非常密切的关系。如果碰上了一组和时间有关系的数据可以怎么处理呢?

时序分析

所谓时序分析 (time series analysis) 在 data science 中是非常重要的一个方向。对大多数商业行为而言如果能够通过已有不同时间数据来进行预测就有可能大大提高自己的胜率。通常时间序列数据会包括趋势部分和不规则部分, 我们需要做的就是剔除不规则部分然后找到趋势所在,再进行预测。在预测过程中通常可以采用移动平均法、局部加权回归法、指数平滑法和自回归整合移动平均等方法。

生物学时序分析

生物学的时间相关数据本身预测属性和商业数据相比要弱很多。一种是单一条件的纯时间序列,主要看不同基因的表达模式,根据相似的表达谱将基因归为多个类有助于找到功能相似的基因。另一种情况是含有对照和处理的时间序列,需要再考察不同条件的差异基因。

生物信息学简史

前几天看到Briefings in bioinformatics 发了一篇文章介绍生物信息学发展历史。个人有两个感慨,一是这样的文章也可以发表(不禁想给自己的博客投稿),二是感慨生物信息学发展之快。对整篇文章进行了粗糙的翻译整理,供大家了解。

起源:1950-1970

20世纪50年代早期,DNA的历史地位还没有被建立,那个时候人们普遍认为蛋白质才是遗传信息的载体。直到1952年的噬菌体感染实验,人们才第一次证明DNA是真正的遗传物质。因为这个历史原因,生物信息学在DNA中的应用要落后于蛋白质研究将近20年时间。

贯穿你我一生的基因之谜

无处不在的基因

选一个心情不错的时间,打开手中叫做「唾液采集器」的小管子吐进一些唾液,再把它寄给一家公司。几天后你就会收到一份复杂而详细的报告,这份报告里将记录你和上百项健康风险、几十项遗传性疾病是否有关,甚至还会帮你寻根溯源,告诉你有多少少数民族或东南亚的祖先。没错,得到这些结果需要的仅仅是你那 1ml 唾液加上口袋里的两三百块钱,而这项业务就是近两年国内愈发火爆的「消费级基因检测」。目前来看,基因检测似乎是帮你从根源上判断自己是否属于一个「少数派」略显极客的不错选择。

基因检测项目(WeGene官网)

2017 年 12 月 28 日,我国正式启动为期四年的「中国十万人基因组计划」,这是我国在人类基因组研究领域实施的首个国字号项目。在这之前,美国于 2016 年开始自己的精准医疗计划(Precision Medicine Initiative),其中有 1.3 亿美元预算用作 百万基因组计划 。如果再向前追溯,英国早在 2012 年就启动了 10 万人基因组项目

如果你是一个非常关注自我健康或者对新技术保持敏感的人,应该对上述基因检测的场景并不陌生或者它已经真切地在你身上发生过;如果你是一个爱看财经和科技新闻的人,国际诸如 23andMe 、国内诸如华大基因、贝瑞合康这类已经进入A股的基因产业相关公司也会时不时霸占你的头条。即便你不在上述两类人之列,每天只「关心粮食和蔬菜,希望面朝大海春暖花开」,也一定逃不掉转基因这个话题。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×