学习新工具的思路

有两件事情,第一是前几天看到一个朋友分享了自己 学习生物信息工具的经验,借着这个机会刚好反思了一下自己过去几年是如何做的;第二是最近有人问了我一个问题:“使用 tophat 比对完的转录组数据 bam 文件想用 RNA-SeQC 来质控,但是这个软件好像没人维护了”(竟然还在用 tophat)。那这次就聊聊如何学习一个新的工具。

学会提炼需求

学习新工具有两种途径,一种是按需搜索一种是被动获取。被动获取还好,就是一般最新的杂志发表了什么平台推荐了什么就看什么。如果是按需搜索需要首先明白自己的需求是什么。

举一个最简单的例子,如果你使用一个转录组拼接工具提示内存不够了不能正确运行。这个时候你的需求是什么,很自然会想到去找一款需要消耗内存更少的软件。然后找了另外两个软件,一测试一个效果非常不好另一个压根自己不会安装。卒。

用 bedtools 和 bedops 对 bed 文件进行各种运算

bedtools 的傲人光环

如果让你说出日常在进行生物数据分析时,做的最多的事情是什么,我想不管你是什么方向,「不停地转换格式」应该能排进日常前三。如果再问用的最多的工具是什么,想必一定也是和「不停地转换格式」相关的工具。在这些工具里有几个叫 XXtools 的非常出名,其中 samtools 和 bcftools 我们这次暂且不提,它们都是出自大神 LiHeng 之手。另一个能脱口而出的恐怕就是 bedtools 了,这个工具最初发表在 Bioinformatics 的文章,谷歌学术显示自 2010 年以来已经有了 6600 多次引用。当年这篇文章的第一作者 Quinlan ,如今已经是 UNIVERSITY OF UTAH 很厉害的 PI,它的课题组先后开发了一些列优秀的生物信息工具。当然,他们的故事今天也暂且不提(那位朋友问了,你今天到底要说啥,且看下文)。

6600 多次引用(其实现在很多文章用了它已经不引用了)让 bedtools 在 bed 相关格式文本处理领域一家独大。我经常半开玩笑地说 50% 高通量数据后期分析概括一下都是各种位置之间的纠缠,因为但凡分析有参考基因组的数据就会把所有信息都铆定到参考基因组这个坐标系中(如果没有基因组那就拼一个),这也是为什么 bedtools 从一推出就如此受欢迎。在生物信息这个领域,一个软件是不是会被大量使用,最重要的是它是否真的有用然后再加上一点点出现的时机和运气。

RNAseq 必读综述和在线教程

最近读到一篇 博文,介绍了学习 RNAseq 数据分析非常推荐的两篇综述和七个在线教程并发表了相关评论。本文将进行简要整理并对相关评论内容进行大致翻译,供国内读者参考。

每周文献-181223-单细胞单分子表观

单细胞及单分子在表观的应用

文献题目:Single-cell and single-molecule epigenomics to uncover genome regulation at unprecedented resolution

DOI(url): https://doi.org/10.1038/s41588-018-0290-x

发表日期: 2018 Dec 17

关键点

这篇综述介绍了单细胞和单分子表观基因组学正在以前所未有的分辨率揭示基因组调控的各种机制。作者重点介绍了变革技术中的一部分,并讨论了它们如何被用于识别新的基因调控模式

生物信息发文章哪家强

如果想在生物信息学专业杂志上发一篇不用做任何具体生物信息分析的文章,应该怎么做?最近发表在 Bioinformatics 的一篇文章或许可以给你一点思路。

随着生物信息的发展,生物信息学相关的文章近 10 年呈现大量增加的趋势。世间万物皆可比较,你有没有想过,生物信息发文章哪家强。(山东技校找蓝翔?)

一句话介绍

BIOLITMAP :一个基于地理位置,允许按照年份、杂志和主题轻松筛选查看生物信息学文章发表情况的网站。

每周文献-181216-lncRNA差异分析流程测评

文献信息

标题:Differential gene expression analysis tools exhibit substandard performance for long non-coding RNA-sequencing data

DOI(url): https://doi.org/10.1186/s13059-018-1466-5

发表日期:24 July 2018

关键词: lncRNA, Differential gene expression, RNA-seq, differential expression

文献概述

这篇文章详细的分析了不同标准化和差异分析方法在 lncRNA 分析中的差别。一共使用了25个分析流程,主要关注点是 lncRNA 和一些低表达 mRNA。使用15种指标来评估差异基因的分析方法和标准化方法,一共使用了 6 中不同 RNA-seq 数据集,同时还提供了一个 shiny 网页可视化工具用来展示这些分析结果。按道理类似类型的文章应该达不到这个水平的杂志,lncRNA 分析方法的测评能够发到 Genome Biology 上也是牛,想必定有过人之处。

简单说最后的结论是使用 limma 和 SAMSeq 分析lncRNA 或者表达量很低的mRNA 效果要稍微好些,值得注意的是,为了获得至少 50% 的 sensitivity,在实际环境(如临床癌症研究)中研究表达水平时需要超过80个样本(what ?)。测试使用的大约一半的方法显示出过多的假阳性,非常不可靠。

每周文献-181208-DNA 甲基化和几个工具

文献信息

标题: A DNA methylation reader complex that enhances gene transcription

DOI(url): 10.1126/science.aar7854

发表日期: 07 Dec 2018

关键词: DNA methylation; reader complex; SUVH1 and SUVH3; activate

文献概述

emmm , 挺长时间没有植物甲基化的文章发表在 science 上了,文章的通讯作者是美国科学院院士。

DNA 甲基化(DNA methylation)是最早发现的表观修饰遗传标记。DNA 甲基化在调控基因表达、维持染色质结构、基因印记以及胚胎发育等生物学过程中发挥着重大的作用。在真核生物中,DNA 甲基化通常标记转座元件。在植物中,RNA 介导的 DNA 甲基化(RNA-directed DNA methylation, RdDM)是一种重要的甲基化途径,植物中有三种甲基化形式 CG、CHG、CHH。CG 由 DNA 甲基化转移酶 MET1 维持,在植物中 DNMT1 的同源蛋白;植物特异的 CMT3 结合 H3k9me2 促进 CHG 甲基化;CHH 由 DRM2 及 CMT2 维持。转座子的插入可以对邻近的基因在转录水平产生影响,启动子的甲基化通常来说会抑制这些基因的表达,但也存在 DNA 甲基化促进基因表达的例外情况。

每周文献-181130-lncRNA

文献信息

标题:Global identification of Arabidopsis lncRNAs reveals the regulation of MAF4 by a natural antisense RNA

DOI(url): 10.1038/s41467-018-07500-7

发表日期:29 November 2018

关键词:lncRNA, H3K4me3, natural antisense transcripts, concordantly expressed

文献概述

  • 鉴定了 6510 个 lncRNA ,其中包括 4050 个 NAT-lncRNA 以及 2460 个 lincRNA
  • 在不同组织或逆境处理条件下,很多 NAT-lncRNA 与邻近蛋白编码基因的表达呈现正相关趋势。
  • 通过人工 miRNA 沉默部分 NAT-lncRNA 表达可导致邻近蛋白编码基因表达下降,表明 NAT-lncRNA 可正向调控邻近基因的表达。
  • 拟南芥成花抑制基因 MADS AFFECTING FLOWERING4(MAF4) 基因位点有一个 NAT-lncRNA,MAS。
  • MAS 受冷处理诱导并在转录水平激活 MAF4 表达,抑制拟南芥过早开花。MAS 对 MAF4 的激活依赖于一类参与组蛋白 H3K4me3 修饰的 COMPASS-like 复合体。
  • MAS 与复合体中的一个核心蛋白组分 WDR5a 结合并辅助该复合体招募到 MAF4 基因位点,促进 H3K4me3 修饰,从而促进 MAF4 表达。

66 种测序数据分析方法和流程

写在前面:看了标题进来的老铁,这里不可能在一篇文章里写好 66 个 pipeline 给你,实际上我就是给你推荐一个网站。

闲着乱看的时候发现在 bioinformatics 上发表了一篇文章 SequencEnG: an Interactive Knowledge Base of Sequencing Techniques,再一看 Abstract,写道

Next-generation sequencing (NGS) techniques are revolutionizing biomedical research by providing powerful methods for generating genomic and epigenomic profiles. The rapid progress is posing an acute challenge to students and researchers to stay acquainted with the numerous available methods. We have developed an interactive online educational resource called SequencEnG (acronym for Sequencing Techniques Engine for Genomics) to provide a tree-structured knowledge base of 66 different sequencing techniques and step-by-step NGS data analysis pipelines comparing popular tools

艾玛,原来现在已经有至少 66 种不同测序技术了? 掰着手指想了想,知道的做过的撑死也超不过一双手啊。这 66 种测序技术都是啥,于是点开了 这篇文章的网站 想探探路。嗯,果然很多没听说过:)

SRA 数据下载自救指南

还在羡慕海峡那边的朋友下载 SRA 快到飞起?还在难过用 wget 下载数据经常下载不完整?用了官方的下载工具还是慢的不行?这里有一个 SRA 下载自救尝试指南供你参考。

需要用到两个工具

  • SRA Toolkit
  • IBM aspera 高速文件传输工具

因为这是一篇极简自救指南,所以一切都不解释,直接给出链接,不明白的自行学习(爱学不学)。

SRA Toolkit 网址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc

aspera 网址:https://support.asperasoft.com/hc/en-us

aspera 官方对于下载 NCBI 数据的说明

https://support.asperasoft.com/hc/en-us/articles/216125898-Downloading-data-from-NCBI-via-the-command-line

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×