biotools 综合性生物信息工具资源网站

生物信息涉及到的工具方法过于庞杂,很多时候接触到一个新的内容总是不知该去哪里找相关的工具,还有很多时候找到的工具太多又不知道该用哪个。之前写过两篇文章 66 种测序数据分析方法和流程如何快速找到自己需要的 R 包。分别从测序数据类型和 bioconductor 包两个角度介绍如何快速找到自己需要的工具。

今天是这个系列的最后一篇文章,介绍一个综合性生物信息工具资源网站 biotools。以后只要用好这三个工具,就不会害怕生物信息不知道用什么和怎么选工具的问题。

首届生物信息人才发展论坛背后的故事

第一届生物信息人才发展论坛落幕已经半月有余,算上前前后后的准备周期,在大家眼中一个「小而美」的论坛其实陆陆续续持续了一个多月的时间。

作为组织者和参会者之一,按道理应该有很多话要说才对。但是过去一个多月尤其是论坛期间的高度集中和紧张,导致我突然变得不知道该从何说起。和健明聊起来,他也是同样的感受。尽管如此,因为没有记录就没有发生,所以还是要从组织者和参会者两个不同的角度做一些记录和回顾,聊聊自己的感受和想法。

学习新工具的思路

有两件事情,第一是前几天看到一个朋友分享了自己 学习生物信息工具的经验,借着这个机会刚好反思了一下自己过去几年是如何做的;第二是最近有人问了我一个问题:“使用 tophat 比对完的转录组数据 bam 文件想用 RNA-SeQC 来质控,但是这个软件好像没人维护了”(竟然还在用 tophat)。那这次就聊聊如何学习一个新的工具。

学会提炼需求

学习新工具有两种途径,一种是按需搜索一种是被动获取。被动获取还好,就是一般最新的杂志发表了什么平台推荐了什么就看什么。如果是按需搜索需要首先明白自己的需求是什么。

举一个最简单的例子,如果你使用一个转录组拼接工具提示内存不够了不能正确运行。这个时候你的需求是什么,很自然会想到去找一款需要消耗内存更少的软件。然后找了另外两个软件,一测试一个效果非常不好另一个压根自己不会安装。卒。

用 bedtools 和 bedops 对 bed 文件进行各种运算

bedtools 的傲人光环

如果让你说出日常在进行生物数据分析时,做的最多的事情是什么,我想不管你是什么方向,「不停地转换格式」应该能排进日常前三。如果再问用的最多的工具是什么,想必一定也是和「不停地转换格式」相关的工具。在这些工具里有几个叫 XXtools 的非常出名,其中 samtools 和 bcftools 我们这次暂且不提,它们都是出自大神 LiHeng 之手。另一个能脱口而出的恐怕就是 bedtools 了,这个工具最初发表在 Bioinformatics 的文章,谷歌学术显示自 2010 年以来已经有了 6600 多次引用。当年这篇文章的第一作者 Quinlan ,如今已经是 UNIVERSITY OF UTAH 很厉害的 PI,它的课题组先后开发了一些列优秀的生物信息工具。当然,他们的故事今天也暂且不提(那位朋友问了,你今天到底要说啥,且看下文)。

6600 多次引用(其实现在很多文章用了它已经不引用了)让 bedtools 在 bed 相关格式文本处理领域一家独大。我经常半开玩笑地说 50% 高通量数据后期分析概括一下都是各种位置之间的纠缠,因为但凡分析有参考基因组的数据就会把所有信息都铆定到参考基因组这个坐标系中(如果没有基因组那就拼一个),这也是为什么 bedtools 从一推出就如此受欢迎。在生物信息这个领域,一个软件是不是会被大量使用,最重要的是它是否真的有用然后再加上一点点出现的时机和运气。

66 种测序数据分析方法和流程

写在前面:看了标题进来的老铁,这里不可能在一篇文章里写好 66 个 pipeline 给你,实际上我就是给你推荐一个网站。

闲着乱看的时候发现在 bioinformatics 上发表了一篇文章 SequencEnG: an Interactive Knowledge Base of Sequencing Techniques,再一看 Abstract,写道

Next-generation sequencing (NGS) techniques are revolutionizing biomedical research by providing powerful methods for generating genomic and epigenomic profiles. The rapid progress is posing an acute challenge to students and researchers to stay acquainted with the numerous available methods. We have developed an interactive online educational resource called SequencEnG (acronym for Sequencing Techniques Engine for Genomics) to provide a tree-structured knowledge base of 66 different sequencing techniques and step-by-step NGS data analysis pipelines comparing popular tools

艾玛,原来现在已经有至少 66 种不同测序技术了? 掰着手指想了想,知道的做过的撑死也超不过一双手啊。这 66 种测序技术都是啥,于是点开了 这篇文章的网站 想探探路。嗯,果然很多没听说过:)

3D 基因组与生物信息

重要的 Hi-C 相关文献

第一篇 Hi-C 文章: Comprehensive Mapping of Long-Range Interactions Reveals Folding Principles of the Human Genome; DOI: 10.1126/science.1181369

TAD 提出: Topological Domains in Mammalian Genomes Identified by Analysis of Chromatin Interactions ;doi: 10.1038/nature11082

高分辨率 Hi-C: A 3D Map of the Human Genome at Kilobase Resolution Reveals Principles of Chromatin Looping https://doi.org/10.1016/j.cell.2014.11.021

单细胞 Single cell: Hi-C reveals cell-to-cell variability in chromosome structure doi: 10.1038/nature12593;3D structures of individual mammalian genomes studied by single-cell Hi-C doi:10.1038/nature21429

综述:老师所讲 Hi-C 相关基础知识主要来自于综述 Organization and function of the 3D genome,doi:10.1038/nrg.2016.112

贯穿你我一生的基因之谜

无处不在的基因

选一个心情不错的时间,打开手中叫做「唾液采集器」的小管子吐进一些唾液,再把它寄给一家公司。几天后你就会收到一份复杂而详细的报告,这份报告里将记录你和上百项健康风险、几十项遗传性疾病是否有关,甚至还会帮你寻根溯源,告诉你有多少少数民族或东南亚的祖先。没错,得到这些结果需要的仅仅是你那 1ml 唾液加上口袋里的两三百块钱,而这项业务就是近两年国内愈发火爆的「消费级基因检测」。目前来看,基因检测似乎是帮你从根源上判断自己是否属于一个「少数派」略显极客的不错选择。

基因检测项目 (WeGene 官网)

2017 年 12 月 28 日,我国正式启动为期四年的「中国十万人基因组计划」,这是我国在人类基因组研究领域实施的首个国字号项目。在这之前,美国于 2016 年开始自己的精准医疗计划(Precision Medicine Initiative),其中有 1.3 亿美元预算用作 百万基因组计划 。如果再向前追溯,英国早在 2012 年就启动了 10 万人基因组项目

如果你是一个非常关注自我健康或者对新技术保持敏感的人,应该对上述基因检测的场景并不陌生或者它已经真切地在你身上发生过;如果你是一个爱看财经和科技新闻的人,国际诸如 23andMe 、国内诸如华大基因、贝瑞合康这类已经进入 A 股的基因产业相关公司也会时不时霸占你的头条。即便你不在上述两类人之列,每天只「关心粮食和蔬菜,希望面朝大海春暖花开」,也一定逃不掉转基因这个话题。

统计学基础与 R-8

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用 R 语言进行简单地计算和分析

第八节 常用高阶分析方法

回归分析

所谓回归分析 (regression analysis),在统计学中有着非常重要的作用,从大的层面来讲指用自变量(解释变量或者预测变量)来预测因变量(相应变量或者结果变量)的方法。比如在几个自变量中找到和因变量更相关的一个,利用自变量和因变量的关系生成等式对因变量进行预测。从小的层面来说,回归的模型非常之多,也非常复杂,例如最小二乘回归,logistic 回归和泊松回归等等。

最小二乘回归是最常用到的回归模型,包括简单线性回归(一元一阶),多项式回归(一元多阶)和多元线性回归(多元)。所谓最小二乘法是用一条直线$y=ax+b$(回归线)拟合一组两变量数据的方法,使得误差平方和(点到直线的距离平方和)最小。对数据进行最小二乘回归分析时,要求数据符合正态分布,独立和同方差性。

统计学基础与 R-7

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用 R 语言进行简单地计算和分析。

比例分析

在之前几节内容中提到了均值分析和比较,但有时候我们关心的并不是均值而是比例 (proportion)。

单比例检验

对于 n 比较大(通常为$np \geq5$ 同时 $nq \geq5$ )的样本来说,根据中心极限定理,样本近似于正态分布,可以使用 z 检验,其检验统计量计算公式为:

$$z = \frac{p_o-p_e}{\sqrt{p_oq/n}}$$

统计学基础与 R-6

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用 R 语言进行简单地计算和分析。

第六节 多样本均值分析

在上一节讨论了单样本和双样本均值比较的几种情况,但是很多实验不仅仅有两组样本。进行多组样本之间的均值比较就需要进行单因素方差分析 (one-way analysis of variancd) 和双因素方差分析 (two-way analysis of variancd)

one-way ANOVA

在单因素方差分析模型中样本的组数是任意的但是要求样本之间相互独立,每一组的观测值符合正态分布的同时方差相等,目的是比较每个组的均值。原假设是各组间均值相等(观察的差异有随机误差构成),备择假设是至少有一组和其他组均值不同。数据的变异通常来自于组内部的变异和组间真是变异,其中组内变异一方面由个体差异导致,一方面由实验误差导致,而组间变异则是由不同的处理(因子)导致。如果通过计算,非系统性的变异(组内误差)远大于由不同处理造成的变异(组间变异)如下图 b 所示,则接受原假设,反之则拒绝原假设,如下图 a 所示。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×