biotools 综合性生物信息工具资源网站

生物信息涉及到的工具方法过于庞杂,很多时候接触到一个新的内容总是不知该去哪里找相关的工具,还有很多时候找到的工具太多又不知道该用哪个。之前写过两篇文章 66 种测序数据分析方法和流程如何快速找到自己需要的 R 包。分别从测序数据类型和 bioconductor 包两个角度介绍如何快速找到自己需要的工具。

今天是这个系列的最后一篇文章,介绍一个综合性生物信息工具资源网站 biotools。以后只要用好这三个工具,就不会害怕生物信息不知道用什么和怎么选工具的问题。

听说你也有 emojifont 的字体使用困惑

问题复现

Y 叔有一个神包,能够在 ggplot 图层里随心所欲的添加各种 emoji,然而很多人在使用的时候却不能「随心所欲」,经常一行函数输进去一张白板输出来。最近在我的星球里也有人提到这个问题,作为一个无趣的人我虽然之前没有实际使用过这个有趣的包,但是今天要被迫营业了。

在反馈中可以看到 Windows 中的基本错误信息有两类:一是提示 warning,虽然能出图但是图和想象中的样子不一样;二是提示 warning,然后直接输出一个空白图层。其中 warning 的内容是: In grid.Call.graphics(C_text, as.graphicsAnnot(x$label), x$x, x$y, : Windows 字体数据库里没有这样的字体系列。

首届生物信息人才发展论坛背后的故事

第一届生物信息人才发展论坛落幕已经半月有余,算上前前后后的准备周期,在大家眼中一个「小而美」的论坛其实陆陆续续持续了一个多月的时间。

作为组织者和参会者之一,按道理应该有很多话要说才对。但是过去一个多月尤其是论坛期间的高度集中和紧张,导致我突然变得不知道该从何说起。和健明聊起来,他也是同样的感受。尽管如此,因为没有记录就没有发生,所以还是要从组织者和参会者两个不同的角度做一些记录和回顾,聊聊自己的感受和想法。

上手 MacBook Pro 基础操作和配置

这个月,我成为了一名Mac用户。macOS诞生于1984年,经历了35年的发展之后,其在全球操作系统市场中的份额已经不到10%。

macOS是第一个商用的图形界面操作系统,和Windows相比更加注重人际交互的细节感知。例如,在macOS中无需关注剩余内存空间,因为系统首先会占满所有内存,然后根据软件使用情况进行自动调整从而保证系统的稳定。

基础操作和设置

不在触控板的触控板设置

触控板是Mac优秀使用体验的一个直观表现,各种多指操作非常顺滑。在系统偏好设置中的触控板,可以完成大多数的设置操作。例如使用轻点来实现点按的效果,使用双指从右边缘向左轻扫查看通知。但是还有几项我们常用的操作被藏在了偏好设置的其他地方。

使用鼠标时一个常用的操作就是一次选择多个文件进行移动,而通过触控版完整这项相同的工作则十分费力。在macOS中可以通过在辅助功能中开启三指拖移来实现同样的功能。开启该功能后可以方便的进行文字和文件多选以及拖移操作。

我的私人学术报告准备清单

做学生和做研究的一个重要工作是把自己在做的东西告诉别人,通常是通过各种报告完成的,上到各种高大上的会议,下到组里几个人的小组会。我本身没有什么高大上会议的经历,但是几年下来各种各样的小组会也讲了不少。导师和同门都时常会给出一些建议和意见,逐渐就有了一套个人的「学术报告准备清单」。各种报告都会反复对照这份清单来准备。其中关于幻灯片的制作心得之前已经写过一篇文章,算是「技」。这篇文章主要写这份报告准备清单中「术」的部分,希望对你有所帮助。

csvtk命令行版极简dplyr

写在前面

什么时候写 csvtk 呀,csvtk 也借鉴了些 datamash 的东西。

之前写 datamash 的使用教程,收到了一位读者的私信,内容如上。

话说这位读者不是别人,正是大名鼎鼎 seqkit 和 csvtk 的开发者 shenwei356 (github ID),江湖人称「爪哥」。我从来没有问过他为什么 ID 有个数字后缀「356」,我私以为是一年 365 天里有 356 天他都在写程序,剩下的几天过年放假。说到爪哥,如果你看到这篇文章之前不知道他我不怪你,但是今天以后希望他可以每天都和你在一起。

爪哥用两个工具就让自己在生物信息领域有了一席之地。其中 seqkit 是用来处理 fasta/q 文本的工具,这篇文章要写的 csvtk 是处理 c/tsv 文本的工具。如果你感觉我的说法夸张了,不妨想想每天接触到的各种文件,无论是 gff 还是 bed 还是 sam 甚至是 vcf,其本质都是 tsv 格式,再加上 seqkit 针对的 fasta 和 fastq。如果你能熟练使用这两个工具,今后的每一天就都会感受到爪哥无微不至的关怀。我经常在敲完一行命令后会在心里大喊一声「爪哥NB」。

每周文献-190622-ATAC-seq和转录本从头组装新方法

HMMRATAC: a Hidden Markov ModeleR for ATAC-seq

DOI(url): https://doi.org/10.1093/nar/gkz533

杂志:Nucleic Acids Research

发表日期:14 June 2019

关键点

本文利用 ATAC-seq 技术原理中的转座酶插入特性,设计了一种专门针对 ATAC-seq 的隐马尔科夫模型,这种半监督机器学习方法可以用来鉴定染色质开放区域。

linux极简统计分析工具datamash教程

引子

之前写 awk 教程的时候,曾经提到过一些对文本中行列进行某些计算统计的需求,例如使用数组分类求和。一些基本需求 awk 都可以实现,但是写起来稍显复杂。在 R 中使用 dplyr 或者基础函数 aggregate() 可以方便的进行分组操作,如果能在 linux 中使用更加简洁的单行命令针对数值和字符进行一些基本运算就省去了在 R 终端操作的时间。这篇文章介绍一个 linux 中能满足这类需求的工具 GNU datamash

两个使用 awk 的例子如下:

极速安装软件的升级版 conda

喜欢科比的球迷应该熟悉这个词,mamba(曼巴)是科比的绰号,同时曼巴也是眼镜蛇的一种,黑曼巴是世界上移动速度最快的蛇。不过这篇文章里的 mamba 和科比没关系和蛇也没啥关系,说的是一个极速版 conda 。

每周文献-190606-多篇结构变异和转录组分析方法文章

Alignment and mapping methodology influence transcript abundance estimation

DOI(url): https://doi.org/10.1101/657874

发表日期:June 03, 2019

关键点

不对比对方法对转录本定量的影响有哪些(读完感觉是给 Salmon 最近一次升级写的软文)

参考意义

使用 RNA-seq 数据进行转录本定量的准确性取决于许多因素,比如比对的方法和所采用的定量模型。虽然有不少文章已经讲过定量模型的重要性,但比较各种比对方法对定量准确度的影响并没有那么受关注。作者在这篇文章中研究了比对方法对定量准确性以及对差异基因表达分析的影响。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×