我的私人学术报告准备清单

做学生和做研究的一个重要工作是把自己在做的东西告诉别人,通常是通过各种报告完成的,上到各种高大上的会议,下到组里几个人的小组会。我本身没有什么高大上会议的经历,但是几年下来各种各样的小组会也讲了不少。导师和同门都时常会给出一些建议和意见,逐渐就有了一套个人的「学术报告准备清单」。各种报告都会反复对照这份清单来准备。其中关于幻灯片的制作心得之前已经写过一篇文章,算是「技」。这篇文章主要写这份报告准备清单中「术」的部分,希望对你有所帮助。

csvtk命令行版极简dplyr

写在前面

什么时候写 csvtk 呀,csvtk 也借鉴了些 datamash 的东西。

之前写 datamash 的使用教程,收到了一位读者的私信,内容如上。

话说这位读者不是别人,正是大名鼎鼎 seqkit 和 csvtk 的开发者 shenwei356 (github ID),江湖人称「爪哥」。我从来没有问过他为什么 ID 有个数字后缀「356」,我私以为是一年 365 天里有 356 天他都在写程序,剩下的几天过年放假。说到爪哥,如果你看到这篇文章之前不知道他我不怪你,但是今天以后希望他可以每天都和你在一起。

爪哥用两个工具就让自己在生物信息领域有了一席之地。其中 seqkit 是用来处理 fasta/q 文本的工具,这篇文章要写的 csvtk 是处理 c/tsv 文本的工具。如果你感觉我的说法夸张了,不妨想想每天接触到的各种文件,无论是 gff 还是 bed 还是 sam 甚至是 vcf,其本质都是 tsv 格式,再加上 seqkit 针对的 fasta 和 fastq。如果你能熟练使用这两个工具,今后的每一天就都会感受到爪哥无微不至的关怀。我经常在敲完一行命令后会在心里大喊一声「爪哥NB」。

每周文献-190622-ATAC-seq和转录本从头组装新方法

HMMRATAC: a Hidden Markov ModeleR for ATAC-seq

DOI(url): https://doi.org/10.1093/nar/gkz533

杂志:Nucleic Acids Research

发表日期:14 June 2019

关键点

本文利用 ATAC-seq 技术原理中的转座酶插入特性,设计了一种专门针对 ATAC-seq 的隐马尔科夫模型,这种半监督机器学习方法可以用来鉴定染色质开放区域。

linux极简统计分析工具datamash教程

引子

之前写 awk 教程的时候,曾经提到过一些对文本中行列进行某些计算统计的需求,例如使用数组分类求和。一些基本需求 awk 都可以实现,但是写起来稍显复杂。在 R 中使用 dplyr 或者基础函数 aggregate() 可以方便的进行分组操作,如果能在 linux 中使用更加简洁的单行命令针对数值和字符进行一些基本运算就省去了在 R 终端操作的时间。这篇文章介绍一个 linux 中能满足这类需求的工具 GNU datamash

两个使用 awk 的例子如下:

极速安装软件的升级版 conda

喜欢科比的球迷应该熟悉这个词,mamba(曼巴)是科比的绰号,同时曼巴也是眼镜蛇的一种,黑曼巴是世界上移动速度最快的蛇。不过这篇文章里的 mamba 和科比没关系和蛇也没啥关系,说的是一个极速版 conda 。

每周文献-190606-多篇结构变异和转录组分析方法文章

Alignment and mapping methodology influence transcript abundance estimation

DOI(url): https://doi.org/10.1101/657874

发表日期:June 03, 2019

关键点

不对比对方法对转录本定量的影响有哪些(读完感觉是给 Salmon 最近一次升级写的软文)

参考意义

使用 RNA-seq 数据进行转录本定量的准确性取决于许多因素,比如比对的方法和所采用的定量模型。虽然有不少文章已经讲过定量模型的重要性,但比较各种比对方法对定量准确度的影响并没有那么受关注。作者在这篇文章中研究了比对方法对定量准确性以及对差异基因表达分析的影响。

随时随地跟踪最新热点文献

本文的图表及主要内容均来自 Meta-Research: Tracking the popularity and outcomes of all bioRxiv preprintsRxivist.org: Sorting biology preprints using social media and readership metrics 两篇文献,一篇发表在elife一篇发表在plos biology,如果有兴趣不妨直接阅读原文。

另外,说一句题外话,关于「bioRxiv」如何发音这个事可能每个人都有不一样的读法,在上面的文献中给出了正确的发音方式,「bioRxiv」的发音等同于「Bio Archive」。

一句话读完全文版

只要有网络随时随地用电脑或者手机打开 Rxivist 这个网站就都给你安排明白了。

大文本另类去重多种解法

今天分析数据的时候刚好碰到一个小问题,因为本身文件较大一开始想不出比较好的解决方法,睡个午觉醒来突然有了灵感,自认为目前解决的还算巧妙。

问题

一个 3 列 3,741,430 行的文本(行数比较多),第一列是字符,第二列是字符,第三列是数值,tab 分割。数据格式如下:

A23    B66    1234
C56 D34 2334
B66 A23 1234
D34 C56 2334
E78 F88 1234

这个文本虽然是3,741,430 行,但是其有效信息只有一半。因为A23 B66 1234B66 A23 1234 只是第二列和第一列互换了下位置。

需求

如何尽可能快的处理这个 3 列 3,741,430 行的文本,当某一行的第一列和另一行的第二列相同同时它的第二列又和那一行的第一列相同时,就只保留这两行中的一行即可(具体留哪行没有要求)。简单说就是如下的4行只保留2行:

A23    B66    1234
C56 D34 2334
B66 A23 1234 # 同第一行
D34 C56 2334 # 同第二行

要修改为

A23    B66    1234
D34 C56 2334

如何快速找到自己需要的 R 包

Bioconductor 的存在让只用 R 语言完成 (90% 的) 生物信息分析成为了一种可能,也在很大程度上推动了 R 在生物信息领域的应用和发展。目前 Bioconductor 配合 R 3.6 使用升级到了 3.9 版本。一共有 R 包 1741 个。学习生物信息和 R 语言,它是非常好的资源。

平常偶尔会有人问到我这样的问题:我目前正在做某某分析,你知道有什么 R 包可以用么?如果是不熟的人而且他做的分析我也不熟悉,一般我的回答直接就是不知道;如果是好朋友那我就得顺手帮他快速的找到想要的 Bioconductor R 包。看完今天的文章,这个操作对你来说以后也没有什么难度。

几步操作,快准狠,找到自己要想的 Bioconductor 工具。

给你的高效搜索小技巧

本文提到的内容多余绝大多数人来说是没有必要的,因为你可以能一天也不会有几次搜索,但是对于一个如我这般常年「面向搜索编程」的人来说。一天搜索 30 次,每次节约 10 秒,就是 5 分钟,一年就是 30 个小时。

高级搜索

以 Google 搜索语法为例

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×