每周文献-190419-植物单细胞BAM重比对以及假基因研究

A Single-Cell RNA Sequencing Profiles the Developmental Landscape of Arabidopsis Root

DOI(url): https://doi.org/10.1016/j.molp.2019.04.004

发表日期:April 17, 2019

关键点

国内首篇植物相关单细胞文章,两个一作还都很熟。

参考意义

植物单细胞的阶段要开启了,今天提到的这篇文章是国内首篇,也是世界范围内的第四篇植物单细胞文章。除此之外,还有几篇已经在bioRxiv上上线了,不过还没有正式发表。这些文章都不约而同选择了植物中研究最广的模式之物拟南芥,而且全部研究的是根尖。后面在发展就要看看其它组织和物种的情况了。

如果一个东西在植物里已经出现要快速增长的趋势,那么它在人和动物里应该也就已经相对比较成熟了。此时,即便暂时还用不到,但是相关的技术和方法就需要留意和学习起来。

数据分析需要更好的问题

设计思维和更好的问题

这篇文章的主要内容来自 Roger Peng 最近的一篇博客 Tukey, Design Thinking, and Better Questions。读了之后有些启发便做简单记录。

John Tukey 是美国的数据学,快速傅里叶变换发明人。它在 1962 年发表过一篇题为 “The Future of Data Analysis” 的论文,其中有一句非常著名的话。

Far better an approximate answer to the right question, which is often vague, than an exact answer to the wrong question, which can always be made precise.

Tukey 将数据分析的前三个阶段定义为如下三步:

  1. 识别一个问题 Recognition of problem
  2. 使用一个方法 One technique used
  3. 使用大量其他方式 Competing techniques used

每周文献-190411-lncRNA功能exRNA分析以及DNA甲基化

Antisense lncRNA Transcription Mediates DNA Demethylation to Drive Stochastic Protocadherin α Promoter Choice

DOI(url): https://doi.org/10.1016/j.cell.2019.03.008

发表日期:4 April 2019

关键点

反义 lncRNA 转录可以影响DNA甲基化,进而改变染色体结构促进增强子与启动子结合,调控基因表达。

关于Shiny调试你应该知道的

Finding your bug is a process of confirming the many things that you believe are true — until you find one which is not true.

—Norm Matloff

第一次接触网页开发是两三年前的事,那时我曾经问过计划带我入门前端的前辈:入门前端的标准是什么。他当时用一种极平和的语气和我说:学会dubug。几年后的今天我即便也写过一点网页工具,但还是依然没能入门。反思一下:一是 JavaScript 学的不好,二就是不敢说自己有多少 debug 的能力。

遂放弃。

最近因为需要又要涉及一点网页工具开发,同时因为需求整体和 R 交互比较多于是决定用 R 的 Shiny 来搞一搞。

写了一个多星期我感觉 Shiny 确实解决了不熟悉前后端交互的人写网页的大多数问题,但如何 debug 的门槛还是摆在那里。比如前几天一个高手和我吐槽写 Shiny 时不知道改了什么突然不能正确运行了,更糟心的是还没有任何报错信息。当然,后来经过讨论发现其实并非没有报错信息,只是那时他没有找到而已。

这篇文章就结合最近学习的一点资料,大致聊聊在 Shiny 中 debug 的一些方法。

Shiny debug 主要有三个步骤,分别是调试(Debugging),追踪(Tracing)和错误处理(Error handling)

  • Debugging: 所谓的调试就是猜,然后在你认为可能有错误的地方设置一个断点,再执行接下来每个语句的时候就都可以检查程序当时所在的状态。
  • Tracing:可以在运行程序的时候收集程序运行产生的信息而无需暂停程序,在诊断系统性问题时因为我们无法频繁的中断使用这一方式就比较合适。
  • Error handling: 在客户端和服务器端找到错误的来源并确定原因。

用漫威数据学习 ggplot2 facet

本文主要内容翻译整理自:Easy multi-panel plots in R using facet_wrap() and facet_grid() from ggplot2,部分代码有修改。

ggplot2 一个非常强大的功能就是进行 multi-panel plots 的呈现,也就是我们常说的分面(facet)。通过使用facet_wrap() 或者 facet_grid() 这样的函数我们就可以很方面的将单一的一个图变为多个相关的图。本文将通过一个具体的数据示例帮助你理解 ggplot2 分面的不同方法以及参数。

每周文献-190330-DTU分析及转录组denovo拼接解析等

文献题目 Relative Abundance of Transcripts (RATs): Identifying differential isoform abundance from RNA-seq

DOI(url): https://doi.org/10.12688/f1000research.17916.1

发表日期:24 Feb 2019

关键点

差异表达中比较少见的一种方式

参考意义

在 F1000Research 发表的这篇文章介绍了一个利用 alignment-free RNA-seq quantifications 结果进行差异分析的工具,主要是用来对转录本进行差异定量分析。在日常的分析中我们进行差异分析最常见的是对差异基因进行定量分析,这里没有考虑到每个基因内部转录本的情况。

每周文献-190322-DNA甲基化分析工具及silencers鉴定

文献题目:RnBeads 2.0: comprehensive analysis of DNA methylation data

DOI(url):https://doi.org/10.1186/s13059-019-1664-9

发表日期:14 March 2019

关键点

DNA 甲基化全功能分析 R 包 RnBeads 2.0 更新。

参考意义

DNA甲基化是一种被广泛研究的表观遗传标记,其在发育和疾病中具有重要作用。最近甲基化分析工具RnBeads 在 bioconductor 上更新了其2.0版本。它可以分析目前诸多种类的甲基化数据,并且可以完成目前甲基化分析相关所有主流内容。
本次升级主要是在输入数据、分析方法、交互界面以及计算效率上进行了提升。软件官方地址为 https://rnbeads.org/index.html 可以进行进一步了解。

学习新工具的思路

有两件事情,第一是前几天看到一个朋友分享了自己 学习生物信息工具的经验,借着这个机会刚好反思了一下自己过去几年是如何做的;第二是最近有人问了我一个问题:“使用 tophat 比对完的转录组数据 bam 文件想用RNA-SeQC 来质控,但是这个软件好像没人维护了”(竟然还在用 tophat)。那这次就聊聊如何学习一个新的工具。

学会提炼需求

学习新工具有两种途径,一种是按需搜索一种是被动获取。被动获取还好,就是一般最新的杂志发表了什么平台推荐了什么就看什么。如果是按需搜索需要首先明白自己的需求是什么。

举一个最简单的例子,如果你使用一个转录组拼接工具提示内存不够了不能正确运行。这个时候你的需求是什么,很自然会想到去找一款需要消耗内存更少的软件。然后找了另外两个软件,一测试一个效果非常不好另一个压根自己不会安装。卒。

Coder:进击的服务器Web版VSCode

自从用上 VS Code 之后,断断续续写过几篇文章。比如:

在这个过程中,各种牛X的插件让我感觉VS Code就要统治世界了。比如PDF阅读器插件,Excel查看插件,有了这些东西在一个工作目录下基本不用开其它的软件,直接在 VS Code 中全部搞定。除了这些还有不少「不正经」插件,比如提醒 番剧更新的插件播放音乐的插件 还有 看电子书的插件。真是神奇:)

同时我也写过怎么让本地PC和服务器可以更顺畅链接的问题,在这个文章里没有提到 VS Code,但是用它提供的 terminal 可以替代 Xshell。

最近发现了一个开源软件真的是让本地PC和服务器可以更顺畅链接而且非常之简单,可以说从某个层面基本解决了数据分析环境的问题。无论你使用 PC 还是用 mac,无论用笔记本还是平板,只要有网能打开浏览器的设备都可以愉快地在服务器上写代码做分析。之所以能愉快地写就是因为它的使用体验和VS Code 完全相同。

用bedtools和bedops对bed文件进行各种运算

bedtools 的傲人光环

如果让你说出日常在进行生物数据分析时,做的最多的事情是什么,我想不管你是什么方向,「不停地转换格式」应该能排进日常前三。如果再问用的最多的工具是什么,想必一定也是和「不停地转换格式」相关的工具。在这些工具里有几个叫XXtools的非常出名,其中samtools 和 bcftools 我们这次暂且不提,它们都是出自大神LiHeng之手。另一个能脱口而出的恐怕就是bedtools了,这个工具最初发表在Bioinformatics的文章,谷歌学术显示自2010年以来已经有了6600多次引用。当年这篇文章的第一作者 Quinlan ,如今已经是 UNIVERSITY OF UTAH 很厉害的PI,它的课题组先后开发了一些列优秀的生物信息工具。当然,他们的故事今天也暂且不提(那位朋友问了,你今天到底要说啥,且看下文)。

6600 多次引用(其实现在很多文章用了它已经不引用了)让 bedtools 在 bed 相关格式文本处理领域一家独大。我经常半开玩笑地说 50% 高通量数据后期分析概括一下都是各种位置之间的纠缠,因为但凡分析有参考基因组的数据就会把所有信息都铆定到参考基因组这个坐标系中(如果没有基因组那就拼一个),这也是为什么 bedtools 从一推出就如此受欢迎。在生物信息这个领域,一个软件是不是会被大量使用,最重要的是它是否真的有用然后再加上一点点出现的时机和运气。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×