IGV 哐当就不能用了,我的 debug 思路

不知道是哪一次更新,不知道是因为更新了什么,PC 上的 IGV 突然就不能用了。不能用了,怎么办。文章记录了我的debug过程以及一点思考。

最近一个多月有一件事情一直萦绕在心头,今天算是初步解决了,记录一下。

研究生培养阅读习惯的十条法则

最近在 PLoS Comput Biol 上发表了一篇文章,作者对于研究生应该如何培养良好的阅读习惯给出了10条建议。简单整理供自己和大家参考。

法则1:养成每天阅读的习惯

可以利用通勤时间,或者用白天几个零碎的时间。要相对仔细的阅读一篇论文而不是非常粗略的或者紧张的浏览一下。

法则2:仔细阅读建立对主题的全面理解

你的将来一定会比现在更忙,所以没什么捷径,仔细阅读文章将为你提供有关你学科中的概念,方法,结果,潜在意义和含义等内容。一旦你具备了关于某个主题的良好背景知识,就可以开始更有选择性地阅读那些填补了特定空白或满足自己好奇心的论文部分。但是良好的背景知识需要很长时间才能建立起来,在你的职业生涯早期做好功课以便以后可以节省时间。

关于文档,还没人告诉你的那点事

学习一个新的工具或者软件,首选方法是阅读开发者写的软件文档,因为TA最清楚怎么回事;其次是阅读最新的英文相关使用讨论或者介绍,因为中文的很多资料往往滞后;再次才是阅读中文相关介绍,而且一定要谨慎参考认真判断。评判一个工具好坏的标准之一也是其文档是否写的足够「好」。

因此无论是开发者还是用户,文档都至关重要。那到底好的文档需要包含哪些内容或者应该如何写出一个尽量好的文档呢?最近看到一篇英文博客:What nobody tells you about documentation ,以下为尽量保留作者原意的不完全翻译版本供你参考。

2018,思考问题的熊

2018 说走就走,还是得记录一下。

码字

我的博客

以下数据来自于 Google Analytics,我对比了几个统计渠道的数据,虽然有些渠道的统计量更高,但是看着都没有Google Analytics 的合理和靠谱。

写博客一年多的时间,共有 9,113 个独立 IP 访问过网站,共进行了 15,000 次会话(用户在网站保持活动状态的时间段,如果用户在离开网站后 30 分钟内返回则之后活动仍将被计为初次会话的一部分), 平局会话时长2分57秒,累计时长750小时。也就是说有接近一万人在我的博客共计度过了31天时间,是不是可以理解为我这一年其实有13个月?

如果要评选出最忠实的读者和最投入的读者,其中有5个人有效会话数超过了100次,最忠实读者有效会话数竟然达到了382次,说实话我写文章的时候会登陆一下博客也做不到如此 频率,共有22人次会话超过了1小时,其中一位以2小时28分的阅读时间拔得头筹,很想知道TA那一天经历了什么。

每周文献-181223-单细胞单分子表观

单细胞及单分子在表观的应用

文献题目:Single-cell and single-molecule epigenomics to uncover genome regulation at unprecedented resolution

DOI(url): https://doi.org/10.1038/s41588-018-0290-x

发表日期: 2018 Dec 17

关键点

这篇综述介绍了单细胞和单分子表观基因组学正在以前所未有的分辨率揭示基因组调控的各种机制。作者重点介绍了变革技术中的一部分,并讨论了它们如何被用于识别新的基因调控模式

生物信息发文章哪家强

如果想在生物信息学专业杂志上发一篇不用做任何具体生物信息分析的文章,应该怎么做?最近发表在 Bioinformatics 的一篇文章或许可以给你一点思路。

随着生物信息的发展,生物信息学相关的文章近10年呈现大量增加的趋势。世间万物皆可比较,你有没有想过,生物信息发文章哪家强。(山东技校找蓝翔?)

一句话介绍

BIOLITMAP :一个基于地理位置,允许按照年份、杂志和主题轻松筛选查看生物信息学文章发表情况的网站。

每周文献-181216-lncRNA差异分析流程测评

文献信息

标题:Differential gene expression analysis tools exhibit substandard performance for long non-coding RNA-sequencing data

DOI(url): https://doi.org/10.1186/s13059-018-1466-5

发表日期:24 July 2018

关键词: lncRNA, Differential gene expression, RNA-seq, differential expression

文献概述

这篇文章详细的分析了不同标准化和差异分析方法在 lncRNA 分析中的差别。一共使用了25个分析流程,主要关注点是 lncRNA 和一些低表达 mRNA。使用15种指标来评估差异基因的分析方法和标准化方法,一共使用了 6 中不同 RNA-seq 数据集,同时还提供了一个 shiny 网页可视化工具用来展示这些分析结果。按道理类似类型的文章应该达不到这个水平的杂志,lncRNA 分析方法的测评能够发到 Genome Biology 上也是牛,想必定有过人之处。

简单说最后的结论是使用 limma 和 SAMSeq 分析lncRNA 或者表达量很低的mRNA 效果要稍微好些,值得注意的是,为了获得至少 50% 的 sensitivity,在实际环境(如临床癌症研究)中研究表达水平时需要超过80个样本(what ?)。测试使用的大约一半的方法显示出过多的假阳性,非常不可靠。

R 语言可视化之案例

qplot 使用

导入所需数据格式为data.frame

data(mtcars)
df <- mtcars[, c("mpg", "cyl", "wt")]
head(df)

qplot()基本用法

qplot(x, y=NULL, data, geom="auto",
xlim = c(NA, NA), ylim =c(NA, NA))

# geom 画什么图;main 题目;xlab,ylab xy轴标签
# color 颜色;size 点大小;shape 点形状

R 语言可视化之原理概述篇

整体介绍

一张统计图形就是从数据到几何对象(geometric object, 缩写为geom, 包括点、线、条形等)的图形属性(aesthetic attributes, 缩写为aes, 包括颜色、形状、大小等)的一个映射。此外, 图形中还可能包含数据的统计变换(statistical transformation, 缩写为stats), 最后绘制在某个特定的坐标系(coordinate system, 缩写为coord)中, 而分面(facet, 指将绘图窗口划分为若干个子窗口)则可以用来生成数据中不同子集的图形。

要素

  • 数据(data)
  • 映射(mapping): 建立数据与图形元素的关系
  • 几何对象(geom):对数据的渲染和展示
  • 统计变换(stats)
  • 标度(scale)
  • 坐标系(coord)
  • 分面(facet)
  • 主题(theme)

多快好省用 R 处理数据

很早之前我一直都是使用命令行来处理软,cut,sed再grep再加上终极awk基本上就可以随意的按照需求处理各种软件跑出来的文本文件了,再后来就要开始学习python,python 学的怎么样了呢?呵呵。

虽然做过统计学课的助教,上课的时候用的也是R语言,但是博客里并没有几篇R相关的文章。印象中一篇是给初学者的R语言介绍(写这篇文章当时是为了激发一点学生学习R语言的热情),另一篇是R 必备基础知识(写这篇文章当时是因为在写R与统计学基础系列文章,就不得不总结一些R语言的基础知识)。

说实话,我本身对 R 还是非常喜欢和欣赏的,但是日常的使用需求并不高。就拿最基本的文本处理来说,基本上都可以在shell 中进行随心所欲地增删改成,处理成很多R相关软件需要的文本格式,用需要的R包跑一两个命令就可以了。但是目前已经有点厌倦了这样的生活,我后期打算有机会的话用R shiny写一点网页工具给大家娱乐,也打算精进一下 R 的画图技能。这里就have to 用 R 去做一些数据处理,于是就有了这样一系列文章。这篇是关于如何用 R 多快好省的进行数据处理。另外,说句题外话,从我这几天的实际处理数据情况来看,R 有些工作做起来,还是太慢了,也可能是我的业务不够娴熟吧。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×