你现在看到的是熊言熊语会员通讯 4321X 的第 5 期试读版本,今后我们会不定期的将部分会员通讯内容发布到公开平台,如果想稳定的阅读每期内容欢迎通过邮件订阅这份免费的会员通讯服务。 Hi, 见信好: 我是思考问题的熊,你现在正在阅读的是熊言熊语会员通讯「4321X」第 5 期。 截至本期通讯,「4321X」订阅人数为:529。 上一期会员通讯聊到了确定性和不确定性问题,我提到希望这封会员通讯可以给你在充满不确定性的生活中带来一些确定感。But,如你所见,这一期还是没能在确定的时间和你见面。 我发现自己陷入了一点迷思,这期刊首语就聊聊关于预期和输出的困惑吧。 在第 0 期介绍这份邮件通讯的时候,我提到过「4321X」名字的来历:在每期通讯中推荐 4 篇生物信息/医学相关文献,分享 3 个过去一段时间的思考,推荐 2 个喜欢的工具,同时提出 1 个问题供交流,而 X 则代表不固定的 one more thing。 实际操作下来这几期,我发现在一个固定的时间段内凑齐 4+3+2+1 这 10 个内容还真不容易。本以为按照自己的素材储备和阅读量,一周找出 4 篇文献,浮现出 3 个思考这些硬性指标问题不大,但常常陷入 4 缺 2 或者 3 缺 1 的尴尬局面。比如本期内容 5 天以前已经是 2+3+2+1 的状态,但为了完成 4 篇文献的指标一直拖着没有推送。 所以困惑之一是写作的终极问题,应该面向自己还是面向读者写作呢。 如果写博客,我的观点一定是面向自己写作,这些文章写出来是等着被发现,大家通过搜索带着明确的目的找到你写的文章,所以不需要考虑其他人是不是感兴趣,关键在于把想写的东西写清楚,带着目的来的人看完不会太失望即可。但 newsletter 这种形式是一种主动出击,你明确的知道它会被一部分看到,愿意把邮箱告诉你的人一定会对接受到的内容带有信任感和期待,这时就难免会想我写的内容他看到感不感兴趣。 困惑之二是预期管理时,时间上的确定性重要还是内容的确定性更重要。 作为这份通讯的订阅读者,如果二选一你更在意哪一个呢?是希望每周固定的时间都可以看到一封邮件,还是希望打开邮件看到的一定是 4+3+2+1 足量内容。可能你当然是希望看到固定时间且足量的内容,但这又回到了开头写到的,在一个固定的时间里我就是没有找到那么多愿意分享给你的内容。这个时候该怎么选择呢?我作为读者的感受是更希望看到定时推送,至于内容篇幅没什么执念。 亦或者,作为读者这两者你都不在意,而是更希望时不时能通过「熊言熊语」公众号或者我们 Telegram 的「熊言熊语」频道看到一些短篇幅高频率的分享?因为我最近有在梳理 2021 年的分享方式和渠道,希望你可以回复这封邮件或者直接写信告诉我一些你的想法,邮箱是 [email protected] 困惑之三是关于输出的意义。 在我关注的很多作者中,发现极少有人能够长期稳定且高质量的输出,如果不是不得不做,坚持的确是太难了。这就带来了一个悖论:所有决定 follow 你的人其实都是基于之前的内容,但从他(她)开始关注你的那一刻起在乎的又只是你以后的内容。所以,输出这件事一旦停下来就等于前功尽弃,留下的最多剩下一个念想。读的人可能来来往往,写的人必须一直向前。不过,能够坚持下来的少数人会逐渐积累输出带来的复利,随着时间推移看到越来越大的变化。我们现在做的每一件事,都是在为今后某一刻作准备。 抱着这些困惑,我咨询了丁香园的产品经理少楠,他同时还经营着一个已经 4 年之久的付费邮件通讯,也是想法记录工具 flomo 的开发者(我们曾经在第 0 期会员通讯有过推荐)。他的建议是适当减少数量且不要限制主题,但是要保证质量和持续更新。嗯,我觉得他说的对,所以以后「4321X」偶尔货不对板你也不要太惊讶,保证东西都是好东西,更重要的是要时常见面才好。 We developed Arriba, a novel fusion detection algorithm with high sensitivity and short runtime. These results demonstrate Arriba's utility in both basic cancer research and clinical translation. DOI: https://doi.org/10.1101/gr.257246.119 基因融合与各种疾病特别是癌症的发生发展紧密相关,甚至是一些癌症的直接诱因, 检测基因融合这件事很重要,但也已经有了很多分析方案。最近发表在 Genome Research 的这篇文章强调,他们推出的命令行工具专门为了临床研究而开发,特点是那叫一个快和那叫一个准。使用 STAR 比对后的结果进行后续分析只需要 2 分钟左右就能得到结果,而且准度更好。如果你有这个需求可以测试一下。这个软件还是 DREAM SMC-RNA 挑战赛的冠军,这个比赛由 ICGC、 TCGA、 IBM 和 Sage Bionetworks 联合组织,目的是确定当前从 RNA-Seq 数据中检测基因融合的黄金标准。 we introduce the integrated genome database (IGD), a method and tool for searching genome interval datasets more than three orders of magnitude faster than existing approaches, while using only one hundredth of the memory. DOI:https://doi.org/10/ghmqdt 在会员通讯第 1 期我曾经谈过自己对于生物信息打工人的理解,其中很大一部分日常就是找各种基因组区间的交并集。bedtools 是最常用的工具,但它对极大数据集就不灵了。因此,2018 年针对超大数据集的工具 Giggle 发表在 Nature Methods,前不久又出一个工具叫做 Varnote。这次推荐的文章则是又一款同类型新工具,发表在 Bioinformatics,文章里主要和 Giggle 进行了比较。尤其推荐在使用小内存机器的朋友看看。 Tidybulk decreases coding burden, facilitates reproducibility, increases efficiency for expert users, lowers the learning curve for inexperienced users, and bridges transcriptional data analysis with the tidyverse. DOI: https://doi.org/10.1186/s13059-020-02233-7 转录组分析流程是绝大部分接触生信的人最先开始了解学习的内容,这里首先推荐一个真不戳的免费转录组分析实战视频教程。基于转录组分析流程的文章大大小小得有十几个了,敢问这类型的文章还能发出来,还敢再多一些么?答案是:还能。 只要思路够巧妙,本质是一样的东西还可以反复做,这篇发表在 Genome Biology 的文章就是一个很好的例子。开发者引入了 tidyverse 这个知名系列 R 包中「tidy」的概念,用整洁的数据结构和模块化的框架实现了转录组分析的各个流程,整合成了 R 包 tidybulk,意义是啥呢?作者的原话是提高了老手的效率,降低了新手的学习曲线。至于是不是,你可以去了解一下。 文章是写给自己也是写过读者的,很多时候还是写给搜索引擎的。 写博客以来,时常会有人问我有什么写作技巧可以分享,让更多人看到自己的文章。我会给出三个建议:对内容要有完全自主权;在主阵地之外要选择一个合适的推广平台;要确保人人都有机会看到自己的文章。 自主权是指随时可以增删内容且不会被别人莫名其妙的删除(微信公众号出局),合适的平台是为了让一部分内容更容易被人看到(比如我也在少数派写作),以上两点以后再展开说。至于确保人人都有机会看到,就需要了解一些基本的 SEO 规则。 最近阅读了一篇文章讲如何同时面向人和搜索引擎写作,总结了一些面向搜索引擎的写作心得和你分享。 关联阅读:如何写一篇同时面向人和搜索引擎的文章 创业者需要同时判断好技术、产品、市场三个要素,只有技术上可实现、需求真实存在、市场能形成盈利,这三者同时满足时,创业成功概率才能最高。 我曾经在会员通讯第 2 期推荐过一个陆奇的专访,这次他又来讲东西了。虽然主题是创业,但知识点可以在诸多领域进行迁移,比如关于科研项目的选择和职业方向的选择等等。 在关于创业的定义上,陆奇说在任何一个历史环境下,创业的核心是永远不变的,即优秀的创业者用技术打造产品,用产品试探市场,满足人们需求,从而创造商业价值和社会价值。创业者需要同时判断好技术、产品、市场三个要素,只有技术上可实现、需求真实存在、市场能形成盈利,这三者同时满足时,创业成功概率才能最高。 关于技术,我们需要判断某个技术在今天处于什么状态,以及五年后可能的发展状态,尤其要注意对技术发展拐点的判断。关于需求同样要判断现在的需求和未来的潜在需求。关于市场则要参考产业链和上下游这类结构化的因素,还要看政策环境、国际环境、国内环境这些市场所处环境。 技术、市场和需求也应该是我们科研和工作时的三个标准。你想做的课题需要的技术是不是成熟,有没有实际研究意义,是不是大家普遍关注的核心科学问题,研究成果能不能在所处领域有用武之地。 关联阅读 陆奇演讲:世界新格局下的创业创新机会 判断未来的能力,沟通的能力,行动导向解决问题的能力,长期的内在驱动力,触达用户的能力,这些都是创业的人(团队)需要具备的能力 依旧是在这次演讲中,陆奇提到了创始人或者创始团队需要具备哪些能力。 总结下来一共有五条,分别是:判断未来的能力、沟通的能力、行动导向解决问题的能力、长期内在驱动力和触达用户的能力。 我想这分明就是每一个追求上进的人都需要的能力啊,其中个别的可能更靠天赋,但多数都可以锻炼和积累。即便我们很难同时拥有这五项能力,也要清楚的分析自己的优势和短板,然后找到能够和你取长补短的合作者或者合伙人。 关联阅读 陆奇演讲:世界新格局下的创业创新机会 Unsplash可能是世界上最知名的免费无版权图片下载网站,图片使用权限如下: 我多数文章配图都来自于它,最近这个网站上线了「以图搜图」功能,虽然这个概念不新鲜但是对于一个图片网站来说这意味着今后可以用很多有版权的图片来搜索类似的免费无版权图片了。我尝试搜了一下正在使用的 MacBook Pro 自带壁纸,嗯,效果不错。 此外,Unsplash 的年度总结姗姗来迟,看下他们的主要成绩就知道有多厉害。2020 年,共有 208,696,224,047 张图片被观看,有 1,200,251,738 张图片被下载,累计一共有 20 万贡献者在这个网站分享了 200 万张图片,此外他们也用图片整理了几个年度热点。如果你感兴趣可以点击前面的链接查看。 上期会员通讯中鼓励大家都来写东西,有读者写信来问:有没有推荐的部署个人博客的方式呢? 确实,对于想写博客的人来说最大的问题就是如何搭建个人博客,第二大的问题就是搭建好了之后写什么。我看过好几个博客只有一两篇文章,内容想必你猜到了:如何搭建一个博客。 开始写博客以来,我前后用过 Hexo 和 Halo,其中 Hexo 折腾一下可以上手,Halo 基本无需配置但要有个服务器。最近一年半我一直在用的博客工具是 Gridea,它是一个有 Windows 和 Mac 版本的静态博客写作客户端,客户端免费使用,开发者会上架一些可以付费购买的网站主题(最近他们好像也推出了在线版付费部署服务)。 Gridea 配置非常简单,根据官方上手教程配合 GitHub 一步一步来基本不会遇到问题,如果你有开一个博客的想法,不妨试试。 上面提到的几个工具因为本质上都是部署在 GitHub 或服务器上,虽然写作起来相对自由但多多少少都有些学习成本。如果你只想简单写写,我更推荐用那些支持公开分享的笔记类工具,如果以后真有搭建个人博客的需求再迁移也不迟。我曾经写过一篇 如何使用语雀快速发表自己的博客 就提到了这样一个思路。不过这篇文章是一年多前写的,迭代升级后的语雀现在有了不小的变化,如果你需要可以自行探索。 一人份过年必备指南,你有什么推荐? 响应就地过年的号召,今年应该不少人都是生平第一次不回家过年了(比如我)。这些年我们一直反复热议的话题是「春节回家生存指南」,比如怎样合理应对亲戚的各种盘问。不知道有没有独在异乡的过年指南呢? 如果今年过年刚好你也不回家了,有什么计划或者独自过年的必备技能,欢迎写邮件分享给我。期待你的来信。 第一财经杂志旗下的新一线城市研究所发布了一个研究项目,他们用大数据分析 348 个地铁站后找出了上海的“超级核心区”,这种用地铁展示一个城市的发展的思路还是挺有趣的,如果你人在上海不妨点击上面的链接看看,好为买(zu)房做功课。 本文作者:思考问题的熊 版权声明:本博客所有文章除特别声明外,均采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。 如果你对这篇文章感兴趣,欢迎通过邮箱或者微信订阅我的 「熊言熊语」会员通讯,我将第一时间与你分享肿瘤生物医药领域最新行业研究进展和我的所思所学所想,点此链接即可进行免费订阅。
刊首语
文献
Accurate and efficient detection of gene fusions from RNA sequencing data
IGD: high-performance search for large-scale genomic interval datasets
tidybulk: an R tidy framework for modular transcriptomic data analysis
思考
推荐
Unsplash
足够简单的博客写作工具 Gridea
讨论
one more thing
· 分享链接 https://kaopubear.top/blog/2021-02-02-4321x-5/