这三个网站让我摸鱼都从容了

如果你问我每天什么时候效率最高，我想可能是摸鱼的时候。高效摸鱼有很多技巧，关键之一就是不能在浑水里摸鱼。一定要去正确的地方，清楚的看到鱼在哪里，一摸一个准。

858 2019-12-12

编程数据科学

API

API 这个词在大多数人看来可能和 CNS 差不多，前者天天听说就是用不上，后者天天读就是发不了。

不过，通过今天的一个简短介绍，今后 API 这个东西你就用上了，因为在文章最后我将会展示一个最最基础且高频的 API 使用示例。

2052 2019-10-26

编程数据科学

写在前面

什么时候写 csvtk 呀，csvtk 也借鉴了些 datamash 的东西。

之前写 datamash 的使用教程，收到了一位读者的私信，内容如上。

2590 2019-06-28

数据科学 linux

引子

之前写 awk 教程的时候，曾经提到过一些对文本中行列进行某些计算统计的需求，例如使用数组分类求和。一些基本需求 awk 都可以实现，但是写起来稍显复杂。在 R 中使用 dplyr 或者基础函数 aggregate() 可以方便的进行分组操作，如果能在 linux 中使用更加简洁的单行命令针对数值和字符进行一些基本运算就省去了在 R 终端操作的时间。这篇文章介绍一个 linux 中能满足这类需求的工具 GNU datamash。

3842 2019-06-19

数据科学 linux

数据分析需要更好的问题

设计思维和更好的问题

这篇文章的主要内容来自 Roger Peng 最近的一篇博客 Tukey, Design Thinking, and Better Questions。读了之后有些启发便做简单记录。

917 2019-04-18

数据科学

用漫威数据学习 ggplot2 facet

本文主要内容翻译整理自：Easy multi-panel plots in R using facet_wrap() and facet_grid() from ggplot2，部分代码有修改。

ggplot2 一个非常强大的功能就是进行 multi-panel plots 的呈现，也就是我们常说的分面（facet）。通过使用 facet_wrap() 或者 facet_grid() 这样的函数我们就可以很方面的将单一的一个图变为多个相关的图。本文将通过一个具体的数据示例帮助你理解 ggplot2 分面的不同方法以及参数。

2034 2019-04-04

R 数据科学 ggplot2

关于文档，还没人告诉你的那点事

学习一个新的工具或者软件，首选方法是阅读开发者写的软件文档，因为 TA 最清楚怎么回事；其次是阅读最新的英文相关使用讨论或者介绍，因为中文的很多资料往往滞后；再次才是阅读中文相关介绍，而且一定要谨慎参考认真判断。评判一个工具好坏的标准之一也是其文档是否写的足够「好」。

5099 2019-01-02

数据科学

R 语言可视化之原理概述篇

整体介绍

一张统计图形就是从数据到几何对象 (geometric object, 缩写为 geom, 包括点、线、条形等）的图形属性 (aesthetic attributes, 缩写为 aes, 包括颜色、形状、大小等）的一个映射。此外，图形中还可能包含数据的统计变换 (statistical transformation, 缩写为 stats), 最后绘制在某个特定的坐标系 (coordinate system, 缩写为 coord) 中，而分面 (facet, 指将绘图窗口划分为若干个子窗口）则可以用来生成数据中不同子集的图形。

2368 2018-12-13

R 数据科学

R 语言可视化之案例

qplot 使用

导入所需数据格式为 data.frame

1499 2018-12-13

R 数据科学

多快好省用 R 处理数据

很早之前我一直都是使用命令行来处理软，cut,sed 再 grep 再加上终极 awk 基本上就可以随意的按照需求处理各种软件跑出来的文本文件了，再后来就要开始学习 python，python 学的怎么样了呢？呵呵。

2403 2018-12-12

R 数据科学

这三个网站让我摸鱼都从容了

数据库网站 API 知多少

API

csvtk命令行版极简dplyr

写在前面

linux极简统计分析工具datamash教程

引子

数据分析需要更好的问题

设计思维和更好的问题

用漫威数据学习 ggplot2 facet

关于文档，还没人告诉你的那点事

R 语言可视化之原理概述篇

整体介绍

R 语言可视化之案例

qplot 使用

多快好省用 R 处理数据