数据分析需要更好的问题

数据分析需要更好的问题

设计思维和更好的问题

这篇文章的主要内容来自 Roger Peng 最近的一篇博客 Tukey, Design Thinking, and Better Questions。读了之后有些启发便做简单记录。

John Tukey 是美国的数据学,快速傅里叶变换发明人。它在 1962 年发表过一篇题为 “The Future of Data Analysis” 的论文,其中有一句非常著名的话。

Far better an approximate answer to the right question, which is often vague, than an exact answer to the wrong question, which can always be made precise.

Tukey 将数据分析的前三个阶段定义为如下三步:

  1. 识别一个问题 Recognition of problem
  2. 使用一个方法 One technique used
  3. 使用大量其他方式 Competing techniques used

不要针对一个问题用一个方法一直做下去,可能你提出的问题就是错的,也可能你认为的某个最佳方法并不是对你的实际问题而言并不是真的最佳。因此,数据分析的开始阶段应该提出更多的问题,尽量找到更好的问题。

Roger Peng 把他自己的想法绘制成了一张图:证据强度和问题质量。

图中红色位置是我们的终极目标,即用最强有力的证据说明一个非常高质量的问题,而我们很多做数据分析的人都认为自己的工作是从右下角开始的,因此我们仅仅需要找出一个最佳方法就可以了。但是实际情况是我们通常从左下角开始自己的项目,我们的问题非常模糊而且定义不清,用什么方法也没有头绪。而接下来的工作就是一个数据分析工作者应该做的。

一方面努力提高问题的质量与清晰度,在这个过程中专业和背景知识这些脱离于数据本身的内容尤其重要,同时尝试若干种方法,有些可能不错有些可能也很糟糕。在这个过程中,我们不断的总结数据可以告诉我们些什么,但是更重要的是我们会逐渐清晰自己可以问出哪些更好的问题,通过数据了解自己。

最坏的情况下我们会从一组数据中找到一个别人已经弄明白的结论,亦可能从看他别人从另一组数据中到了完全相反的结论。所以想从一组数据中找到「答案」往往会让你失望。

It is important to understand what you CAN DO before you learn to measure how WELL you seem to have DONE it

一个好的分析技术或者方法能做的是给你提供更多的数据,而好的探索性分析则会给你带来更多或者更好的问题——更精确更专注更尖锐。只有当你的问题越尖锐越切中要害时它才能提供更大的区别信息的潜力。从一个模糊的问题得到的最好答案也只是一个模糊的答案。


本文作者:思考问题的熊

版权声明:本博客所有文章除特别声明外,均采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×