相关不重要,为什么相关才是重点
三周前,看到一篇文章 狡猾的谎言——我们是如何被事实和数字欺骗的? 中有这么一段:
不要看到相关的数据就认为他们之间一定是因果关系,我们要认真分析背后可能的具体原因和逻辑关系,国外有一个神奇的网站(https://tylervigen.com/)专门收集那种不可能有联系的虚假相关关系
今天想起来去看看这个网站究竟有多神奇。
开篇就直指美帝的科研投入和上吊自杀人数高度相关。美帝这么讲人权,是不是应该缩减一些投入呢?
再比如 iPhone 销量和楼梯上摔跤致死的人数,在一段时期内高度相关。
后来 iPhone 销量起飞了,这事怪不了 Apple,怪谁呢?
Georgia 的律师们
Kansas 的律师们
其实还有更多州的律师人数,都在 10 年左右的范围里,有 0.96 以上的相关性。
假如这两个变量的因果关系太难编故事,以至于我们看到极高相关性都不会认为有因果关系,那么下面这个呢?
在宠物身上花的钱,和楼梯摔下来game over 的相关性也高达 0.97。
这故事可太好讲了,宠物多了,楼上楼下追着跑,可不是有更多机会摔吗?
如果是日常说笑,这样也罢。如果数据分析的目的是为了驱动决策,这种方式大谬。这个判断至多只是一个假设而已,如何求证,还远着呢。
因为写这个话题,我又发现一本“想看”的书:
仅仅停在观察(统计分析相关性),基本无法改变什么事情。
从短评看,这书只能看,不能听,否则听了也白听。待我在微信读书里膜拜完《邓小平时代》再来啃这本书。
于淼在他的科学网博客(链接地址:http://blog.sciencenet.cn/blog-430956-1200351.html)写的书评末尾讲到:
因果革命可能在两方面实现突破:一是统计学家对实际问题背景知识的接纳与考量而不是研究纯理论细节;另一方面是科学家对统计工具的重新理解,从因果图角度探索自己科学问题的解决方案。但无论如何,因果革命都是很有前景的,因为这个工具是为思考服务的,现代人缺的就是这一块。
对于企业里分析数据的人来说,不能仅仅看到统计工具展示的相关性,要掌握背景知识,回答那个关键的——why。