数据是一种信仰——他到底是否值得信赖?

你还要使用推理统计学方法从随机杂音当中区分出真实的、系统性的以及有内涵的数据差异。在图片下面要加上语言描述。清晰的描述可以保证你的图片不会引起太多的误解。你也可以让来自不同领域的专业人士(比如IT或者销售)为你进行阐述,,这样的话你会得到关于一个数据的不同角度的解读。

3.What isthe sample size? 样本的大小如何?

我们几乎很少(或者根本没有)获取到那些对我们感兴趣的所有群体。相反,我们依靠从该群体中提取出的样本的测量来对这些群体进行推断。比如从我们的客户群(样本)中的一部分收集消费者满意度信息来了解整个消费群体的满意度。

当你使用样本来理解整个群体情况的时候,你不得不去了解样本中存在的误差。样本误差可以反映出来自客户群体数据的样本的误差。因为这种样本仅仅是整个群体的一个子集,我们的评估仅仅会因为样本只是整个消费群体的一部分,而涵盖误差在里面。

你可以做什么?你可以利用推断统计学方法帮助你进行理解,如果你发现样本有可能会反映出整体人群当中的情况。

4.What is the data source? 数据源是什么样子的?

即使当我们有大量数据集的时候,其中存在的样本误差可能会因为数据量的巨大而有所降低,我们需要知道数据源在哪里——因为数据不会凭空产生。我们可以刻意产生一些数据并进行收集,然后通过这些数据来解决问题。比如,我们可以分析在飓风桑迪发生期间人们发布推特的地点,数据向我们展示了和新泽西相比,更多的博文来源于曼哈顿的闹市区。依靠简单的数据计数,你会发现飓风的主要攻击地点位于曼哈顿闹市区。但事实上,飓风袭击的是新泽西,但是飓风让新泽西电力供应瘫痪,所以人们一时无法使用推特发布推文。

除此之外,据估计仅有18%的美国青年网民使用推特,其年龄主要分布在18到29岁之间。同样,在2012年仅有8%的人使用移动设备进行购物并通过推特发布自己的购物体验。推特,在商业情景当中,代表了一小撮,也许也是一种有偏见的数据集。

你能做什么?仔细审查数据源,看看数据是否适合有足够信息量来支撑你的发问。可以考虑使用不同的数据源对你的假设进行测试。多重线路的聚合证据总比单一线路的证据更有说服力。

最后的想法

商业决策的质量取决于商业数据的质量(以及使用数据的预测分析模型)。如果你从最最华而不实的分析模型当中进行推论的时候,而且你的数据建立在不可靠而且无效的信息基础之上,那么当你的模型在实际中运行时(比如你的模型可以预测现实),整个过程就像炼狱一样。就像业内人士说的那样——输入的是垃圾,输出的也是垃圾!