浅谈医学大数据

然而当我们收集了 1 万个数据记录后,情况就发生了很大的变化。我们来看最后 10 个数据相差情况已经相当相当大了。

A 组数据和 B 组数据,在拥有海量的数据样本的情况下,相差已是十万八千里了。图十显示了偏差随样本量增加的变化情况。在样本数量为 4236 左右,偏差的增加还不明显。一过 4236,偏差则出现了惊人的增长。

图十

所以依此为判断的话,我们可以说在数据样本量 4000 左右,A 组和 B 组比较,差别可能不大。但数据样本量大于 4000 以后,A 组和 B 组比较,可能就会相当不一样了。这个例子充分说明了大数据相比较小数据而言对数据偏差更容易进行识别,从而发现数据收集过程中的问题并加以改善。

虚假相关(spurious correlation)

虚假相关,我们用一个例子来加以解释说明。这儿还是以前面提到过的心血管数据为例。现在只收集了 200 个记录,但每条记录都有 100 个各方各面因素的信息。这样,我们想看是否这 100 个因素和“是否有心血管病”相关。如此,我们进行两两检验测试: 是否有心血管病和因素一进行检验,是否有心血管病和因素二进行检验……是否有心血管病和因素一百进行检验。

每一个检验测试结果只会出现两种情况: 统计学上有意义和统计学上无意义。

统计学上有意义,简单来说就是认为心血管病和该因素有关。统计学上无意义就是认为心血管病和该因素无关。 在此过程中,你可能发现,大约会有 5 次在统计学上被认为与心血管病相关的因素,实际上从常识和现实来判断是没有任何关联的,也就是说统计学上有意义是错误的。这就是虚假相关。

为了让我们能知其然也知其所以然,这儿要解释一下“统计学上有意义”究竟是怎么界定的 。一般做检验测试时,我们会界定一个值,叫做第一类统计错误率。这个错误率通常被设定为 5%,也就是说每 100 次检验测试,我们允许有 5 次在统计学上实际无意义的被错误判断为统计学上有意义(如果不允许统计错误率的存在,那就是 100% 的正确率,也就是说没有不确定性的存在。如果有这样的数据,就不需要做任何统计上的假设检验了)。

也就是说,如果实际不存在相关性,我们允许 100 次假设检验中出现 5 次错误相关。这就是以上例子中出现虚假相关的原因。 在面对庞大的海量数据和超多维度的因素时,当同时对一个数据进行许多检验测试时,不可避免会出现虚假相关。如何处理这个问题,统计学上还在做着进一步的研究。

无意义显著性(meaningless significance)

还有一种情况我们称为无意义的显著性 (Lin, Lucas, & Shmueli, 2013)。当我们做两组数据的分析比较时,如果 A 组,B 组各只有 1000 个数据记录,我们测试两组数据的平均值是否一样,结果告诉我们统计学上无意义。也就是说,这两组数据的平均值无统计学上的差异。但当数据记录达到上万上百万时,测试的结果告诉我们统计学上是有意义的了。

这又是怎么回事?我们回到源头上去看,为什么要做两组数据的统计分析比较?不可以就算出两组的平均值,比一比他们是否相同吗?当然不可以,因为我们真正希望分析比较的结果是能够反映 100% 总体数量数据的客观现象。单纯孤立的比较两组各 1000 个记录的平均值,就是比大小,比出来的结论不能推广到 100% 总体数量数据的客观现象上。

但这两组数据等同于 100% 总体数量数据吗? 当然不是,就算是海量的大数据也并不能 100% 等同于总体数量数据。这样我们分析总结出的这两组数据的一些统计指标就会和总体数量数据的统计指标有一定的偏差。这个偏差一般有一个下限和上限,我们称为置信区间。真实的总体数量数据的统计指标就落在样本数据统计指标的左边或右边的一定范围内(置信区间)。

好了,我们实际要看的是 A 组总体数量数据和 B 组总体数量数据在平均值上是否一样,换种说法就是 A 组总体数量数据平均值减 B 组总体数量数据平均值是否等于零: 。现在我们只有 A 组样本数量数据平均值和 B 组样本数量数据平均值,表达符号就是和。要看的就是 A 组样本数量数据平均值减 B 组样本数量数据平均值的差值是否等于 0: 但我们已经知道由于样本均分差的存在,样本平均值相减的差值不一定是零,而且这个差值有一定的置信区间。