如何准确又通俗易懂地解释大数据及其应用价值?

8

来自【子柳】淘宝的人/码农/重度网瘾患者的回答:
 
淘宝数据平台显示,购买最多的文胸尺码为B罩杯。B罩杯占比达41.45%,其中又以75B的销量最好。其次是A罩杯,购买占比达25.26%,C罩杯只有8.96%。在文胸颜色中,黑色最为畅销。以省市排名,胸部最大的是新疆妹子。五一黄金周,淘宝旅行频道显示凤凰客栈酒店预定量是去年同期的一半不到。

________________________________________________________________

来自【高济禾】数据分析菜鸟的回答:
 
‘大数据’概念本身强调的是处理大数据的能力和技术,大数据的应用价值不在于它‘大’,而在于其细粒度信息的价值(微观干预的能力)。这一点的确很多人、很多出版物都没说清楚。

1 先举几个例子来说明什么是粗粒度信息,什么是细粒度信息:
 
各省市妹纸的bra size排名是粗粒度信息,每个实名妹纸的bra size是细粒度信息;
张三的九型人格类型是粗粒度信息,张三每次在某些特定情境中的行为记录是细粒度信息;
一家媒体/一个品牌/一个品牌官微的影响力是粗粒度信息,这家机构每次发出的信息到达了谁、这些人产生了什么反应是细粒度信息;
……
 
2 信息的价值是什么?信息给它的拥有者带来了什么?更直观的感受、更精细的判断、更准确的预测…这些都是表象,信息的本质价值体现在做功:拥有一段信息比没有它能多做多少功,也就是产生了多少价值,也就是这段信息的价值。也因为如此,信息只有和与之匹配的做功机器放在一起才有价值。太阳光谱特征对太阳能电池厂家有价值,但对农民就没有价值;全国各地区妹纸的bra size对当代的bra厂家有价值,对二百年前的织布厂就没价值,因为农民和织布厂的生产只依赖粗粒度的信息(光照强度、全国人均布料消费量)。
 
3 所有提到‘大数据是用普查代替抽样’的类似说法,都必然说不到点子上。
 
为什么这么说?因为我们要搞清楚一件事:无论是抽样还是普查,都是一种宏观测量+操作视角,目的都是得到宏观观测量(研究对象的整体特征),宏观观测量是为了进行宏观干预的,宏观干预的行动效率这就是这个信息的价值极限——不管用什么方法取得这个信息,无论这个量变得多么准确。
 
举例来说,如果我有一台热机(heat engine),那么我需要利用温度计取得’温度’这个宏观量(至多4byte吧)指挥我的热机做功。现在有个做大数据的家伙出现了,说:你怎么还在用上个世纪的抽样方法获得的数据管理你的工作?!现在用我的xx分析仪,我可以立即给出你的热机里每个气体分子的热运动数值!他说干就干,立刻安装好全套设备,并架设好仪表板,给我一一展示:“你看这热分布与粒径分布的交叉分析,你看这涨落…这可是实时处理的mol级数据呢…”,最后呢,我必然要打断他:“这些都很好,但是我还是想知道,温度在哪显示?”
 
如果我拥有的不是一台普通热机,而是一台3D打印机,或者是一台纳米打印机,或者是量子计算机之类的,那么大数据对我就非常有用,这些都不是依赖于宏观观测量能做的工作。
 
4 大数据的应用价值很大,但现在的应用普遍错位
 
在这个‘大数据‘概念刚开始被鼓吹、技术刚兴起的年代,这样的错位在现实中一再发生,这一点也不荒唐。一方面,一些大数据技术公司正在千方百计地鼓动农民和织布厂购买大数据(大数据时代的电子政务、大数据时代的品牌战略)。不是说更准确的数据对电子政务完全没价值,但是投入产出比肯定不高,因为这些数据用抽样一样可以保证精度,数据再多,热机功率也无法突破极限。
 
另一方面,也是更可笑的方面,是一些拥有大数据的企业,正在千方百计地把他们的数据换算成’更精确的温度‘——手握大量数据,也有微观干预的技术可行性,但是他们只想用热机的方式利用这些数据(例如某浪总想把微博定位成媒体)。
 
总之,利用bra size数据提高陌生男女速配几率是大数据的价值,把这个数据归纳为’各国bra size排行榜’给娱乐新闻供稿不是大数据的价值;根据个人交易记录和行为特征降低在线交易的撮合成本是大数据的价值,将市场交易信息汇总成实时数据供宏观政策决策不是大数据的价值。

更多详细信息,请您微信关注“计算网”公众号: