从阿里浪看大数据的层级关系_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

4月30日晚，友人突然从微信发来消息：“阿里5.86亿美元入股新浪微博18%，微博有戏，新浪股价快速上涨。”

哦，是从微信传这个消息的哦。

这个消息其实传了一二年了。没什么大惊小怪。除非你很自恋地认为自己是预言家。而最近新浪微博弄橱窗广告的动向其实就透露出，步子近了。

凑巧的是，我们杂志的微信狂飙突进过了一个新的5位数大关。为了庆祝这一刻，我们做了一个设计。我们这期封面报道是关于乐高这家玩具公司的。我们先打印下来我们的微信二维码，然后用乐高积木拼出来这个二维码的所有细节，拍摄下来，然后再用当代艺术的手法重新描绘了它。这个过程像“摹拟”之后的再“摹拟”——用哲学家鲍德里亚的话说。

由于这个消息，还是让同事发出了疑问：是不是唱衰微博应该止步了，阿里浪一起对付腾讯，微博开始比微信要更有价值了?

因为这是两种最有前途的大数据公司的强强联合。

我想用自己的角度来重新阐释它。

现在很多人言必称大数据，其实对数据的理解非常粗糙。数据背后反映的是人类的行为，但人类的行为是有差异和层级的。为什么我要用层级这个词，我后面会做解释，所以当很多小年轻夸夸其谈“源头大数据”公司的代表，比如亚马逊、谷歌或者推特、facebook，他们就是一锅端的概念，他们其实并不清楚这些“数据公司”之间的数据是不同的(至于云储存的IBM、亚马逊，或者数据分析类的公司则会做另外一些分析)，就像不同的矿一样，有的是很轻易提炼出人的行为偏好、认知特征，是富矿。有的是很难提炼出人的行为偏好，人的行动逻辑，就像贫矿，很难。

以下就是我对互联网行为的层级分类。

1，微博行为。发微博(twitter)就是一种随意放纵式的漫谈，没有任何固定的或者在当下感到紧迫的目标。从微博中很难发现那些紧迫的需求，以及稳定的偏好。在中国，新浪微博市场已经变成了话语竞争市场，更多地收敛到公知那里，他们垄断了相当部分。

2，搜索行为。打开搜索框，关键词至少代表自己当时最感兴趣的东西，哲学上称之为“可欲”，它比漫谈要更聚焦也更迫切。它至少代表着——用经济学家米塞斯的话说——一种真实的可度量的感觉。

3，淘宝行为。当一个人敢于(请注意：“敢于”这个词)用真金白银去换取某个物品的时候，物品的各种性质反映着该人在这个时点上的所有意图和欲望，在经济学意义上，购买行为产生“消费者剩余”，而“消费者剩余”意味着这一切是值得的。

4，金融行为。当一个人将自己的财富从一个地方转移到另外一个地方，或者一个企业将自己的大量资金出借给另外一家企业，等等。它的行为含义更丰富也更确定。

……

这些行为都会产生页面点击，都会产生大数据。于是，大数据也变得有层级。

我用一个简单的故事来勾勒一下数据的递进。

去年冬天的时候，我在微博上看到“电火桶”一词，就好比我在小区里面听一群人闲坐着聊到“电火桶”。火桶是没有暖气的南方人熬过冬天的必备物，小时候是炭烧火桶，烟熏火燎。但是，在没有刷这个微博前，我是不知道电火桶的。现在我听到了这个词，我就插话(发了一条微博)“好用吗?”，得到的回复是，相当好用哦。

我怀着将信将疑的心情，打开搜索框搜索了“电火桶”，明白了它是什么样的，工作机理，炭烧换成了电热片……

我思索了一下，该不该买呢，价位如何?于是我打开了淘宝，寻找这个很火的桶。看价格看销量看评价……如果一切OK的话，我会拍下。

这是一个行为的递进，我的行为意图变得越来越清晰化的过程。从漫谈了解(微博)到兴趣诱致(搜索)到实际购买(淘宝)。

我再打个比方说，你说你喜欢苹果超过桔子，这是微博，姑妄听之;你去搜索苹果，这是百度，相信你有意思;但最终你在淘宝上买的竟然是桔子而不是苹果，用伟大的经济学家贝克尔的话说，“购买才能确定真实偏好排序”，这暴露出其实你最爱的是桔子而不是苹果，前面的都是假的，就像那句著名的谚语：“看一个人做什么而不是听他说什么。”

在《大数据》一书里面，维克托喜欢用两个故事，一个是谷歌根据搜索量提前发现疾病疫情。另外一个是百货公司给未成年少女寄孕妇产品目录。后者我没有什么意见，因为购买反映的是真实偏好的流露，购买行为的数据化是清晰的、富矿型、易辨认的。而谷歌的疫情发现我则要多嘴几句。

1/2 1 2 下一页尾页