从阿里浪看大数据的层级关系

4月30日晚,友人突然从微信发来消息:“阿里5.86亿美元入股新浪微博18%,微博有戏,新浪股价快速上涨。”

哦,是从微信传这个消息的哦。

这个消息其实传了一二年了。没什么大惊小怪。除非你很自恋地认为自己是预言家。而最近新浪微博弄橱窗广告的动向其实就透露出,步子近了。

凑巧的是,我们杂志的微信狂飙突进过了一个新的5位数大关。为了庆祝这一刻,我们做了一个设计。我们这期封面报道是关于乐高这家玩具公司的。我们先打印下来我们的微信二维码,然后用乐高积木拼出来这个二维码的所有细节,拍摄下来,然后再用当代艺术的手法重新描绘了它。这个过程像“摹拟”之后的再“摹拟”——用哲学家鲍德里亚的话说。

由于这个消息,还是让同事发出了疑问:是不是唱衰微博应该止步了,阿里浪一起对付腾讯,微博开始比微信要更有价值了?

因为这是两种最有前途的大数据公司的强强联合。

我想用自己的角度来重新阐释它。

现在很多人言必称大数据,其实对数据的理解非常粗糙。数据背后反映的是人类的行为,但人类的行为是有差异和层级的。为什么我要用层级这个词,我后面会做解释,所以当很多小年轻夸夸其谈“源头大数据”公司的代表,比如亚马逊、谷歌或者推特、facebook,他们就是一锅端的概念,他们其实并不清楚这些“数据公司”之间的数据是不同的(至于云储存的IBM、亚马逊,或者数据分析类的公司则会做另外一些分析),就像不同的矿一样,有的是很轻易提炼出人的行为偏好、认知特征,是富矿。有的是很难提炼出人的行为偏好,人的行动逻辑,就像贫矿,很难。

以下就是我对互联网行为的层级分类。

1,微博行为。发微博(twitter)就是一种随意放纵式的漫谈,没有任何固定的或者在当下感到紧迫的目标。从微博中很难发现那些紧迫的需求,以及稳定的偏好。在中国,新浪微博市场已经变成了话语竞争市场,更多地收敛到公知那里,他们垄断了相当部分。

2,搜索行为。打开搜索框,关键词至少代表自己当时最感兴趣的东西,哲学上称之为“可欲”,它比漫谈要更聚焦也更迫切。它至少代表着——用经济学家米塞斯的话说——一种真实的可度量的感觉。

3,淘宝行为。当一个人敢于(请注意:“敢于”这个词)用真金白银去换取某个物品的时候,物品的各种性质反映着该人在这个时点上的所有意图和欲望,在经济学意义上,购买行为产生“消费者剩余”,而“消费者剩余”意味着这一切是值得的。

4,金融行为。当一个人将自己的财富从一个地方转移到另外一个地方,或者一个企业将自己的大量资金出借给另外一家企业,等等。它的行为含义更丰富也更确定。

……

这些行为都会产生页面点击,都会产生大数据。于是,大数据也变得有层级。

我用一个简单的故事来勾勒一下数据的递进。

去年冬天的时候,我在微博上看到“电火桶”一词,就好比我在小区里面听一群人闲坐着聊到“电火桶”。火桶是没有暖气的南方人熬过冬天的必备物,小时候是炭烧火桶,烟熏火燎。但是,在没有刷这个微博前,我是不知道电火桶的。现在我听到了这个词,我就插话(发了一条微博)“好用吗?”,得到的回复是,相当好用哦。

我怀着将信将疑的心情,打开搜索框搜索了“电火桶”,明白了它是什么样的,工作机理,炭烧换成了电热片……

我思索了一下,该不该买呢,价位如何?于是我打开了淘宝,寻找这个很火的桶。看价格看销量看评价……如果一切OK的话,我会拍下。

这是一个行为的递进,我的行为意图变得越来越清晰化的过程。从漫谈了解(微博)到兴趣诱致(搜索)到实际购买(淘宝)。

我再打个比方说,你说你喜欢苹果超过桔子,这是微博,姑妄听之;你去搜索苹果,这是百度,相信你有意思;但最终你在淘宝上买的竟然是桔子而不是苹果,用伟大的经济学家贝克尔的话说,“购买才能确定真实偏好排序”,这暴露出其实你最爱的是桔子而不是苹果,前面的都是假的,就像那句著名的谚语:“看一个人做什么而不是听他说什么。”

在《大数据》一书里面,维克托喜欢用两个故事,一个是谷歌根据搜索量提前发现疾病疫情。另外一个是百货公司给未成年少女寄孕妇产品目录。后者我没有什么意见,因为购买反映的是真实偏好的流露,购买行为的数据化是清晰的、富矿型、易辨认的。而谷歌的疫情发现我则要多嘴几句。