由阿里浪想到 关于大数据、人工智能与百度、关系网与腾讯

最近阿里入股新浪,闹的满城风雨,各种评论横空出世。那么本人基于公司基因的角度和看未来的角度,来解读并畅想各种事情。(文中部分字段是宏观思考而非具体细节,请勿纠结)

1. 大数据、人工智能与百度

阿西莫夫在他的《基地》科幻小说系列中有一个非常诱人的理论,银河系帝国首相谢顿为了缩短人类文明崩溃后的恢复时间,将数学、统计学和心理学熔于一炉,造就了一整套数学模型,成就了可以预测人类历史未来的“心理史学”,并将其用于人类帝国的重建工作。虽然非常科幻,但和今天的大数据其实有很多相通之处。

谁更加适合做大数据?

众所周知,大数据应当做的就是预测需求,呈现相关性,为需求铺路。阿里浪不出意外也许会做这么一套数学模型,但如果要指望它们真的做好,就不大可能了。他们能做好那不叫科幻应该叫梦幻。

阿里与新浪的创立之初就不具有大数据基因,淘宝的数据魔方在百度看来只是一个小玩具罢了。你既然脱离淘宝做数据,那就势必要做大数据。但如果真要做大数据,事实上应该让有数据基因的公司来做,也就是百度。(很多人可能会有,还有谷歌呢?其实如果从语义语词的识别上来说,百度确实对中国更加了解)

事实上大数据应该分层来看,浅层的大数据是非常好搞定的。如《大数据》中百货公司给未成年少女寄孕妇产品目录就是一个非常好的浅层案例,根据消费者购买东西的情况推算她可能将要购买什么。这个非常明显,也无可厚非。但是在浅层之前还存在着深层次的数据挖掘,它是非常难以提炼的,“从阿里浪看大数据的层级关系”一文就指出,一个人可能喜欢苹果但是在购物的过程的最后选择了橘子,这样的事情是大数据无能为力的。在该文作者看来解决这一方法的唯一途径是选择一个好的数据矿,而我并不赞同。个人认为应当进行人工智能解析,用人工智能去挖掘,再去影响消费者决策。

大数据与人工智能

由于信息的不对称,很多人觉得百度除了赚医疗竞价黑心钱之外就没有向上奋斗过,事实上百度除了在赚黑心钱以外还是奋斗的。百度的奋斗原因更多的不是对用户体验的追求,而是对黑帽SEO 的控制。这就好比杀毒软件必须把最基本的杀毒做好,与病毒斗争一样。这也就逼的百度自身进步,原因很简单,如果百度控制不了黑帽就会破坏用户体验,一旦用户体验下降流量就会大量流失,这是百度最不愿意看到的。所以百度和谷歌一样经常大变算法,宁可错杀也不漏杀。Chinaz 这样一个行业老站都曾经被K得只剩1W收录。(被K指网站已经达到正常收录的状态下因为作弊或者其他原因,百度等搜索引擎突然删除了所有网页或只留下首页。)

与其说百度做大数据,倒不如说搜索引擎在为人工智能铺路。谷歌最近不就是想要尝试“复制人类大脑”吗,这种事情如果没有背后强大的数据库,那是根本不可能的事情。正因为有了大数据才有了可能

百度对 SEO黑帽的控制,撇开黑链、刷点击、刷相关、入侵政府网站欺骗蜘蛛、虚拟外链及其黑客的事情之外,百度其实最要管的还是伪原创,所谓伪原创就是对文章进行关键词替换和段落的重新排序,达到欺骗搜索引擎的目的。这样的文章是搜索引擎最痛恨与头大的,我们现在站在搜索引擎的角度去考虑,百度要做的事情其实就是要做一个大数据相关性的大连接,比如出现同义词“A”,它会和“B”的意思进行相关性混编,探测重复指数。根据相关性的重复叠加度,来提取文章的关键指纹进行相似性判断。一旦超过某个相似性数值就会自然剔除,达到排除伪原创的目的。当然综合来说肯定会考虑站点权重问题,这里撇开不讨论。

百度近日已经开始在搜索页面标注内容原创与否

也就是说百度已经达到了对关键词的相关性大联结,并且能够利用用户新的搜索次数来再造新词,并且和老词进行再联结。百度目前的缺陷就是无法对首次原创文章进行第一名排序,站点权重至上的算法还没有变过,这点比不了谷歌,也有可能是中国的互联网环境太乱使得百度不愿意轻信草根站点,宁可让原文展示在高权重可信站点上。但试想如果让百度脱离站点权重至上的思维,进行原创文章的大关联排序会是一种什么样的情况?