专家众议 大数据时代微博瓶颈如何破

近年来,微博成为了时下最为时髦的互联网应用。它不仅是互联网发展的一个新兴产物,也是社交平台更趋丰富和细化的应用分支。自从2009年新浪推出国内首个微博平台以来,微博在国内的发展犹如雨后春笋,遍布大江南北。

2010年迎来了国内微博发展的春天,新浪腾讯等门户网站均推出微博业务。自去年以来,微博用户数量获得迅猛增长。今年5月份新浪发布的第一财季报告显示,仅新浪微博用户数就已增至3.24亿人。而另一个微博巨头——腾讯微博,也呈现出发展迅猛的姿态,微博注册用户也突破3亿大关。

微博获得迅猛发展有着深层次的原因。一方面,微博的内容组成只是由简单的只言片语组成,对用户的技术和文字功底要求较低,而且在语言的编排组织上,也没有博客那么高。另一方面,随着微博的推广,运营商开放API使得用户都可以通过手机、平板电脑、PC等各种终端和系统平台实时更新和追踪微博内容。

除此之外,最为重要的原因是中国人口基数大,中国网民数量众多,微博的使用人群数量也大,状态信息更新频繁、信息传播迅速。根据中国互联网信息中心的统计,截至2011年12月底,中国网民数量突破5亿,达到5.13亿。众多网民的背后,不仅有助于扩充微博用户群体规模,也为广大商家和运营商从微博中获取商机带来了便利。

微博大数据:大商机 大烦恼

直观、便捷、高效的传播与转发模式,是微博运营商挖掘商机的潜在动力。每一个微博注册用户,既是用户者同时也是消费者。美国财经网站CNNMoney曾撰文指出,Facebook每名用户每个季度能给其贡献1.21美元的营收,在这个微博火热的时代,谁抢占了微博的先机,谁就会在激烈的竞争中更脱颖而出。

随着用户的增加,微博将会逐步实现商业化。其核心是为用户提供增值服务,利用广告对应的页面吸引粉丝互动,对品牌和产品进行推广,帮助微博运营商实现盈利;另一方面,国内外已经出现很多专业数据挖掘和分析机构,利用微博平台收集海量数据,对微博用户的言论和兴趣爱好进行分析,从微博“大数据”中挖掘商业价值。

然而,由于微博用户、微博内容及其复杂性的持续增加,要想实现高效、快速的从海量微博内容中挖掘有价值的信息,并从中提炼出具有商业价值的决策分析数据,对于任何一个数据挖掘的企业或者微博运营商来说都面临着极大的挑战。

新浪微博平台首席架构师杨卫华表示,一方面,微博运营商需要提供高效、可靠、稳定的微博平台,支撑不断增长的微博用户和微博内容,尤其是音视频等海量非结构化数据带来的高访问量需求;另一方面,要有符合开放、易用而又支持定制化、可轻松扩展的数据挖掘平台,充分利用已有的硬件平台,支撑高效灵活的数据挖掘和分享应用。

精“芯”构建数据挖掘平台

微博面临的诸多挑战,其实也见证了大数据应用下的常见困境。微博运营商需要搭建起能够支撑不断增长的用户访问需求,并提供开放、可支持定制化的API,为运营商和第三方实现微博数据价值挖掘奠定基础。

新浪微博平台首席架构师杨卫华就曾表示,很多突发事件的访问峰值,会给微博运营商带来严峻挑战。“(除此之外)我们还要关注怎么样打造一个高性能架构。”杨卫华接着表示。这些问题的本质其实是架构需要考虑高访问量、海量数据下的易于扩展、低延迟、高可用和异地分布的问题。新浪微博每天有数十亿外部网页和API接口访问需求。高性能系统要具备低延迟、高实时性的特点。微博的核心价值就在于实现高实时性,而实时性的核心就是尽可能让数据邻近CPU,避免出现磁盘IO问题。

新浪研发部平台架构高级总监童剑也告诉记者,现在新浪微博的服务器群组,在晚上高峰期,每秒要接受100万以上的响应请求,压力巨大。新浪也在不断寻找性能更强的服务器来满足他们的需求。为此,新浪微博从推出伊始就与英特尔建立起了广泛的合作关系。得益于得天独厚的优势,英特尔至强平台能够提供显著的性能优势,即时响应数百万访问请求和微博消息队列处理。在此基础上,一方面x86架构能够提供更具性价比的解决方案,能够适应和满足新浪微博推出初期未能带来盈利的问题,并支撑微博的持续发展和业务扩充;另一方面,开放性架构有助于新浪微博推广和开放API,让更多第三方依托微博平台开发出微博数据挖掘等应用。其开放性也体现在可以更好的兼容并支持微博程序代码的优化,满足更高的资源整合和性能要求。