大数据探讨:如何整理1700亿条Twitter发布信息?

不过无论采取哪种方式,Twitter项目中那硕大无朋的数据总量仍然难以攻克。不过Phillips的态度给了我们一定信心。他指出,虽然Twitter目前的数据量已经达到133TB且仍处于快速增长之中,但Basho公司已经接触过数据量达到PB级别的客户,并且在自己的平台上顺利完成了任务。只要国会图书馆能够追踪并总结出数据库容量每个月或每个季度的增长幅度,并根据结果为数据存储配备充足的硬件资源,那么Basho的数据库软件将有能力解决馆方的难题。

那么使用云方案可不可行呢?从理论上讲,国会图书馆可以采用以Amazon Web Services为代表的公共云资源保存这些数据,而且随着Twitter信息总量的不断增长,AWS会自动处理必要的硬件扩容工作。然而在Basho公司工程师Seth Thomas看来,这种方案的长期性价比值得商榷。由于馆方显然打算永久保存这些数据,所以混合式架构可能更具经济效益。也许更好的办法是将数据保存在本地,然后利用云服务实现分析功能。如此一来,馆方只需根据搜索量为响应请求所投入的动态资源支付费用即可,而终端系统也只需处理与请求量相对应的工作负载。

无论如何,国会图书馆已经下决心将这些Twitter信息纳入检索体系。而身为普通用户,我们要注意的则是--只要更新Twitter,信息就会被记录下来。

原文链接:http://www.networkworld.com/news/2013/010813-loc-tweets-265627.html?hpg1=bn