将彻底改变我们生活的十大现实世界大数据部署方案

关于大数据话题的炒作与争论似乎永无停歇,但全球数据量迅猛增长、每十八个月总量翻上一倍的客观现实却没人能够否认。对这些新增数据的利用已经延伸到我们生活中的几乎各个方面,只是有些相对直观、有些却在悄然发生。今天我们就来一同回顾那些不为人知却实际存在的十大大数据部署案例。

Netflix

Netflix已经成为美国国内规模最大的商业视频流供应商——目前拥有2900万视频流客户。这家公司同时也成为吸收新增数据的海绵——用户在看什么、喜欢在什么时段观看、在哪里观看以及使用哪些设备观看,爆增的信息量成为Netflix手中的宝贵资产。他们甚至掌握着用户在哪视频的哪个时间点后退、快进或者暂停,乃至看到哪里直接将视频关掉等信息。现在Netflix公司开始推出自己的原创节目,而节目制作的依据正是刚刚提到的这些数据。他们利用手中的数据说服BBC重新翻拍了电视连结剧《纸牌屋》;而且将演员Kevin Spacey与导演David Fincher的粉丝与原剧集支持者的粉丝进行关联,最终让这二位加盟新剧的拍摄。

Ancestry.com

Ancestry.com帮助人们将自己与家庭史结合起来并创建独一无二的树状家谱。从表面上看,这个主意似乎没什么技术含量,但为了实现这项功能、网站需要维护超过110亿条记录与高达4PB的数据量——其中包括历史记录、出生记录、死亡记录、战争与移动记录甚至年鉴等——其中不少往往采取手写格式。它利用高级内容处理技术对全部相关信息加以索引,从而保证数据的可搜索性。Ancestry.com还引入额外的DNA处理结果以生成新型数据流,从而帮助客户更准确地建立血缘关系。通过对唾液进行采样,网站方面能够对客户的DNS进行排序并将结果与数据库中的其它客户加以匹配——例如找到多年没有联系的表亲。

西奈山医疗中心

西奈山医疗中心是美国历史最悠久、规模最大的教学型医院之一,其在医学教育与生物医学研究方面的地位非常突出。目前中心方面正利用来自大数据新兴企业Ayasdi公司的技术对整个大肠杆菌基因组序列进行分析,其中包括超过100万个DNA变异,旨在努力理解某些菌株如何在与抗生素的共处中获得抗药性。细菌的抗药性影响着全球各地数以百万计的病人。Ayasdi的技术为数学研究、拓扑数据分析(简称TDA)开辟了一片新天地,有助于人们更深刻地理解数据形态。

加利福尼亚州ISO

加州独立系统运营商(简称ISO)管理着全加州地区超过八成电网中的供电走向,每年提供的电力达到2.89亿千万时、惠及3500万民众,供电线路的总长度超过25000英里。他们利用Space-Time Insight公司的软件实现情景智能化机制,从而将来自多个来源的大规模数据进行关联与分析——其中包括天气状况、传感器数据以及计量设备测绘结果等——并以可视化形式帮助用户查看并理解如何对可再生能源进行优化、实现整个电网的电力供需平衡并快速应对潜在危机。

Hydro>

Hydro>

俄勒冈健康与科学大家(简称OHSU)是位于美国俄勒冈州的一所公立大学,下辖两所医院、一座一级创伤恢复中心和一家儿童医院。校方将Stanley Black与Decker Disivion Stanley Healthcare提供的MobileView软件与Tableau软件的数据虚拟化技术结合起来,旨在追踪院内4000个注液泵的实时位置与工作状态,从而掌握注入到患者循环系统当中的液体、药物或者营养物质——事实上,这项工作如果完全依靠手动方式执行、其可靠程度将大打折扣。该技术还允许校方对历史及当前资产数量进行分析,进而更好地规划未来数量水平、提高库存物资的分配与利用效率。