大数据的四个来源

大数据

当今世界,大数据无处不在,它影响到了我们的工作、生活和学习,并将继续施加更大的影响。

大数据用于描述这样的数据组,其规模超出了日常软件在可容忍期限内获取、管理和加工数据的能力。一些网络技术领先的公司持续地投资于昂贵的大数据技术,成效显著。大数据使得创新型公司变成了经营新方法的率先接受者,经营更为成功。通过大数据的分析挖掘,公司可以发现新的经营模式,对工艺加以改进。例如,在获悉消费者行为后,可以将发现用于某些改变,如降低成本或增加销售,就会产生价值。在任意大的数据组中应用统计方法可以发现有用信息,将这些信息商业化即可获益。

大数据时代一切在变,应对之策是改变一切。经营方式发生了变化——制定决策变得与开展行动深度融合;运用信息的方式发生了变化——从处在经营的边缘变成了处于所有方面的中心;技术发生了变化——从批处理到实时处理,从分割到融为一体;人们工作的方式发生了变化——从在命令和控制模式下运作到在合作环境下负责自己的信息和交互应用。

根据麦肯锡全球研究所的分析,利用大数据在各行各业能产生显著的财务价值。美国健康护理利用大数据每年产出3000 亿美元,年劳动生产率提高0.7%;欧洲公共管理每年价值2500 亿欧元,年劳动生产率提高0.5%;全球个人定位数据服务提供商收益1000 多亿美元,为终端用户提供高达7000 亿美元的价值;美国零售业净收益可增长6%,年劳动生产率提高0.5—1%;制造业可节省50%的产品开发和装配成本,营运资本下降7%。

根据国际数据公司(IDC)的测算,2011 年数字世界将产生1800EB 的数据,2012 年会增长40%,达到2500EB。截止2020 年,会达到35000EB,似乎没有足够的磁盘空间存储。就传统IT 企业来看,其结构化和非结构化的数据增长也是惊人的。2005 年企业存储的结构化数据为4EB,到2015 年将增至29EB,年复合增长率逾20%。非结构化数据发展更猛。2005 年为22EB,2015 年将增至1600EB,年复合增长率约60%,远远快于摩尔定律。

大数据来源

图表1:2005—2015 年总体企业数据增长

当今大数据的来源除了专业研究机构产生大量的数据外(CERN 的离子对撞机每秒运行产生的数据高达40TB),与企业经营相关的大数据可以划分为四个来源:

1.越来越多的机器配备了连续测量和报告运行情况的装置。几年前,跟踪遥测发动机运行仅限于价值数百万美元的航天飞机。现在,汽车生产商在车辆中配置了监视器,连续提供车辆机械系统整体运行情况。一旦数据可得,公司将千方百计从中渔利。这些机器传感数据属于大数据的范围。

2.计算机产生的数据可能包含着关于因特网和其他使用者行动和行为的有趣信息,从而提供了对他们的愿望和需求潜在的有用认识。

3.使用者自身产生的数据/信息。人们通过电邮、短信、微博等产生的文本信息。

4.至今最大的数据是音频、视频和符号数据。这些数据结构松散,数量巨大,很难从中挖掘有意义的结论和有用的信息。

大型以Internet 为核心的公司,如Amazon, Google, eBay, Twitter 和Facebook 正使用后三类海量信息认识消费行为,预测特定需求和整体趋势。第一类数据可能产生较少的业务,但可以推动某些经营模式实质变革。例如,汽车传感数据用于评价司机行为会推动汽车保险业的深刻变革。

大数据改变了所有行业全部公司的经营方式。从对市场的理解到如何挖掘经营信息,大数据能洞察每项转变。一个致力于收集和分析大数据的行业业已形成,对现有公司产生了深刻影响。据有关调查,有10%的公司认为在过去的五年中,大数据彻底改变了它们的经营方式。46%的公司认同大数据是其决策的一项重要支持因素。

更多详细信息,请您微信关注“计算网”公众号: