重磅!2017大数据十大趋势

我们已经看到了的一大批面向终端用户的大数据预处理创新,Alteryx、Trifacta和Paxata。这些工具降低了后期Hadoop采用者和初学者的进入门槛,并将在2017年体现更大价值。

9、大数据成长:Hadoop增加了企业标准

Hadoop将逐渐成为企业IT环境的核心部分。

在2017年,我们将看到围绕企业系统的安全、管理成为投资热地的更多投资。ApacheSentry提供了一个系统,在这个系统中,我们可以强制对元数据进行细致的、按需分配的授权。

作为数据管理的一项重大创举,Apache Atlas,让企业可以在繁杂的数据生态系统中实行统一的数据分类。Apache Ranger为Hadoop提供集中式安全管理。

客户开始期望从企业级RDBMS平台获得这些类型的功能。这些功能走在新兴大数据技术的前沿,从而消除了企业关于技术迭代而被淘汰方面的担忧。

Hadoop对数据进行细致管理、按需分配的实例

Last.fm创建于2002年,是提供网络电台和音乐服务的社交网络。每个月有2500万人使用,产生大量数据。2006年初,Last.fm开始使用Hadoop。Hadoop是Last.fm基础平台的关键组件,有2个Hadoop集群,运行数百种各种日常作业,包括日志文件分析,A/B测试评测,即时处理和图表生成。

图表生成:图表生成是Hadoop在Last.fm的第一个应用。

数据从哪里来:Last.fm有两种收听信息:用户播放自己的音乐,如pc或者其他设备mp3,这种信息通过Last.fm的客户端或者第三方应用发送到Last.fm,这一类叫scrobble收藏数据;用户收听Last.fm网络电台的节目,以及听节目时候的喜爱,跳过,禁止等操作信息,这一类叫radio listen电台收听数据。

数据存储:收听数据被发送到Last.fm,经历验证和转换,形成一系列有空格分隔的文本文件,包含用户id-userid,音乐id-trackid,这首音乐被收藏的次数scrobble,这首音乐在电台中收听的次数radio,被跳过的次数skip。真实数据达到GB级别,有更多属性字段。

数据处理:

Unique Listeners作业:统计收听某一首歌的不同用户数,也就说说,有多少个用户听过某个歌,如果用户重复收听,只算一次。

Sum作业:每首歌的收听总数,收藏总数,电台收听总数,被跳过的总数。

合作作业:每首歌被多少用户收听总数,收听总数,收藏总数,电台收听总数,被跳过的总数等。

最后,这些数据会被作为周排行榜等在Last.fm主站上显示出来。

10、元数据目录的建立帮助筛选出具有分析价值的数据

很长一段时间以来,公司抛弃了数据,因为他们认为海量的数据处理起来确实无从下手。用Hadoop当然也可以处理大量的数据,但是这些数据仍然没有一个清晰的分类、易追溯的架构。

元数据目录可以帮助用户发现和理解哪些数据需要使用自助服务工具进行分析。客户的这种需求正被Alation和Waterline这样的公司填补,它们使用机器学习来自动筛选Hadoop需要分析的数据:

如,使用标签对文件进行编目,标明数据资产之间的关联,必要时还会提供搜索UI给出的查询建议。这大大缩短了数据使用者和管理者取得信任、查找以及准确查询数据的时间。在2017年,作为自助服务的自然延伸,我们将看到更多企业意识到自助分析的重要性,以及对其迫切的需求。