什么是大数据？你需要知道的….._大数据_计算头条_中国计算网——工业互联网一站式服务平台—

7. 根据WebDB得到的网页评分和links更新segments (updatesegs).

8. 对所抓取的网页进行索引(index). 　

9. 在索引中丢弃有重复内容的网页和重复的URLs (dedup). 　

10. 将segments中的索引进行合并生成用于检索的最终index(merge).

2009年，加州大学伯克利分校的研究人员开发了Apache Spark作为MapReduce的替代品。由于Spark使用内存存储并行执行计算，因此可以比MapReduce快100倍。 Spark可以作为独立框架或Hadoop内部工作。　

使用Hadoop，仍然需要一种存储和访问数据的方法。这通常通过诸如MongoDB之类的NoSQL数据库(如CouchDB或Cassandra)完成，该数据库专门处理分布在多台计算机上的非结构化或半结构化数据。与在数据仓库中不同的是，大量数据和类型的数据融合成统一格式并存储在单个数据存储中，这些工具不会改变数据的底层性质或位置 – 电子邮件仍然是电子邮件，传感器数据仍然是传感器数据 – 可以几乎存储在任何地方。

尽管如此，在使用多台机器的数据库中存储大量的数据并不是很好，直到你做了一些事情。这就是大数据分析的原理。像Tableau，Splunk和Jasper BI这样的工具可以让您解析这些数据，以识别模式，提取意义并揭示新的见解。你所做的事情会因你的需要而有所不同。

4/4 首页上一页 2 3 4