大数据:70多个网站让你免费获取大数据存储库

HitCompanies Datasets:HitCompanies随机取样的1万个英国公司全面的数据,采用人工智能/机器学习进行自动更新。

ICWSM-2009 dataset:包含2008年8月1日到10月1日之间的4400万个博文

Infochimps:一个数据开放的目录和集合,允许分享、出售和下载关于任何内容的数据。

Investor Links:包含财物数据

KDD Cup center:数据、工作表和结果

Kevin Chai list of datasets:文本、SNA和其他领域

KONECT:科布伦茨网络收集,拥有大量各种类型的网络数据集,以便在网络挖掘领域进行研究。

Linking Open Data 工程,免费向所有人提供数据

MIT Cancer Genomics gene expression datasets and publications:来自麻省理工Whitehead Center用于基因组研究

ML Data:欧盟Pascal2网络数据储存库

NASDAQ Data Store:提供市场数据

National Government Statistical Web Sites:来自大约70个网站的数据、报告、统计年鉴、新闻和其他,包括非洲、欧洲、亚洲和拉丁美洲的国家。

National Space Science Data Center (NSSDC):美国国家航空航天局的数据集,包含行星探索、空间和太阳物理学、生命科学、天体物理学以及其他方面。

Open Data Census:评估世界各地的开放数据的状态。

OpenData from Socrata:允许访问超过10000个数据集,包括商业、教育、政府和娱乐

Open Source Sports:大量运动数据库,包括棒球、足球、篮球和曲棍球

Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:基因组有关的出版物数据库

Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.

qunb:一个用来发现和可视化的数据资料的平台

Robert Schiller data:住房建筑、股票市场和更多的来自于他的书 Irrational Exuberance的数据

SMD: Stanford Microarray Database,存储来自微阵列实验的原始的和标准的数据

Jerry Smith dataset collection:财经、政府、机器学习、科学和其他数据

SourceForge.net Research Data:包含大约10万个项目和超过100万注册用户的活动的历史和现状的统计数据的项目管理网站。

StatLib,卡内基梅隆大学数据档案

STATOO Datasets part 1和 STATOO Datasets part 2

Time Series Data Library

Visual Analytics Benchmark Repository.

UCI KDD Database Repository :适用于机器学习和知识发现研究的大数据集

UCI Machine Learning Repository.

UCR Time Series Data Archive:提供数据集、论文、链接和代码

United States Census Bureau.

Wikiposit:一个(虚拟的)融合了来自许多不同网站的数据(大多数是金融的),允许用户合并来自不同来源的数据

Wolfram Alpha disease and patient level dat.

Yahoo Sandbox datasets:语言、图表、评级、广告与营销、竞赛

Yelp Academic Dataset:30家大学的250个最接近商业的所有数据和评论,为学生和学者来探讨和研究

199IT编译自http://www.bigdata-madesimple.com/70-websites-to-get-large-data-repositories-for-free/