南大通用沈丽萍:大数据时代的数据库技术与应用

中国IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。28日上午,在中国信息通信研究院、数据中心联盟主办的大数据人才发展计划公开课上南大通用数据技术有限公司培训总监沈丽萍分享了大数据时代的数据库技术与应用。

沈丽萍

南大通用数据技术有限公司培训总监沈丽萍

以下是沈丽萍演讲实录:

沈丽萍:大家下午好,非常荣幸谈到大数据产业联盟,也非常荣幸给大家介绍大数据产业中数据库的技术和应用。今天上午我也听了其他会场行业内建设大数据的情况汇报。

今天下午大家来参加人才的公开课,肯定大家有一个愿望,希望加入到大数据的时代中来,也要成为大数据人才,也要能够参与到大数据平台的建设之中。大家可能也在想,那么多行业都在建设大数据,我怎样来啊搭建一个大数据的体系。我主要给大家介绍数据库的技术和应用。

大家都是会大数据这个资源,它可以比作是一个“金矿”,我们这个数据库就相当于寻找“金矿”的挖掘工具。这个挖掘工具帮助客户寻找数据的内在价值。

我今天演讲的主题分为三个方面:第一方面,介绍一下大的趋势和背景,大数据推动了IT的架构变革。第二部分,给大家重点介绍一下MPP数据库的主流技术。第三部分,介绍一下大数据领域中数据库的一些应用案例。主要也是应用MPP数据库在我们的一些金融、电信、政府,这些行业里已经成功上线的一些案例,也希望通过这些案例给大家带来一些思考和借鉴。

我们说现在这个时代已经进入大数据时代了。那么,因为数据的体量呈爆发式的增长,主要还是在于互联网的发展,以及智能手机的普及。那么,从2008年开始基本上每两年数据就翻一倍。我们看到,2008年达到0.5ZB,2010年达到1.2ZB,按照IDC的预测,到2020年数据的总量要达到40ZB。这些概念可能对大家来说不好理解,我们说现在你的一个硬盘可能就是家用电脑可能1TB,我们企业级的服务器里头,可能一块硬盘也是3TB这种的架构。40ZB这真的是体量很大。而且预测其中22%将来自中国,中国一个是地大物博,另外一个就是人多,用的数据,产生的数量也是很多的。

大数据有四个特征,我们叫“4V”,主要是Value,价值是大家最关注的。我们看一下左边这个表,列出了一些行业,有互联网、电信、金融、交通、政府、医疗,还有其他行业。那么,还列出了一些销售额,从我们这个看,看一下市场的占比。我们右边这个图,就是把互联网这个单独给它作为一个纬度,然后其他行业单独作为一个数据做了一下分析。我们发现互联网的这个大概占到34%,其他行业65%。我们说这个行业大数据其实它也有很大的价值,不管是我们一说大数据,好像都是在互联网上产生的,而且中国对大数据的重点行业其实就是在电信、金融、交通、政府、医疗这些行业。

我们为什么要分互联网大数据和行业大数据两大类呢?因为我们知道,在互联网上它的大数据的数据类型主要是以非结构化为主,像我们看的网页属于半结构化,视频、照片、音频这些都是属于非结构化的,它的空间很大,要得取有价值的信息密度很小。但是,行业大数据,因为经过几十年的信息化系统的建设,行业大数据已经有很多的系统,像我们电信行业有详单,账单系统,企业有客户关系系统,还有很多的管理系统,以及银行有存贷业务,信用卡业务的各种各样的系统,这些系统随着时间积累,数据体量也是越来越大的。但是这些系统都是我们传统的关系型数据库,所以它里头的数据都是结构化的数据。

所以,我们这些数据把它整合到大数据平台上做分析,它的价值密度是很高的。当然,现在随着互联网的发展,各种服务器和各种设备也会产生大量的日志信息,以及人员使用中,浏览的各种内容,它也会产生很多的非结构化和半结构化数据。但是行业数据来说,大部分还是属于结构化数据。我们要解决大容量、高价值、密度结构化的大数据的存储、计算和分析课题。