第三批大数据产品能力认证情况综述

9月1日,由工业和信息化部指导,中国信息通信研究院、中国通信标准化协会主办,数据中心联盟承办的“2016可信云大会”在京隆重召开。在9月2日下午的大数据分论坛上,中国信息通信研究院技术与标准研究所大数据产品认证负责人姜春宇发表了题为《第三批大数据产品能力认证情况综述》的演讲。

jiangchunyu

中国信息通信研究院技术与标准研究所大数据产品认证负责人 姜春宇

以下是演讲实录:

今年是第二次站在这里,我们今年测评的节奏比较快一些,三四月份完成了一批,六七八又完成了第三期,今年还会完成第四期。大数据发展的节奏比较快,所以我们的认证和测算也是在不断的摸索和前进的过程。我是来自中国信息通信研究院的姜春宇,很荣幸给大家介绍第三批大数据产品能力认证的情况。

主要两个部分,一个是认证情况的介绍,第二部分是我们的总结和下一步的计划。

首先,我们回顾一下大数据产品能力认证的历程。去年6到8月份了第一批,是华为,移动,星环,中兴,ucloud5家企业,今年Hadoop,,Spark数据基础能力认证是6家企业,现在是大数据基础能力和性能专项6家企业,第四批是数据库基础能力和性能认证,是今年年底。

这是第三批大数据产品能力认证的评测对象和指标,分为基础能力,性能专项,基础能力有七个维度,性能专项有四大任务。6到8月份我们看到了6家厂商参与了,其中国双科技参与基础能力认证,华为,华三,腾讯云,星环,百分点等5家参与了商用版。

我们看基础能力认证体系,三四月份公布过,这样的变化不是特别大,以七大项,其中黄色的是可选,其它的是必测。第四批的评估体系有稍微的修改,但是不会太大,认证的流程,这边是认证的流程,这边是评审的流程。认证的话,首先是报名,其次是我们的审核材料,测试专家去现场审核,给出一个测试的结论,引入企业的互评,最后是对评审通过的一些企业和产品我们颁发通过的证书,具体的评审流程在右边,基础能力的审核方法从五个方面,包括软件的版本。这是这批通过大数据产品能力认证的两家产品,这是两个厂商的完成情况,百分点完成了28项预测和10项选侧,国双也是一样。今年第二批的时候我们会看到一些厂商还没有完全完成选测,但是现在来看,这两家的完成度都非常高,这说明我们的标准技术的牵引已经起到了作用。

另外,我们观察到,根据自己的业务的不同,厂商的产品呈现出一些特点,比如说百分点趋向数据流管理数据。国双更偏向云计算,可视化数据流降低平台的管理成本和门槛。数据管理的话,你会用到不同的数据架构,数据的管理非常重要。

非常重要的一点,流计算也是用户用的比较多的。一些分析平台,为机器学习,深度学习,分析平台,这也是未来的方向。包括一些与云计算融合的趋势,也是在加剧。市还有性能专项,有SQL,NOSQL,机器学习,MR任务。在SQL任务方面,我们选了5个query,是从负载的代表性上,报表任务,交互类任务,我们跟这些标准的厂商是一起选择的,nosql,我们选择HBase工具,也是因为测试周期有限,95%的读,5%的写,还有50%的读和50%的写,还有读、更改、写。MR任务,我们选了terasort,我们一直以来坚持的标准是1TB的数据量。机器学习我们选择了Kmeans和贝叶斯。数据规模,下一步可以承载30TB的能力,是也17个维度表,7个事实表构成的,本次5嗯个语句,涉及了13个表,这是SQL任务。HBase是和去年一样的,是2亿条数据,从十个客户端,每个客户端2亿条数据,这样的话,大概一条数据是1KB的大小,十个客户端接近2TB。terasrot是29TB,机器学习的负载是中科院的数据。

测试环境,去年是22台戴尔R7300服务器,今年又买了10台联想R450服务器。审核方式与步骤,可以看到性能的测试比功能的测试要严格很多,因为涉及到的点比较多,也比较敏感。审核方法和步骤,测前检查输入检查,过程检查和结果检查,文化留存。非常仔细和详细的,我们争取做到了在评审的时候,如果有质疑,我们所有的结果都可以复写的原则。

具体的审核,可以看到数据大小,表的检查,表行的最高语句,表和列的内容检查,包括执行语句要进行一些对比,我们要清空缓存。