GoodData是个啥物件?

某天SSL介绍了一个叫做GoodData的系统,是一个据说BI Platform as a Service的物件。一年前曾经粗略地分析过哪些服务没法当做公有服务(XaaS的背后:哪些IT能力适合作为集中的云计算服务),这种分析类服务就是其中之一。主要原因包括:

(1)资源难以隔离,尤其是IO资源。

(2)多数用户希望尽快获得结果,而分析计算无法提供快速响应,在满意度方面存在问题

(3)投入较大,需要说服用户其计算式需要花费大量成本

因此看到这个GoodData服务就对其抱有疑虑,也非常希望了解其架构。不过GoodData对其技术保密程度较高,网站上没有详细介绍其技术。零零星星地透露了部分内容。此系统主要面向时间序列数据的存储和分析,通过流式计算将数据按照既定的模式完成预处理,形成可以支持OLAP查询的系统,由于OLAP是预先计算好的数据,因此提供较为固定的资源就可以满足需求。但是OLAP的灵活性较DW差,根据说明GoodData一般用于特定的行业中特定计算。由此分析很可能在GoodData的系统中存在一种类似虚拟机的平台,提供了单实例的多租户弹性的计算和存储能力。每个用户的数据分布在特定节点上,彼此不会互相干扰,但是很容易从资源池中获取资源。下图显示了这种层次关系。

可以看到这个系统具有如下特征:

(1) 没有采用数据库
(2) 大量的预处理
(3) 提供预先定义的指标供选用并定义新指标(针对特定的领域)
(4) 内存分析
(5) 结果集缓存
(6) 灵活的数据模型,可以不破坏原有的数据模型而变化

GoodData

GoodData并不是唯一的此类系统,还有一个LucidEra也是这样的物件,wikipedia上提供了部分分析很有意思,推测LucidEra系统是由一些开源软件和一些自有软件构成的:

(1)前端系统:JBoss、DOJO Tookit

(2)数据仓库&ETL:LucidDB

(3)OLAP:Pentaho Mondrian

从LucidEra身上不难猜测出GoodData的大体架构。

更多详细信息,请您微信关注“计算网”公众号: