大数据工作的正确打开姿势

数据应用先不要涉及解决复杂的问题,避免起步阶段迟迟无法打开局面。最好从解决简单问题做起,可以考虑直接引入其他外部公司的成功实践,迅速产生实际成果,让大家快速看到数据应用带来的成效。根据二八原理,这些简单的数据应用很可能会产生意想不到的效果。通过对这些成功数据应用案例的宣传,引导大家进一步认识到数据所能够带来的价值,加大在数据应用方面投入资源,启动更多的相关项目。

 三、面向问题收集和管理数据

传统金融行业因为过去IT资源相对昂贵,本着节省开销的考虑,只记录与金融交易相关的数据。内容主要为客户状况、合约和相关交易服务状况,而其他过程行为数据一般不做记录。这造成其数据所覆盖的范围较窄,难以支撑大规模的数据应用。现代IT技术降低了IT成本,同时随着数据应用带来价值的提升,各金融企业扩大数据收集范围和粒度的意识普遍提高,为更大规模和更加深入的数据应用创造了条件。

要根据所涉及业务领域的相关问题,提出需要增加收集哪些数据,然后由IT人员在现有系统中进行埋点,做数据记录。金融机构所拥有的客户行为数据比较有限,无法满足很多算法预测模型的要求,可以考虑在法律容许的范围内,与外部数据公司合作,获取更多的数据支持。

数据有其时效性,不能立即使用的数据会随着时间的推移逐步失去其自身价值,且还会占用大量的IT资源。那种先获取数据后考虑数据应用场景的做法,成本比较高。因此要避免没有数据应用目标就大量获取数据的做法。

数据整理和数据质量管理也要面向解决实际问题的需要,避免盲目追求完美。虽然数据整理和数据质量管理对于后续的数据应用会带来很大帮助,但其也会消耗很多资源。特别对于业务部门来说,提高数据的质量意味着大量工作,甚至可能会影响业务流程的效率。可以计算相关成本与后续可能带来的收益进行比较做出决定。

比如为了让客户准确填写电话号码,有些企业要求客户发短信确认码。这显然降低了业务操作的流畅程度,但若电话号码是后续服务所必不可少的,那么这样的改变就应该尽快实施。

四、确定数据的拥有者

企业会产生大量数据,不同业务单元和部门所产生的数据不同,数据使用的情况也不同,很可能会形成企业内的数据交叉使用。为避免内部的数据使用冲突造成数据的混乱,就需要明确各数据的主人,赋予其管理数据的责任和权利。原则上谁产生的数据谁就拥有这些数据,谁就对这些数据负责,其他人要使用数据必须经过数据拥有者的同意。

数据拥有者要管理保护好自己的数据,同时要考虑如何让这些数据产生更大的价值。可以考虑在企业内部形成数据使用的模拟收费机制。确定一合理的价格,让其他部门的数据使用方支付给数据拥有方相应的费用,取得数据的使用权,并在数据拥有方的监督下合理使用数据。

数据使用方的资金额度由企业根据需要划定,鼓励其更经济地开展项目。通过考核数据拥有者收费的情况,对其相关服务工作予以奖惩。鼓励数据拥有者将数据提供给大家使用,创造更大的价值。质量越高的数据越有人愿意使用,数据拥有者会不断提高数据的数量和质量,满足数据使用者的需要。

 五、共享数据平台支持服务

数据应用需要配套的软硬件环境支持,需要在企业内建设一套共享的数据应用平台环境,并安排专业团队提供服务支持。采用同一个数据应用环境,不但可以大幅度节省采购、建设及运维成本,还可以保证各业务部门数据相互间的共享使用,也可以非常便捷地开展数据应用交流和相关应用模型的借鉴复用。

数据平台建设要循序渐进,配置够近期使用就可以了,后续逐年确认是否需要扩容和升级。使用过好的设备和软件工具,过大的配置,很可能因数据量和应用程度无法达到预期,造成相关投入闲置浪费。随着技术的快速进步,设备及软件工具会越来越高效,单位处理能力的价格也会越来越低。

而数据应用的不断深入,各个平台使用者会对平台的数据存储量、计算能力及建模工具等方面提出更高要求,更多成功的数据应用会使得公司愿意增加平台投入。最经济的做法是根据数据应用的情况及用户的需要,逐步扩充或更换设备,采购更加先进的软件工具。