大数据技术贴:构建一个有指导的数据挖掘模型

1.2如何交付结果?

有指导的数据挖掘项目可能会产生几个不同类型的交付形式。交付形式往往是一个报表或充满图标和图形的简报。交付形式会影响数据挖掘的结果。当我们的目的是提醒销售惊雷时,产生一个营销测试的客户列表是不够的。所谓的如何交付结果,就是在挖掘结果产生之后,我们要如何给用户提供这个结果,目的是好的,但实际的过程中会遇到,会遇到我们没有办法去交付这个结果。因为,你交付的结果,可能会导致一些本不该流失的客户,却流失了。这也是在具体工作之前,我们要考虑的问题。

数据挖掘人员的作用是确保业务问题的最后表述可以被转换成一个技术问题。前提是正确的业务问题。

数据挖掘

2、择合适的数据

2.1什么数据可用?

寻找客户数据的首要地方就是企业数据仓库。仓库中的数据已经被清洗和核实过,并且多个数据源被整合到一起。一个单一的数据模型有望确保命名相似的字段在整个数据库和兼容的数据类型中都有相同的含义。企业数据库是一个历史数据库,新数据不断的被追加,但历史数据一直不变。从这一点更有利于做决策支持。

问题在于,在许多企业组织中,这样的数据仓库实际上并不存在,或者存在一个或多个数据仓库,不符合直接作为规范的数据用来挖掘。在这种情况下,挖掘人员,必须寻求来自不同的部门的数据库和业务系统内的数据。业务系统数据是指执行一个特定的任务,如网站运行,索赔处理,完成呼叫或账单处理。它们的目标是快速、准确的处理事务,数据可以保存成任何格式。而这些对于没有数据仓库的一些企业来说,这些数据往往是隐藏的很深,需要大量的企业调度和规划来整理这些数据。这也就谈到了一个问题:就是数据仓库对一家企业的重要性,而建立企业级数据仓库,需要的决策不是一个经理就可以完成的,这可能需要企业级最高领导下令,下面的所有部门全部配合。

在企业总确定哪些数据可用是相当困难的。因为许多的文档会丢失或过时。通常情况下,没有一个人可以提供所有答案。确定什么数据可用,需要遍历数据字典,了解具体的业务,沟通每个部门,访问用户和DBA,审查现有的报告以及查找数据本身是否有用。还有些问题,不仅需要有关客户的数据,还需要潜在的客户的数据。当需要这些数据的时候,外部资源和业务系统,如Web日志、呼叫详细记录、呼叫中心系统、有时甚至是邮件或电子表格,这些都是数据信息的来源。

数据挖掘工作的方式并不是一直等到完美和干净的数据才进行下一步工作。虽然需要额外干净的数据,但是受挖掘必须能够使用目前的数据,提前入手,开始工作。

2.2多少数据才足够?

一、数据越多越好,更多意味着更好。在建模期间,必须对模型集进行平衡,使得每个结果的数目都相等。如果在一个大规模的样本中有一个比例很小的稀有数据,则一个较小的、均衡的样本会更受欢迎。

二、当模型集足以建立良好的、稳定的模型时,使它更大将会产生相反的作用,因为这时需要更长时间在更大的模型上去运行,由于数据挖掘是一个反复的过程,这就导致时间的浪费。如果一次建模例程的运行都需要数小时而不是数分钟,这个时间的消耗就耗不起的。这就导致,在模型确定后,数据并不是越多越好。

2.3需要多久的历史?

数据挖掘使用过去的数据预测未来。但是,数据需要来自多久的过去?这个没有定性的回答,这要考虑很多的因素。另一方面,历史上太久的数据未必对数据挖掘有用,因为市场环境在变化,特别是当一些外部事件(如监管制度的变化)进行了干预时尤其如此。对于许多以客户为中心的应用,2-3年的历史是合适的。然而,在这种情况下,客户关系确实存在有效才被证明是有价值的,那么重要的是什么:最初的渠道是什么?最初的报价是什么?客户最初怎么支付的等。

多少变量: