我们应该明确所解决问题属于那种应用类型,是属于关联分析、时序模式、分类、聚类、偏差分析以及预测,还是综合应用。例如,我们要做信用卡客户的流失分析,我们应该首先明确其任务主要是分类。
明确此问题之后,我们就可以知道所要解决的问题能否从数据挖掘中找到满意答案。
(2)选择合适的数据挖掘技术和工具
在明确了所要解决的商业问题属于哪一类应用问题后,就可以选择合适的数据挖掘技术。例如上面的问题,我们明确了其任务主要是分类,那么可以采用的技术有遗传算法、决策树和人工神经网络等,我们最后选择的是决策树,因为分类之后,我们还需要知道每个类的流失原因和预测。选择合适的挖掘技术和工具,对于未来系统的性能和可靠性有重大影响,应该认真分析商业目的,慎重选择。
(3)准备数据。
数据挖掘是由可以获取的数据驱动的,其成功在很大程度上取决于数据的数量和质量。我们应从大量的企业客户数据中找到与分析问题有关的样本数据子集。这样可以减少处理的数据量,但必须保证其样本子集具有典型的代表性。然后,进行数据预处理、分析,尽可能的对问题解决的要求进一步明确化、进一步量化。按问题要求对数据进行增删或组合生成新的变量,以体现对问题状态的有效描述。
(4)建立模型和知识发现
在选择好数据挖掘的技术和方法后,下面就要对其建立模型,这是数据挖掘的核心环节。不同的技术方案产生的结果模型有很大不同,而且模型结果的可理解性也存在较大差异。例如,用决策树方法产生模型结果就比用神经网络技术的结果易于理解。另外,对结果的分析和描述(即进行知识发现)也很关键,不恰当的描述会造成误导。
(5)证实和评价
通过上面的处理之后,就会得到一系列的分析结果和模式,它们是对目标问题的多侧面的描述,这时需要对它们进行验证和评价,以得到合理的完备的决策信息。可以采用的方法有直接使用原来建立模型的样本数据进行检验,或另找一批数据对其进行检验,也可以在实际运行中取出新鲜数据进行检验。
上一篇 : 危机管理要避免哪些误区?
下一篇 : 冰淇淋 炎炎夏日勿贪吃冰淇淋 当心变成冻冻