数据挖掘建模的标准流程,同时亦称为跨产业数据挖掘标准作业程序,数据挖掘主要分为商业定义、数据理解、数据预处理、建立模型、实施六步,各步骤的叙述说明如下:
1.定义商业问题,数据挖掘的中心价值主要在于商业问题上,所以初步阶段必须对组织的问题与需求深入了解,经过不断与组织讨论与确认之后,拟订一个详尽且可达成的方案。
2.数据理解,定义所需要的数据,收集完整数据,并对收集的数据做初步分析,包括识别数据的质量问题、对数据做基本观察、除去噪声或不完整的数据,可提升数据预处理的效率,接着设立假设前提。
3.数据预处理,因为数据源不同,常会有格式不一致等问题。因此在建立模型之前必须进行多次的检查修正,以确保数据完整并得到净化。
4.建立模型,根据数据形式,选择最适合的数据挖掘技术并利用不同的数据进行模型测试,以优化预测模型,模型愈精准,有效性及可靠度愈高,对决策者做出正确的决策愈有利。
5.评价和理解,在测试中得到的结果,只对该数据有意义。实际应用中,使用不同的数据集其准确度便会有所差异 ,因此,此步骤最重要的目的便是了解是否有尚未被考虑到的商业问题盲点。
6.实施,数据挖掘流程通过良性循环,最后将整合过后的模型应用于商业,但模型的完成并非代表整个项目完成,知识的获得也可以通过组织化、自动化等机制进行预测应用,该阶段包含部署计划、监督、维护、传承与最后的报告结果,形成整个工作循环。