数据是指文字、数据、声音、图像等,而统计数据为数值数据或称数据,是由母体中经过严谨取样而得,而数据却是已经发生的事实,在企业经营中,有很多已经存有的数据,怎样从个别公司所发生的数据中,得到信息,进一步发觉知识,这便是智慧的表现,这类用于描述由数据萃取知识整个过程,称为KDD,在这儿,知识的意义是指数据之间的关系以及型态,而数据探勘专用在KDD发觉知识过程中的流程。可用决策树及类神经网络等呈现前述这类知识的含义。
如在数据库中有较多数据隐藏着很多信息,不能轻易由一些查询设备所获得,用数据探勘算法可以在数据库中呈现最好聚类或有趣的标准,以帮助KDD的进行。材料探勘工具并不能替代数据库查询工具,但可以让使用者提升很多解决问题的可能性的启发。比如,假定过去十年我们有较多顾客数据,有许多丰富的有用之信息掩藏在此档案内,大部分可由数据库经过正常查询获得,如哪一天用什么商品?在七月中某一销售区域之均值销售额为何?
等等,不过,在数据库中隐藏的信息使用SQL难以发觉,比如,顾客之最好区隔或顾客消费行为之关键趋势难题,如果采用SQL查询,可以尝试使用所定义的准则猜想顾客的轮廓,并由资料库中查询答案,经过试误过程中,可以慢慢建立直觉来差别关键特性,如此开展经年累月或许可以找到在数据库中之最好区隔,可是机器学习算法中,如类神经网络或基因算法能够在短期内回答此问题。当数据探勘工具找到区隔后,能够再用查询环境来查询及分析所发觉之顾客的轮廓,这时候效果明显。
KDD为过滤及分析数据的过程,其目的是在创造自我学习组织,由此可见,数据探勘是KDD的工具,而KDD是智能化数据分析的程序。KDD可在企业中开展个案研究,由数据库中利用决策树建构法找到数据结构中之数据间的关系与型态,并由各水平组合了解合并情况,再由经验及专业判断,重新进行重组后再进行建构树状图,这样由决策树所提供之信息,更能对行业动态的确掌握。接着由多种不同背景专家利用层级程序分析法,或模糊逻辑,使变化间的差别层次分明,并选择关键变化,再用多元尺度法找企业定位,利用聚类分析找到目标顾客群,对有经验的专业人士对于所挑出之变化,开展联合分析,分析顾客喜好,了解顾客要求,提高顾客服务的效果。
这类将过去单纯质化分析的个案研究,提升至量化分析,深入难题内部构造,使难题层次分明,而不再只是一般性的归纳,这样的个案研究才有客观根据,阐述才有深度。若进一步归纳多家企业的共同特点,再由这些数据库中做为取样母体,开展取样,所得大量数据集,利用基因算法作模型建构,进一步利用类神经网络作预测,将使公司具有强大的管理能力。决策树是树状的数据分析是数据探勘工具,能利用树状图的分割自动确定与评价区隔。利用树状图可找到最佳组合之区隔。