数据挖掘中的决策树技术及其应用

2024-06-20

数据挖掘中的决策树技术及其应用（精选11篇）

1.数据挖掘中的决策树技术及其应用篇一

摘要：高职院校的学生的成绩是一项重要的数据，它不仅是对学生学习情况的评价，也是对教师教学质量的检查。本文研究了使用决策树算法对学生的成绩进行挖掘分析，分析学生的毕业设计成绩与基础类课程、专业类课程以及专项实践类课程之间隐藏的内在联系，指导教师在今后的教学中加强学生实践操作能力的训练，进而提高教学质量。

关键词：决策树； ID3算法；数据挖掘；学生成绩分析

1.引言

高职院校在多年的教学和管理工作中，积累了大量的教学管理数据，这些数据中蕴含了很多有价值的信息。如果利用数据挖掘技术对学院教务管理系统中教师和学生的数据进行挖掘，可以使教师更好的把握学生、把握教学过程，实现教学过程动态化管理，为学校合理设置课程、优化教育资源配置、提高教学质量提供可靠的数据依据，同时对提高学校教学和管理水平也有一定的帮助。[1]

数据挖掘（Data Mining），即数据库中的知识发现，就是对庞大的数据集或数据库进行分析，挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则，可以为用户提供决策的依据[2]。决策树算法是数据挖掘的核心算法之一，决策树方法以树型结构表达最终分类结果的，也能生成If-Then形式的规则，便于使用者理解。

在教务管理系统中，学生的成绩是一项重要的数据，它不仅是对学生学习情况的评价，也是对教师教学质量的检查。本文中研究使用决策树算法对学生的成绩进行挖掘分析，全面地分析学生的毕业设计成绩与实践类课程、专业类及基础类课程中隐藏的内在联系，体现出学生课程之间有一定的相互关联关系，可以及时指导教师在以后的教学工作中采取恰当的方法，加强学生实践操作能力的训练，指导学生进行专业、基础类课程的学习，提高教学质量。

2.决策树算法

2.1决策树算法基本概念

决策树是一种常用的、直观的分类归纳算法。决策树是一种类似流程图的树状结构，根据层次的不同，结点分为根结点、内部结点和叶结点三种类型。[3] 每个结点对应一个样本集，树的最高层结点就是根结点，对应整个样本集，内部结点对应一个类标志。根结点和内部结点都包含一个对样本属性的测试，根据测试的结果将样本集划分为两个或多个子集，每个子集生成一个分支，分支用测试属性值来标识。叶结点包含一个类标志，表示对应样本集的类别。决策树的中间结点通常用矩形表示；而叶子结点常用椭圆表示。

决策树的构造包括两个步骤，一是生成决策树，二是进行剪枝。决策树的生成是从一个根结点开始，从下到下的递归过程，通过不断地将训练样本分割成子集来构造决策树，从根结点开始对该样本的属性进行测试，根据测试结果确定下一个结点，直至到达叶结点为止。决策树的剪枝是对树结构进行修剪，删除多余分支的过程，得到一棵最小期望错误率的决策树。

2.2 ID3算法

ID3算法是决策树学习算法中最有影响力、使用最广泛的一种决策树算法。ID3的基本思想是自顶向下递归地使用搜索训练样本集，是一种典型的贪心算法，在决策树的每个结点处测试每一个属性，用信息增益作为属性的选择标准，选择信息增益最大的属性作为决策树结点，从而构建决策树。[4]在算法中，在决策树结点属性的选择上使用信息论中熵(Entropy)的概念来完成。

2.2.1 信息熵

信息熵是各自信息量的期望，用信息熵可以用来度量整个信息源X整体的不确性。设样本数据集为X, n是信号源所有可能的符号数，ai是可能取到的值，P（ai）是取值为ai的概率。其信息熵如下：

2.2.3平均信息增益

信息增益表示两个信息量之间的差值，在进行分类属性的选择时，应该选择最大的信息增益作为分类属性。信息增益如下：

Gain(XY)= H(X)-H(XY)

3.决策树算法在教学质量分析中的应用

学生的毕业设计通常是学生对三年来所学的各种基础素养类课程、专业类课程、专项实践类课程的综合掌握，是体现一个学生的综合素质的重要依据，也是教师培养学生的教学质量的重要体现。因此，通过对学生的毕业设计和各种基础课、专业课及专业实践课的考试成绩的挖掘，分析出其中的关系，为今后教师调整教学方案提供依据。

决策树算法对学生成绩进行分析，是将决策树的相关算法应用于学生成绩挖掘，对大量的考试成绩数据进行分析，从而更好的分析和预测成绩数据。[5]其主要过程如下：

3.1数据收集

数据收集阶段主要工作是从教务管理系统中收集与挖掘相关的学生成绩数据，并进行简单的统计分析，检查这些学生成绩数据是否完整。

在进行数据挖掘之前，主要收集了我院2008级软件技术专业0801班42名学生不同学期的课程成绩作为原始数据，一共选择了9门课程。学生成绩表的主要内容包括学号及各门课程成绩。进行分类整理后，得到学生成绩数据表。

学号

计算机网络基础

C语言程序设计

WEB开发技术

数据库原理与应用

ASP.NET程序设计

C＃程序设计

数据库设计与开发

基于C#的ASP.NET应用程序设计

基于C#的Windows应用程序设计

毕业设计

100080563

良好

中等

100080575

良好

优秀

100080593

中等

及格

……

其中计算机网络基础、C语言程序设计、WEB开发技术三门为基础类课程，数据库原理与应用、ASP.NET程序设计、C＃程序设计三门为专业类课程，数据库设计与开发、基于C#的ASP.NET应用程序设计、基于C#的Windows应用程序设计三门为专项实践类课程。

3.2数据预处理

数据预处理的主要工作就是检查数据库中不完整的、含噪声的，不一致的的数据，并且进行清理，除去噪音，填补记录中遗漏的数据值、删除无效数据等，提高挖掘算法的精度和有效性。并且要对数据进行转换，生成新的属性或记录，使之适合数据挖掘处理的格式，预处理后的数据可以节省数据处理的时间。

在学生成绩表中，对学生因缺考、缓考、违纪、休学、退学等情况产生的成绩记录的缺失，可考虑进行清理，删除这些记录，确保表格数据的完整。最后形成有效数据共42条记录。

3.3数据转换

将收集到的数据信息转换为一个数据模型，决策树算法中使用的是离散型数据，学生成绩是连续型的，因此，要将其数据属性进行离散化处理。

学生成绩的成绩评价指标可分为三个等级，A：85-100（优秀），B：70-84（良好），C：69以下（一般）。离散化后的学生成绩表如下图所示：

学号

基础课

专业课

专项实践课

毕业设计

100080563

100080575

100080593

……

3.4 数据分类挖掘

根据生成的分析模型，利用决策树算法对数据进行挖掘，具体情况如下。

学生成绩表中样本类别属性为毕业设计，首先计算出毕业设计的信息熵。毕业设计成绩分为A（优秀）、B（良好）、C（一般）三种类别，其中优秀为3人，良好为28人，一般为11人，根据公式计算其信息熵如下：

（3）根据专项实践课成绩计算条件熵。

专项实践课成绩为“A”人数为7人。其中毕业设计成绩为“A”的2人，为“B”的5人，为“C”的0人。专项实践课成绩为“B”人数为25人，其中毕业设计成绩为“A”的1人，为“B”的16人，为“C”的8人。专项实践课成绩为“C”人数为10人。其中毕业设计成绩为“A”的0人，为“B”的7人，为“C”的3人。因此其条件熵为：

H（X专项实践课）=

=1.022

其信息增益为：

Gain(专项实践课)=1.168-1.022=0.146

由上述计算可见，专项实践课成绩属性所获得的信息增益最大，被作为根结点，并依次取专业课成绩、基础课成绩属性做为分支结点。通过构造和剪枝后，形成如图所示的决策树：

3.5 结果分析

通过对上述决策树的分析，可得出如下结论：

专项实践、专业课、基础课成绩均优秀的同学，毕业设计成绩优秀。专项实践优秀、专业课成绩一般的同学，无论基础课成绩如何，毕业设计成绩均为一般。由决策树分析可见，专项实践、专业课、基础课在学生的综合素质的培养中起到了不同程度的作用。专项实践课对学生的综合能力的培养有重要的影响，但不是绝对因素，基础课和专业课的教学安排，对学生的实践能力的训练起到了很大的支撑作用。因此，在专业的课程安排和教师的教学组织中，要注重学生的知识的学习与技能的训练的有机结合，提高学生的综合能力。

4.结束语

利用决策树分类算法的ID3 算法对学生的成绩进行分析，构造出学生成绩分析决策树，可以挖掘出学生的毕业设计成绩与基础课程、专业课程、专项实践课程之间的隐藏关系，同时也挖掘出各类课程的学习对学生综合素质培养的影响。教师可以根据分析结果在今后的教学过程中，注重加强学生的专业能力培养、实践能力训练，培养出合格的高端技能型人才。

参考文献：

[1]丁智斌，袁方，董贺伟.数据挖掘在高校学生学习成绩分析中的应用[J].计算机工程与设计.2006.2(590-592)

[2]邵峰晶，于忠清，王金龙，孙仁诚.数据挖掘原理与算法[M].北京：科学出版社.2009.[3]陈安，陈宁，周龙骧.数据挖掘技术及应用[M].北京：科学出版社.2006.[4]廖芹，郝志峰，陈志宏.数据挖掘与数学建模[M].北京：国防工业出版社.2010.[5]邢晓宇，余建坤，陈磊.决策树算法在学生考试成绩中的应用[J].云南民族大学学报(自然科学版).2009.1(77-80)

2.数据挖掘中的决策树技术及其应用篇二

关键词：模糊决策树,遗传算法优化,10-fold,cross-validation软件估算

软件估算的两大目标是进度与成本, 而这两大目标永远不会是一门精确的科学, 人员、技术、环境、策略等等对软件最终成本与开发所需工作量都有严重影响。估算有风险, 越来越多的人在研究软件估算的方法。现在世界上比较流行的软件估算方法有:“模糊逻辑”法, 功能点法, 标准构件法, 修改法, 基于代码行 (LOC) 的估算方法, 基于功能点 (FP) 的估算方法, 基于过程的估算方法, 基于COCOMO模型的估算方法, 基于软件方程式的估算方法。各种方法各有优缺点, 为使软件估算更精确, 提高软件可靠性, 本文将通过某项目实例使用遗传算法和模糊决策树结合的方法进行软件估算。遗传算法优化的模糊决策树软件工作量估算模型是基于遗传算法优化的模糊决策树算法, 输入的数据为原始化数据。

遗传算法 (Genetic Algorithm, GA) , 是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型, 它是由美国Michigan大学的J.Holland教授于1975年首先提出的。遗传算法的基本思想正是基于模仿生物界遗传学的遗传过程。它把问题的参数用基因代表, 把问题的解用染色体代表 (在计算机里用二进制码表示) , 从而得到一个由具有不同染色体的个体组成的群体.这个群体在问题特定的环境里生存竞争, 适者有最好的机会生存和产生后代。后代随机化地继承了父代的最好特征, 并也在生存环境的控制支配下继续这一过程。群体的染色体都将逐渐适应环境, 不断进化, 最后收敛到一族最适应环境的类似个体, 即得到问题最优的解。

随机给出两个参数的初始值, 它们的范围分别是0、1。用遗传算法每一代优化得到的参数都进行启发式算法的诱导, 即选择、交叉、变异;循环执行上述步骤, 直到评价函数达到要求。当循环一定代数以后, 模糊决策树的分类准确率和叶子总数达到满意结果且较稳定。

在构建模型中本文采用10-折交叉验证 (10-fold crossvalidation) , 它用来测试算法准确性。是常用的测试方法。将数据集分成十份, 轮流将其中9份作为训练数据, 1份作为测试数据, 进行试验。每次试验都会得出相应的正确率 (或差错率) 。10次结果的正确率 (或差错率) 的平均值作为对算法精度的估计, 一般还需要进行多次10折交叉验证 (例如10次10折交叉验证) , 再求其均值, 作为对算法准确性的估计。之所以选择将数据集分为10份, 是因为通过利用大量数据集、使用不同学习技术进行的大量试验, 表明10折是获得最好误差估计的恰当选择。

软件开发是一项非常复杂的工程, 不仅包含需求分析、设计 (概要设计、详细设计) 、编码、测试、实施维护等完整的过程, 还涉及到开发工具、开发人员技术水平、项目范围、项目沟通等众多因素。这里我以Desharnais数据集为基础数据, 开展软件估算工作。Desharnais数据集最初由Desharnais在1989年使用, 来自一个加拿大软件公司。它是在软件工作量估算领域中最著名的公开数据集之一。把数据集划分为样本数大致相等的子集, 10个项目属性分别是实际工作量、项目进度、开发人员技术水平、项目管理经验、业务、调整前功能点数、调整因子、调整后功能点数、开发环境、完成年份、系统数据模型的实体数。软件项目的进度和属性实际工作量一样, 因此不予考虑。在这10个属性中, 属性开发环境为类别属性, 其它的属性为数值属性。

软件开发语言环境, 有三种开发语言环境 (开发语言环境1, 开发语言环境2, 开发语言环境3) 模糊化后, 模糊变量开发有三个模糊集, 分别是开发环境1、开发环境2、开发环境3, 在模糊化中可使用对类别属性的处理方法进行模糊化处理。假设样本的属性a是类别型属性, 该属性有n个类别值, 分别为n1, n2, n3, …, ni, 则属性a的模糊化后, 可得到i个模糊集合, 其隶属函数为:

即, 对于类别型属性, 每一类就是一个模糊集合, 某模糊集合的隶属函数是分段二值函数, 当属性值是该类时, 隶属函数为1, 当属性值不是该类时, 隶属度值为0。例如, 某项目的开发语言环境为1, 则其在三个语言值语言1、语言2和语言3上的隶属度分别为1、0、0。

开发人员对设备的熟悉程度和项目管理经验两个属性是根据工作经验来确定的, 在实际生活中, 我们用新手、有一定经验、经验丰富等语言来说明人们对工作的熟练程度, 我们可以用工作年限来进行处理。这样的话, 属性开发人员技术水平和属性项目管理经验的模糊化就是要解决工作年数与相应语言值之间的映射关系。使用三角隶属函数对这两个属性进行模糊化, 工作年限最小为0。

下面对以上属性进行模糊化处理。当子集实际工作量为测试样本、其余子集样本为训练集时, 模糊化处理过程如表1。

采用半开口式对于属性系统数据模型的实体数 (31, 149.3, 267.7) 三个模糊集合的隶属函数参数见表2。根据由此产生的隶属函数对训练集合和测试集进行模糊化。其它几个属性相同的方法进行模糊化。

按照以上的方法, 在其它子集作为验证集时, 先确定模糊集合和相应的隶属函数, 然后对样本数据进行模糊化处理, 为构建模糊决策树、验证模型性能做好数据准备。

参考文献

[1]张朝杰.一种基于模糊决策树的软件工作量估算方法[D].国防科学技术大学, 2010.

[2]Steve Mc Connell.软件估算黑匣子揭秘[M].电子工业出版社, 2007.

[3]阎魏.基于决策树的软件工作量估算方法[J].计算机工程与科学, 2009 (08) .

[4]冯楠, 李敏强, 寇纪淞, 等.一种基于模糊决策树的软件成本估计模型[J].计算机工程与应用, 2007, 43 (026) :21-23.

3.数据挖掘中的决策树技术及其应用篇三

关键词:数据挖掘;数据仓库;企业决策系统

中图分类号:N37 文献标识码:A文章编号:1007-9599 (2010) 04-0000-01

Research of Data Mining Technology in Business Decision-making System

Shi Dongsheng

(Inner Mongolia University,Information&Engineering Technology College,Inner Mongolia,Baotou014010,China)

Abstract:This paper discusses data mining technology,presents a business decision system.Decision-making system on composition, process and use of data mining techniques are discussed.

Keywords:Data mining;Data warehouse;Business decision-making system

随着计算机管理信息系统的飞速发展和广泛应用,企业生产经营的自动化水平不断提高,大大提高了工作效率。但企业业务系统运行所产生的大量原始数据是企业生产经营活动的真实记录,不能为本企业加以有效的统计、分析及评估,无法将这些数据转换成企业有用的信息、为企业战略决策提供参考和支持。数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的,它的出现为智能地把海量数据转化为有用的信息和知识提供了新的思路和手段,设计开发基于数据挖掘的企业决策系统是合理解决这一问题,提升企业综合竞争力的最佳对策。

一、数据挖掘技术

数据挖掘,是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。它是数据库研究中的一个新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,把人们对数据的应用从低层次的查询,提升到从数据中挖掘知识,提供决策支持的层级。

数据挖掘一般由数据准备、挖掘操作、结果表达和解释三个主要阶段组成。在数据准备阶段应集成多个运作数据源中的数据,解决语义模糊性、处理遗漏数据、清洗脏数据。挖掘阶段是一个假设产生、合成、修正和验证传播的过程,也是上述三个阶段的核心。结果表达和解释阶段根据最终用户的决策目的把提取的有用信息正确地表达出来。

数据挖掘的方法和技术可大致划分为三类:统计分析、知识发现、可视化技术等。统计分析用于检查异常形式的数据,然后利用统计模型和数学模型来解释这些数据,统计分析方法是目前最成熟的数据挖掘工具。而知识发现则着眼于发现大量数据记录中潜在的有用信息或新的知识,属于所谓“发现驱动”的数据挖掘技术途经。知识发现常用的方法有人工神经网络、决策树、遗传算法、模糊计算或模糊推理等。数据质量、可视化数据的能力、极大数据库尺寸、数据挖掘者的技能、数据的粒度都是影响知识发现方法的重要因素。可视化技术则采用直观的图形方式将信息模式、数据的关联或趋势呈现给决策者,决策者可以通过可视化技术交互式地分析数据关系。

二、基于数据挖掘的企业决策系统

数据挖掘面对的是经初步加工的数据,使得数据挖掘更专注于知识的发现;而数据仓库用于完成数据的收集、集成、存储、管理等工作,两者必须有机结合起来使用。

基于数据挖掘的企业决策系统主要由数据库、数据仓库、数据仓库管理模块、知识库、知识发现模块、数据挖掘工具、人机交互模块构成(如下图所示)。系统的输入主要源于经过初步处理的数据库数据以及存储在知识库中的历史知识和经验;数据仓库管理模块用于数据仓库的建立以及数据的筛选操作;知识发现模块控制并管理知识发现过程,它将数据的输入和知识库中的信息用于驱动数据选择过程、知识发现引擎过程和发现的评价过程;人机交互模块通过自然语言处理和语义查询在用户和系统之间提供相互联系的集成界面。数据挖掘工具用于完成实际决策问题所需的各种查询检索工具、多维数据的联机分析分析工具等,以实现决策支持系统的各种要求。

数据挖掘主要提供了以下几种模式:

(一)分类模式:根据数据的值从树根开始搜索,沿着数据满足的分支往上走,直到树叶确定类别。

(二)回归模式:回归模式与分类模式相似,区别在于分类模式的预测值是离散的,而回归模式的预测值是连续的。

(三)时间序列模式:根据数据随时间变化的趋势预测将来的值。只有充分考虑时间因素,利用现有数据随时间变化的一系列的值,才能更好地预测将来的值。

(四)聚类模式:把数据划分到不同的组,组之间的差别尽可能大,组内的差别尽可能小,进行聚类前并不知道将要划分成几个组和什么样的组。

(五)关联模式:利用数据项之间的关联规则。

(刘)和概念描述和比较操作:把具有共同性的数据做汇总操作,从而得到一个具有一般性的规则描述。

在实际应用中,可以根据具体情况采用不同模式组合,达到最优化的数据挖掘方式。

在用户使用该系统时,首先需要通过分析决策需求,描述和表示决策的问题,确定数据来源,即可建立数据仓库;其次针对所要发现的任务的所属类别,设计或选择上述有效的数据挖掘算法并加以实现,从平凡的历史数据中提出综合数据,独立存储为库文件,作为更高一层数据挖掘对象;同时测试以评价所发现的知识,对知识进行一致性、效用性处理。最后根据最终用户的要求,建立适用于决策支持的数据仓库的集成界面和应用程序,使用户能在决策支持中运用所发现的知识。对于该系统的执行,每个步骤包含了循环和反复,可以对发现的知识不断求精、深化,并使其易于理解。

三、结论

总之,数据挖掘技术可以使其应用者由原来通过定期的、固定的报表进行定性的分析而上升到实时的、动态的各种形式的图表进行定量的分析,从而可以敏感地发现市场的微小变化并迅速做出反应,为企业在激烈的市场竞争中立于不败之地提供了强有力的工具。

参考文献:

[1]范明,孟小峰.anjiawei,etal.数据挖掘:概念与技术[M].北京:机械工业出版社,2007

[2]李捷.基于数据仓库和数据挖掘的企业决策支持系统研究[J].科技经济市场,2006,7

4.风险评估技术-决策树分析篇四

决策树分析

1 概述

考虑到不确定性结果，决策树(Decision tree)以序列方式表示决策选择和结果。类似于事件树，决策树开始于初因事项或是最初决策，同时由于可能Www.发生的事项及可能做出的决策，它需要对不同路径和结果进行建模。

2 用途

决策树用于项目风险管理和其他环境中，以便在不确定的情况下选择最佳的行动步骤。图形显示也有助于沟通决策原因。

3 输入

带有决策点的项目计划。有关决策可能结果和有可能影响决策的偶然事件的`信息。

4 过程

决策树开始于最初决策，例如继续项目A，而不是项目B。随着两种假定项目的继续，不同的事项会发生，同时需要做出不同的可预见性决定。这用树形格式进行表示，类似于事件树。事项发生的可能性能够与路径最终结果的成本或用途一起进行估算。

有关最佳决策路径的信息是富有逻辑性的，考虑各条路径上的条件概率和结果值可以产生最高的期望值。

5 输出

输出包括：

● 显示可以采取不同选择的风险逻辑分析；

● 每一个可能路径的预期值计算结果。

6 优势及局限

优势包括：

● 对于决策问题的细节提供了一种清楚的图解说明；

● 能够计算到达一种情形的最优路径。

限制包括：

5.数据挖掘中的决策树技术及其应用篇五

介绍了人工免疫系统的概念以及基于人工免疫计算的多agent决策支持系统,探讨和分析了该系统在海上航天测控领域的.应用.

作者：黄凯张忠华章剑 HUANG Kai ZHANG Zhong-hua ZHANG Jian 作者单位：黄凯,HUANG Kai(西安交通大学,西安,710049;中国卫星海上测控部,江苏,江阴,214431;中国卫星海上测控部,江苏,江阴,214431)

张忠华,章剑,ZHANG Zhong-hua,ZHANG Jian(中国卫星海上测控部,江苏,江阴,214431)

6.数据挖掘中的决策树技术及其应用篇六

关键词:数据挖掘;关联分析;Apriori引言

随着数据库技术的迅速发展以及数据库管理系统的广泛应用,各行各业积累的数据越来越多。日益剧增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识手段,导致了“数据爆炸但知识贫乏”的现象。

随着计算机及网络技术的发展,获得某一行业有关资料已切实可行。而对于数量大、涉及面广的数据,依靠传统的简单汇总、按指定模式去分析的统计方法无法完成对数据的分析。因此,一种智能化的信息分析技术——“数据挖掘”(Data Mining)应运而生。

数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。通过挖掘数据仓库中存储的大量数据,从中发现有意义的新的关联模式和趋势的过程。数据挖掘是一种新的商业信息处理技术,是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。从而使企业在激烈的市场竞争中获得先机。就保险行业而言,目前具有广阔的市场需求。项目说明

本项目开发了“保险行业决策系统V1.0”。本系统操作主界面利用ASP编程实现:数据预处理、客户购买险种分析、客户购买习惯分析、分析结果输出等功能;后台数据库利用Sql Server 2005网络数据库实现;挖掘工具采用SPSS Clementine 11.0;在研究实验阶段,针对Apriori算法存在的“存储复杂度”及“大量冗余规则”两大缺点进行了算法改进,通过利用一个模式树结构来降低Apriori算法的存储复杂度,并同时减少冗余规则的出现。

本系统共分:数据预处理、客户购买险种分析、客户购买习惯分析、分析结果输出等主要功能模块。

(1)“数据预处理”模块包括:上传、数据平台、数据处理、统计、生成数据集等功能。● 上传:可完成保险总公司下设所有分公司数据的上传。

● 数据平台:在数据上传前允许对数据平台进行选择。

● 数据处理:对数据进行清理、格式转换等操作。

● 统计:对经过预处理的数据进行分析,提取有效性数据。

● 生成数据集:将统计过程提取的有效数据生成数据集,为数据挖掘提供较高质量的数据源。

(2)“客户购买险种分析”模块包括:数据导入、参数设定、结果分析等功能。

● 数据导入:在此操作界面上,可通过选择不同数据平台将经过“数据预处理”生成的数据集分别导入。

● 参数设定:在此操作界面上设定“支持度”“置信度”等参数,对有效数据集中有分析价值的数据记录范围进行筛选。

● 结果分析:在此操作界面上可将“客户购买险种分析”的最终分析结果以“报表”、“图表”形式展示,此分析结果为行业提供了“同一客户购买本公司多种(次)保险”的客户信息,进而为

行业提供了“可争取客户”的决策依据。

(3)“客户购买习惯分析”模块包括:数据导入、参数设定、结果分析等功能。● 数据导入:此操作同(2)“客户购买险种分析”模块中的“数据导入”。

● 参数设定:在此分别设定“输入参数”(包括:年龄、性别、职业等客户基本信息)及“输出参数”(客户购买的险种信息)。

● 结果分析:通过此操作界面可展示出客户购买习惯的分析结果,进而为行业提供了“可保持客户”的决策依据。

(4)“分析结果输出”模块包括:“客户购买险种分析”“客户购买习惯分析”等分析结果的打印输出功能。项目中改进的快速算法

由于Apriori算法存在时间空间复杂度高及产生大量冗余规则两大缺陷。因此本项目通过利用一个模式树结构来降低Apriori算法的存储复杂度,并同时减少冗余规则的出现。

3.1 一个模式树的结构

root是一个标为“null”的根结点,root以下是作为根结点的孩子的项目前缀子树集合,以及项目头表组成;树中的每一结点包含四个域user_id,count,node_link,node_next。其中,user_id为user的标记(唯一标识一个user),count为该父结点到达该结点的路径的数目,node_link指向树中具有相同的user_id的下一个结点的下一结点,当下一个结点不存在时,node_link为null,node_next指向树中其子结点;项目头表的每一表项包含三个域:user_id,count,head of node,user_id与树中的定义相同,count为树中所有相同user_id之和,head of node指向树中具有相同user_id值的首结点的指针。

3.2 建立模式树

算法如下:

设事务数据库为A,其中的一个项集为Ai。

算法:Patterntree(tree,p),构造模式树

输入:用户事务数据库A

输出:用户模式树

Procedure Patterntree(T,p)

{create_ tree(T);//创建Pattern-Tree的根节点,以“null”标记

t=T;//t为当前结点

While A<>null do

{读入一个事务数据库项集Ai

while p!=null

{if p.user_id==t的祖先n.user_id

then

{ n.count=n.count+l;

t=n;

}

Elseif p.user_id==T的孩子c.user_id

then

{ c.count=c.count+ l;

t=c;

}

insert_Patterntree(T,p);//把p作为新结点插入树中,作为当前结点的孩子结点p=p.next;

}

3.3 对模式树进行剪枝

模式树建立后,可能存在大量的冗余的分枝,为了保证数据挖掘结果不被这些冗余分枝产生的噪声所影响,因此需要对树进行剪枝,剔除噪声信息。

算法:SPT(Tree,a),通过调用此算法对模式树进行剪枝

//SPT为支持度模式树,即Supported Access Pattern Tree;a为项目头表

输入:模式树PatternTree,Min_Sup(模式树的最小支持度)

输出:经过修剪后的支持度模式树SPT,模式B={bi|i=1,2,3……n｝

SPT(Tree,a)

{ i=1;

While(ai!= null)// 为项目头表的某一项

{

if(ai.count>= Min_Sup)

then

{

模式bi= ai.head of node;

p= ai.head of node;//p指向ai在模式树中的位置

While(p!= null and ai.count>= Min_Sup)

{

查找p的前缀基,将p的前缀基和p连接,构

成模式b;

if(bi.count>= Min_Sup)

then

{

//bi.count 为模式b中p与p的前缀基中的最小计数

在模式bi中保留p及其前缀基;

bi = bi.node_link

}

else

{

根据模式b中的p及其前缀基删除

PatternTree中的相应节点,重构子节点

与父节点,同时修改项目头表中的ai;

p=p.node_next//p指向在模式树中的下一个位置;

}

else

{

修改项目头结点的ai值;

删除模式树中相应的节点及其前缀基,重构父子

节点;

i++;

}

通过模式树的建立可以避免多次扫描事务数据库;同时利用count域有效的保留了项集的数目,避免大量产生频繁项集,对于减小空间时间复杂度起到了一定的作用。通过树形结构可以避免产生大量冗余规则。

通过对模式树的剪枝,可以减除在模式树产生过程中产生的大量冗余分枝,起到了减小空间复杂度的作用,同时可以利用输出模式B产生规则,避免了多项集的频繁出现,减小了时间复杂度。结束语

本项目中通过模式树结构改进了Apriori算法,弥补了Apriori算法存在的缺陷。此种方法既能够对Apriori算法从时间复杂度和空间复杂度上进行改进,同时又避免了中间规则的产生。本研究表明,通过利用一个模式树结构来降低Apriori算法的存储复杂度,并同时减少冗余规则的出现,这对于Apriori算法的改进是一种有效的措施。

参考文献

7.决策树算法及其应用篇七

1 决策树生产过程

决策树进行传统的数据分类包含两个步骤:

第一步:利用训练集进行创建模型阶段, 找到映射函数表示模型, 从指定的训练集中获取知识, 这是一个学习的过程。

第二步:利用生成的决策树预测数据的类别, 使用上一步训练完成的函数模型进行预测, 对输入的记录, 从根结点开始一直到叶结点进行测试属性值, 然后对数据集中的每一类数据进行描述, 生成分类规则。

具体工作过程如图1所示。

2 决策树算法的优点

(1) 学习该算法, 不要求使用者的知识背景丰厚, 就能够在训练事例中用属性→结论的方式来进行表达。

(2) 训练集数据量较大的情况下, 决策树模型效率较高。

(3) 决策树是一种树状结构, 它是最简单直观的, 因此在分类模型中经常被应用的方法之一, 通过从根结点一直到达叶子结点的路径转换, 最终能够生成分类规则以IF→THEN形式进行表示, 这样更能够让人容易理解。

(4) 决策树方法对于分类而言, 精确度较高。

3 决策树的评价指标

(1) 准确的预测性。决策人员最关心的就是预测的准确性, 分类模型具有对未知新数据进行准确预测的能力、也能对未知的数据类的预测能力。

(2) 描述的简洁性.分类发现模型对问题的描述方式提出的分类发现模型只有越简洁越容易理解才能够方便决策人员使用。

(3) 计算复杂性。在数据挖掘的过程中, 操作的数据对象是海量信息的数据库, 所以空间和时间的复杂性将直接影响模型的计算成本, 计算的复杂度是在海量数据库中具体实现的细节决定的。

(4) 处理规模性。

(5) 模型强健性。

4 决策树算法在学生就业工作中应用

4.1 设计方案

利用决策树C4.5算法分析哪些因素对学生就业有影响。

选取计算机系10届、11届、12届计算机科学与技术专业学生为研究对象, 学生人数为200人。

4.2 数据采集

(1) 学生基本信息库。数据结构如下:姓名、学号、性别、班级、籍贯。

(2) 学生就业信息库。内容包括学号、姓名、参加公司培训、是否优质就业 (工资在3000元以上为优质就业) 等。

(3) 成绩表。成绩数据库中包括了学生的课程总成绩平均分和综合测评成绩平均分, 这个数据库由教师在教学过程中和辅导员对学生表现评定产生。

4.3 数据项处理

数据集成。根据给出的数据文件, 将三个数据源的数据利用数据库技术生成学生就业分析表。

数据清理。生成学生就业分析表工作要进行填补遗漏的数据值。

数据转换。数据转换中离散值属性要占大多数, 连续值属性并不多, 只有个别的需进行离散化处理。现将上述综合成绩属性的属性值化分为4类:成绩从0~60分属于“及格”, 60~80分属于“中”, 80~90分属于“良好”, 90~100分属于“优”, 性别两类:男或女;参加公司培训分为两类:是或否;就业分为三类:工资在3000元以上为优质就业, 2000-3000元为普通就业, 2000元以下为一般就业, 无工作为待就业。增加参加公司培训可以判断优质就业的可信度。

数据消减。由于学生基本信息表和学生就业信息表中的属性比较多, 笔者为了便于分类挖掘, 将籍贯、班级这两个属性进行删除, 原因是这两个属性与就业相关性不大, 为了能够保护学生的隐私, 笔者将学生姓名属性也删除掉, 从而生成新的学生就业分析表与转换数据表。

参考文献

[1]郭佳, 陈春燕.数据挖掘技术在高校毕业生就业工作中的应用[J].中国科技信息, 2008, 14:67-69

8.数据挖掘中的决策树算法比较研究篇八

关键词：数据挖掘,决策树,算法,比较

l、概述

决策树算法是数据挖掘中一个重要的内容, 但是在实际应用过程中, 现存的多种决策树算法也存在着很多不足之处。随着对决策树算法的持续深入的研究, 以及对应用中发现的问题加以解决和不断改进, 人们提高了决策树的分类速度、精度和实用性, 并形成了多种不同的算法[1]。

2、决策树算法

2.1 决策树的概念

决策树又称判定树, 是一种类似于二叉树或多叉树的树结构。树中的每个非叶子节点 (包括根节点) 对应于训练样本集中一个非类别属性的测试, 非叶子节点的每一个分枝对应属性的一个测试结果, 每个叶子节点则代表一个类或类分布。从根节点到叶子节点的一条路径形成一条分类规则[2]。

2.2 决策树建立的基本过程

决策树的建立过程通常分为两个阶段:建树和剪枝[3]。

决策树归纳的基本算法是贪心算法, 它以自顶向下递归的方式构造判定树。以下是一个通用的Top-Down决策树构建递归算法[2]。

算法:BD_Tree由给定的训练数据产生一棵决策树。

输入:节点n, 数据集D, 分割方法CL

输出:以节点n为根节点的基于数据集D、分割方法CL的一棵决策树

Procedure BD_Tree (n, D, CL)

(1) 创建节点n;

(2) 在D中计算CL来求解节点n的分割标准;

(3) if (节点n满足分割条件)

(4) 选择最好的效果将D分成D1、D2;

(5) 创建节点的子集n1、n2;

(6) B D_T r e e (n, D, C L) ;

(7) B D_T r e e (n, D, C L) ;

(8) endif

(9) end

由算法可知, 分割方法CL是决策树算法的关键。根据分割算法的不同, 目前决策树算法可分为两类:基于信息熵的方法和最小基尼指数方法。

在建树过程中, 由于训练集中的噪声, 孤立点以及某个节点的数据量太小, 决策树的许多分枝反映出训练集中的异常。过分适应问题是影响决策树准确率的关键问题, 剪去决策树的冗余分枝是解决过分适应问题的重要方法。决策树修剪方法通常利用统计方法删去最不可靠的分支, 以提高今后分类识别的速度和分类识别新数据的能力[3]。

3、决策树的常用算法及其比较

目前常用的决策树算法有很多, 较为常用的有四种算法, 分别是ID3、改进的ID3、C4.5 (C5.0) 和CART[3]。

3.1 ID3决策树算法

1986年Ross Quinlan提出了著名的ID3决策树算法。ID3算法运用信息熵理论, 选择当前样本集中具有最大信息增益值的属性作为测试属性, 样本集的划分则依据测试属性的取值进行, 测试属性有多少不同取值就将样本集划分为多少子样本集, 同时, 决策树上相应于该样本集的节点长出新的叶子节点。ID3算法存在以下一些弊端:不能在算法中直接处理连续型属性, 不能处理属性值空缺的样本, 生成的决策树分枝较多且规模较大。

3.2 改进的ID3决策树算法

ID3算法使用训练数据集中数据属性的信息熵作为决定决策数节点的标准, 可能会使我们期望最终落在叶节点的目标属性值落在树根或树枝中, 这样生成的决策树不利于有目标的分类或进行目标属性取值的预测。1988年P.E.Utgoff利用ID3算法的思想, 对ID3算法进行了改进的算法, 称之为ID3_PRO, 使获得的分类树能够满足预期[4]。

与ID3算法相比, ID3_PRO虽然有了明显的改进, 但是它仍然存在一些不足:不能在算法中直接处理连续型属性, 不能处理属性值空缺的样本, 生成的决策树分枝较多、规模较大。这也是基于ID3的一系列算法存在的普遍不足。

3.3 C 4.5 (C 5.0) 算法

针对ID3算法的弊端, Ross Quinlan在1993年提出了改进算法C4.5。C4.5的基本算法是贪心算法, 它以自顶向下递归的分而治之方式构造决策树。在C4.5算法中, 每个结点都和数据集的一部分关联, 所有训练集可以分为离散值C1, C2, …, Cn共n个类, 只有一个根节点, 包含着所有数据, 并且权值初始时都是在每个节点上, 都采用分而治之的算法, 找到最佳分割数据集的分割点, 直到所有数据都在同一类的叶子节点, 不需再分为止[5,6]。

C4.5算法在ID3的基础上加进了对连续型属性, 属性值空缺情况的处理, 树剪枝也有了较成熟的方法。与ID3不同, C4.5采用基于信息增益率的方法选择测试属性。比起ID3算法, C4.5算法在效率上有了很大的提高, 不仅可以直接处理连续型属性, 还可以允许训练样本集中出现属性空缺的样本, 生成的决策树的分枝也较少。但C4.5算法在选择测试属性, 分割样本集上所采用的技术仍然没有脱离信息熵原理, 因此生成的决策树仍然是多叉树。

C5.0算法是C4.5算法的商业改进版。C5.0与C4.5的不同之处在于C5.0可以处理如下几种资料形态:日期、时间、时间戳记、序列型的离散性资料等等, 除了处理部分缺值的问题, C5.0还可将部分属性标记为不适合, 以使得作分析时仍能保有资料的完整性。和C4.5算法相比, C5.0主要针对大数据集的分类。C5.0比C4.5产生更准确的规则, C5.0在内存占用方面的性能提高了大约90%, 比C4.5快5.7~240倍。C5.0在精度方面主要的改进缘于采用提升方法。虽然提升方法通常运行特定分类器的时间, 但却改进了精度, 在一些数据集上的测试结果表明C5.0的误差率比C4.5的一半还要低[7]。

3.4 CART算法

C A R T算法 (分类回归树) 是由L e o Breiman, Jerome Friedman等专家提出的一种数据勘测和预测算法。CART树是一种二叉树, 它采用一种二分递归分割的技术将当前样本集分割成为两个子样本集, 使得生成的决策树的每个非叶子节点都有两个分支。CART树的一大优点是它将模型的验证和最优通用树的发现嵌在了算法中。CART树是这样实现这一目标的, 它首先生成一棵非常复杂的树, 再根据交叉验证和测试集验证的结果对树进行剪枝, 从而得到最优通用树, 这棵树是根据剪枝后不同版本的树在测试集数据上的性能得到的。复杂的树很少能在备用数据上表现出好的性能, 因为对训练数据来说它是过适应的, 使用交叉验证, 能够克服过适应性, 得到最适应未来数据的树[8]。

4、决策树算法的性能讨论

4.1 生成决策树的稳定性

决策树的不稳定性产生的原因是存在近似最佳分割点, 当数据集有一定变动时, 就可能造成决策树的敏感性的改变, 产生了变化的决策树以及分类规则。所以, 基本的决策树算法都着重于分割点的最佳选择, 而忽略了潜在的决策树对数据集的敏感性, 这样就导致多数决策树算法存在不稳定性的问题[2]。

4.2 算法的运行效率

算法的效率评估主要是时间复杂性和空间复杂性。ID3等算法不能实现对连续型属性的分类, 而算法主要用于较小的数据集, 主要的限制在于内存的限制;C4.5可以处理连续型属性, 但是由于所有属性值在分割时都要排序, 所以造成了时间上的耗费, 其主要也是将训练集驻留内存[3]。

4.3 算法的可伸缩性

决策树的伸缩性主要是算法针对训练集的大小的处理能力。由于ID3, C4.5等算法主要是将训练集驻留内存, 对于较小数据集比较有效, 处理大的数据集在有效性和可伸缩性上就存在一定问题;而CART等算法在可伸缩性上作了改进, 将数据集主要存储在外存上, 但是相应带来的问题是内存和外存的数据调度问题[3]。

5、总结和展望

决策树算法的研究对于数据挖掘的应用和推广有着极为重要的意义。未来以下几方面的研究工作值得考虑:

(1) 如果将可用于不确定数据表达的证据理论与决策树分类算法相结合, 可以把决策树分类技术扩展到含有不确定数据的环境中。如何避免在这种决策树构建过程中出现组合爆炸问题是值得研究的一个方向[9]。

(2) 目前已有多种衡量准则, 如信息熵准则、T w o i n g准则、G i n i准则、Max Minority准则、Sum Minority准则等, 如何克服采用单种衡量准则所带来的算法不稳健性问题, 是值得研究的一个方向[1 0]。

9.数据挖掘中的决策树技术及其应用篇九

关键词：数据挖掘,决策树,银行CRM

银行业务面临全面开放,外资银行开始大举进入中国市场,国内银行业的竞争日趋白热化。在激烈的竞争中,各商业银行,尤其是国有商业银行,长期积累下来的大量的客户资料成为不可多得的资源。对银行来说,客户是生存、发展的基础。新一轮的银行业竞争无疑会在客户资源的基础上展开。数据挖掘作为一门新兴技术,已广泛被应用于各个领域,它是客户关系管理(CRM)的坚实的技术后盾。数据挖掘通过对客户关系管理系统中的客户资料进行科学的分析、处理,向银行决策者们提供准确的管理信息,从而保证商业银行在新经济时代的竞争力。

1 客户关系管理在银行的应用模式

银行与客户之间发生的关系,不仅包括单纯的各类金融产品销售过程所发生的业务关系,如合同签订、定单处理、发货、收款等,而且包括在金融营销及售后服务过程中发生的各种关系,如在金融产品市场活动、市场推广过程中与潜在客户发生的关系在与目标客户接触过程中,内部销售人员的行为、各项活动及其与客户接触全过程所发生的关系还包括售后服务过程中,客户服务人员对客户提供关怀活动、各种服务活动、服务内容、服务效果的记录等,这也是银行与客户的售后服务关系。对银行与客户间可能发生的各种关系进行全面管理,将会显著提升银行营销能力,降低营销成本,控制营销过程中可能导致客户抱怨的各种行为,不断改进对客户的服务水平,提高客户的忠诚度,从而为银行带来更多利润。

数据挖掘从存放在数据库、数据仓库或其他信息库中的大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中自动地发现相关模式、提取有潜在价值的信息、挖掘知识的过程。数据仓库是伴随着数据库技术的发展及用户对数据加工、处理要求的不断变化而产生的,目前已经在银行业开始普遍应用。在传统的数据库应用中,数据库技术的应用主要表现在联机事务处理(OLTP)方面。联机事务处理注重数据处理的响应时间、数据的安全性和完整性,通过对数据库的联机操作(增、删、改、查询)来实现特定的应用。目前,联机事务处理仍然是数据库应用的一个主要方面,关系型数据库经过多年的发展具有很强的联机处理能力,成为传统数据库技术的主流。从的角度,数据挖掘应用就是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则,并能够根据已有的信息对未来发生行为做出结果预测,为企业经营决策、市场策划提供依据。数据挖掘可以通过对已有数据的处理,找到数据对象的特征和对象之间的关系,并可观察到金融市场的变化趋势。然后利用学习到的模式进行合理的分析预测,进而发现某个客户、消费群体或组织的金融和商业兴趣等。为了使数据挖掘技术很好地在银行中发挥作用,首先需要建立一个能够全面组织和管理来自银行内部和外部数据的平台。通过建立数据仓库,将来自系统、网管系统、系统和财务管理信息系统的数据进行整合。可以根据不同的分析需求建立相应的主题如客户流失情况主题、市场竞争分析主题等,并根据主题建立相应的多维数据集,从而可以在多维数据集中采用联机事务处理、联机分析处理和数据挖掘为相应的主题提供分析模型。

2 数据挖掘与决策树在银行CRM中的实现过程

随着信息技术的高速发展各种形式的数据库中的数据呈海量急剧增长在这些海量的数据中隐藏着大量的、有用的知识,而只靠人工阅读或简单的数据检索,远不能够及时提取出那些不同层次的知识,由此数据的生成和理解之间出现了越来越大的差距。CMR能够带来商业运作模式的转变,能够打破旧的工作模式,银行业RCM的正确实施可以很好地解决中国各家银行存在的问题。银行业具有自身的特点,其主要产品都涉及到一连串的数字符号。银行更应该把客户作为其资源的一部分来看待,对客户进行关怀,赢得客户的最大满意度。数据挖掘与决策树在银行CRM中的实现过程其具体实现步骤如下:

2.1 实现步骤

2.1.1 采用概念描述的方法获得客户信息评价

概念描述是描述性数据挖掘的最简单类型,它产生数据的特征化描述和比较描述。特征化描述提供给定数据汇集的简洁汇总,概念的比较(也称为区分)提供两个或多个数据汇集的比较描述。特征化描述为比较描述提供一个基础。概念描述可以提供数据的有趣的一般性质。存储在数据库(或数据仓库)中的大量数据都是详细的数据,通过使用属性概化,属性相关性分析等数据概化方式将详细的数据在较高的抽象层次将其表达出来,通过引入t—权作为兴趣度度量以获得感兴趣的属性所具有的必要条件,井以量化特征规则的形式加以表达。

2.1.2 使用关联规则发现客户信息数据之间的关系

关联分析发现关联规则——值频繁地在给定数据集中一起出现的条件。关联规则广泛运用于事务数据分析。关联规则挖掘可以寻找给定数据集中数据项之问的有趣联系。设I={i1,i2,…}是项的集合,设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得T哿I。设A是一个项集,事务T包含A,当且仅当A哿T。关联规则是形如A圯B的蕴涵式,其中A奂I,B奂I且AIB=Φ,规则A圯B在事务集D中成立,具有支持度S,其中S是D中事务包含A∪B的百分比。规则A圯B在事务集D中具有置信度c,如果D中包含A的事务同时也包含B的百分比是c,当关联规则满足最小支持度阀值和最小置信度阀值时,该规则被认为是有趣的。

2.1.3 使用分类方法对现有的客户归类

对于商业银行来说,分类是最常见的操作。数据分类是通过在训练数据集上针对某一个属性(称之为类标号属性)进行类划分,建立描述并区分数据类或概念的模型(或函数),再使用该模型对数据类集进行划分。对于分类来说,最重要的是在训练数据集上准确地确定分类规则。良好的分类规则能够以可接受的速度实现所期望的分类准确率,并具有一定的强壮性、可伸缩性、可解释性。采用分类的方法,在一定数量的客户群即训练数据集上进行学习,以确定优质客户的评估准则(就好像贷款五级分类的标准)。在获得评估标准以后,就.可以比较轻松地识别出绝大多数优质客户,并且可以针对他们的个人情况提供定制服务。

2.1.4 采用聚类分析将客户进行类型划分

对于存在于客户关系管理系统中的大量数据,管理人员常常希望能够得到有意义的提示以做出正确的判断,但由于不能事先明确要求,因此企图使用分类分析的方法去明确要求是不切实际的。此时,只能使用聚类的方法,先给出多个不同的相对较大的类划分,然后再进行精确划分。客户关系管理系统中,聚类分析往往可以用于发现客户的群体行为。在许多情况下,大批客户可能在存款、贷款或使用其他金融服务上具有相当大的类似性,因而形成了具有共性的客户群体。经过聚类分析,发现他们的共性,掌握他们的投资理念,提供针对性的服务,进而引导他们的投资行为。

2.1.5 使用孤立点分析找到客户中的特殊行为

在客户关系管理系统中对于孤立点数据的挖掘具有相当的价值。孤立点分析除了可用于欺诈发现外,还可以用于发现客户的异常行为。比如,我们为客户账户的日常行为(如发生额、业务笔数)设立一个阀值,客户账户的日常行为都应该在此阀值之中,如果某账户的日交易金额或日交易笔数超过了该阀值,表明该账户出现了异常行为。由此可得知客户的行为及客户所需要的服务,甚至可判断出该客户是否在从事不合法的金融活动(如洗钱等行为)。此外,如果通过对于独立点分析发现某账户在一段时间内频繁出现超过阀值的情况,就需要认真了解客户的情况以满足其服务要求或其他;如果发现某些账户频繁出现超过阀值的情况,就必须考虑是否阀值设置不当或有其他外界因素在干扰,如某一金融机构的非法融资行为必将引起其他商业银行的个人储蓄账户的不正常现象。

2.2 决策树构造算法的实现

用决策树技术要解决的问题是:银行利用决策树模型细分对私客户,对优质客户提供更加优质的服务,提高客户对银行的忠诚度,从而实现CRM的最终目标,实现双赢。

2.2.1 构造训练集

选取100个样本客户,对此进行分析,首先对训练中的挖掘属性根据概念分层的方法进行归类:

1)客户年龄

年龄≤30标记为1

30<年龄≤55标记为2

年龄>55标记为3

2)存款余额

存款余额≤500标记为1

500<年龄≤2500标记为2

年龄>2500标记为3

3)学历

大学标记为1

非大学标记为0

4)性别

男标记为1

女标记为0

2.2.2 计算每个周期期望信息

其中Pt是任意样本属于Ct的概率,并用st/s估计从属性存款的期望信息进行如下分区:

存款余额≤500标记为1I(s11,s21)=0.59167

500<年龄≤2500标记为2I(s12,s22)=0.51595

年龄>2500标记为3I(s13,s23)=0.82685

样本按存款余额标识分类划分,对给定的样本计算存款余额标识的期望信息为:

同理,计算出存款余额信息增益:

由于“存款余额”在信息中具有最高信息增益,就作为决策树首先创造一个节点,用“存款余额”作为标记并由此对其他每个决策属性引出决策分枝,“存款余额”成为决策树根节点测试属性。现在需要分析“存款余额”在各个区间的客户对理财要求进一步分析,用属性“性别”,“年龄”,“学历”进行二次划分,形成细分决策树。办理理财的客户的决策树生成如图1(由于数据局限性,生成简单图)。

2.2.3 从决策树提取分类规则

根据决策树可以用IF-THEN的形式将分类规则表示出来,从根到树叶每条路径创建一条规则。沿着根到树叶节点的路径,决策树可以转化为IF-THEN规则,分类规则如下:

1)IF存款余额>2500 AND年龄>55 THEN理财客户

2)IF存款余额>2500 AND学历=大学THEN理财客户

3)IF存款余额﹤2500 AND学历=女性THEN理财客户

3 结束语

基于数据挖掘的银行CRM还有许多内容有待进一步深入研究,我国商业银行CRM的应用还有很长的路要走。CRM作为现代管理思想与先进信息技术的结合体,相信国内的商业银行最终能成功实施CRM,从而牢固树立“以客户为中心”的先进经营理念,建立有效的组织模式、精细的业务规则、量化的评估体系及共享的信息平台,全面提升竞争能力和盈利能力。

参考文献

[1]朱爱群.客户关系管理与数据挖掘[M].北京:中国财政经济出版社,2008.

[2]杨德宏,李玲.客户关系管理成功案例[M].北京:机械工业出版社,2007.

[3]Chlorates N D,Integrating ERP,CRM,supply chain management,and smart materials[M].Boca Raton,FL:CRC Press,2005:23-97.

[4]向继东.基于数据挖掘的自适应入侵检测建模研究[博士学位论文].武汉:武汉大学,2008.

10.数据挖掘中的决策树技术及其应用篇十

着重介绍了开发铁路地质综合勘探方法决策支持系统(RGDSS)所进行的有关数据库的开发与应用情况.通过决策支持技术与数据库技术的分析,认识到数据库技术在决策支持系统开发中的重要性,从而进行了面向综合地质勘探方法决策支持需求的`工程实例等数据库的开发.开发结果表明,这种全新的用面向功能的数据库管理系统开发来研制决策支持系统的做法是可行的.

作者：武虹刘大安何振宁涂新斌作者单位：武虹,刘大安,涂新斌(中国科学院地质与地球物理研究所工程地质力学重点实验室,北京,100029)

何振宁(中国铁路工程总公司,北京,100844)

11.数据挖掘中的决策树技术及其应用篇十一

随着数据库技术的不断发展,数据库和数据仓库已经被广泛地应用于企业管理、产品销售、科学计算和信息服务等领域。数据量的不断增长对数据的存储、管理和分析提出了更高的要求,急需新一代的计算技术和工具,能够智能化地从大量的数据中提取有用的信息和知识,于是数据挖掘技术应运而生,并且成为当前最为活跃的数据研究领域之一,在零售、金融、电信、医疗等领域得到广泛应用。随着教育信息化进程的推进,积累了大量的、复杂的数据,将数据挖掘技术应用于教育中,从大量的教育数据中发现隐藏的、有用的信息来指导教育,将有助于教育的改革和发展。

现行的对成绩分析评估大多采用由人工计算的方法,通常由教务管理部门在期中或期末组织一些教师或学生,根据评估要求进行计算,经教务管理部门统计后根据评估结果做出相应的安排。在这种评估方法下,只能取得单纯的评估结果,却不能对评估数据进行分析,无法使对成绩的分析评估充分发挥对教学的作用。

针对以上成绩管理过程中的不足,将数据挖掘技术应用到成绩管理当中,找出影响学生成绩潜在的因素,以加强学生成绩科学化、规范化管理。

2 数据挖掘

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;不要求发现放之四海皆准的知识,仅支持特定的发现问题。

3 算法应用

3.1 决策树的构造

所谓“决策树”,顾名思义,有一个树状的结构,根据层次的不同,结点分为根结点、内部结点和叶结点3类。每个结点对应一个样本集,其中根结点对应整个样本集;内部结点对应一个样本子集;叶结点对应一个类标志。根结点和内部结点都包含一个对样本属性的测试,根据测试的结果将样本集划分为两个或多个子集,每个子集生成一个分支,分支用测试的属性值来标识。叶结点包含一个类标志,表示对应样本集的类别。从叶结点的角度来看,决策树把整个数据空间划分为若干子空间,属于一个子空间的所有样本都被标识为相应叶结点的类别。

决策树的构造通常包括两个步骤:利用训练集生成决策树,再对决策树进行剪枝。决策树的生成是一个从根结点开始、至上到下的递归过程,一般采用分而治之的方法,通过不断地将训练样本分割成子集来构造决策树。决策树的剪枝是对树结构进行修剪、删除多余分支的过程。使用决策树对新样本进行分类时,从根结点开始对该样本的属性进行测试,根据测试结果确定下一个结点,直至到达叶结点为止,叶结点标识的类别就是新样本的预测类别。

3.2 考试成绩分析决策树

3.2.1 定义

定义:假设训练集T包含n个样本,这些样本分别属于m个类,其中第i类在T中出现的比例为Pi,那么T的Gini Index计算公式定义为:

假设属性A把集合T划分成V个子集{T1,T2,……Tv},其中Ti的样本个数为ni,那么这个分割的Gini Index就是:

Gini Index的特征选择策略就是选择分裂后Gini Index值最小的属性,这适用于类别种类较少的训练集,而且偏向于生成大小相近的子集。

3.2.2 算法应用

如果要建立决策树可以考虑分析课程类型、是否重修、是否开卷、试卷难度等属性对其总体的影响。以XX学院2008级所开课程成绩做为测试数据。提取考试表中部分结构如表1所示。

研究数据库发现:表1中的数据划分过细,不便于直接分类,首先进行数据清理。

(1)课程按公共课、基础课、专业基础课和专业课分类,然后再按相似程度如文、理、工、综合学科等概化成内部相似的4大类A、B、C和D。

(2)考试成绩在数据库中是以数字记的,可把数字概化为3类:优秀、中等、一般,如:

(3)试卷难度以1至3的等级划分,也将其转换,如

(4)除去数据库中不合格的数据,如因录入错误则造成的空内容、错误内容或

至此清理工作结束,共剩下合格数据3130条。

清理后的数据如表2。

每个属性的取值及在某个取值下的样本子集类别分布如下:

可以根据结点的数据类别的分布来选择最优分类,即利用Gini Index的方法构造决策树。

第一步:计算每个属性的Gini Index。

1)如果按照是“是否重修”分类,得到2个子集{T1,T2},计算每个子集的Gini Index:

那么,属性“是否重修”的Gini Index可以根据以上的计算给出:

2)如果按照是“课程类型”分类,得到2个子集{T1,T2,T3,T4},计算每个子集的Gini Index:

那么,属性“课程类型”的Gini Index可以根据以上的计算给出:

3)如果按照是“试卷难度”分类,得到2个子集{T1,T2},计算每个子集的Gini Index:

那么,属性“试卷难度”的Gini Index可以根据以上的计算给出:

4)如果按照是“是否必修课”分类,得到2个子集{T1,T2},计算每个子集的Gini Index:

那么,属性“是否必修课”的Gini Index可以根据以上的计算给出:

可以注意到Gini(课程类型)

这样,Gain(课程类型)最小,说明该属性对于数据分解为子类所起的作用最大,于是建立“课程类型”,并将样本分成4部分。然后对每一棵子树按照以上方法递归计算,最后得出决策树如图1所示。

图1的决策树,发现在课程A中对于考试成绩不理想的学生来说,分类的关键是否是必修课,显然对于是必修课的考试成绩不理想的较多;而在课程B中对于考试成绩不理想的学生来说,分类的关键是试卷难度,显然对于试卷难度较高的考试成绩不理想的较多;对于课程类型是D,分类的关键是是否必修课,必修课考试成绩比选修课成绩好;另一关键因素是试卷难度,对于试卷难度较高的,学生成绩中等的占有比例较大。这些知识对于决策是有帮助的,如何对课程A的学生加强专项题和综合题的训练,提高学生解题能力。而在选修课的重点分配方面,要加大学生对此门功课的相对分配时间和动手能力培养。另外,考虑到学生重修这门功课时,要训练他们应对试题的能力,更要提高综合素质。

4 结语

以高校学生的成绩分析为例,阐述了数据挖掘技术在等级考试成绩分析中的应用的几个方面。这就表明将数据挖掘技术应用在高校教学的各个方面,有很好的现实意义,相信其在教育领域的应用范围会越来越广,其对教育的改革和发展必将起到巨大的推进作用。

参考文献

[1]董彩云等.数据挖掘及其在高校教学系统中的应用[J].济南大学学报(自然科学版),2004,18(1):65-68.

[2]韩冬.数据挖掘在学分制教学管理中的应用[J].教育信息化,2006,4:69-70.

[3]陶兰等.数据挖掘技术在高等学校决策支持中的应用[J].中国农业大学学报,2003,8(2):39-41.

[4]蔡勇等.数据挖掘技术在生源分析中的应用研究[J].计算机应用研究,2004.21(12):179-181.

[5]时希杰等.基于粗糙集理论的研究生招生预测[J].微计算机应用,2005,26(1):8-10.

[6]康振华等.数据挖掘在高校就业工作建设中的应用[J].现代化计算机,2006,5:107-109.

【数据挖掘中的决策树技术及其应用】推荐阅读：

分析在课程教学中数据挖掘技术的选择论文07-11

运用数据挖掘技术优化大学英语多媒体教学07-22