微软决策树在汽车销售中的应用
2007/6/28 来源:《电脑知识与技术》 2007年第6期 作者:房华蓉 张 毅


  摘要:为了进一步挖掘隐藏在销售数据背后的销售知识,本文在SQL Server中建立了汽车销售数据立方体,利用微软决策树算法分别建立的三个决策树模型。开发了符合OLE DB For DM规范的应用程序,结果显示分类正确率在85%以上。
  关键词: 数据挖掘;决策树;SQL Server;OLE DB For DM
  中图分类号:TP311文献标识码:A 文章编号:1009-3044(2007)04-11045-02
  
  1 引言
  随着经济的发展,国内汽车工业的投资日趋增大,2005年全国汽车产销量一跃超过日本,成为全球第二大汽车消费市场。投资的加大必然导致市场竞争的激烈,汽车生产企业和汽车销售商的利润也逐步降低,库存和资金的压力变大。汽车销售积累了大量的历史数据,常规的统计手段已很难从中找出有价值的规律。数据库中知识发现(Knowledge Discovery in Database,简称KDD),又称为数据挖掘(DataMining),它是由数据库、机器学习、统计学等多门学科形成的一门新兴学科。其目标是从大量原始数据中挖掘出隐含的、有用的、未知的知识,所发现的知识可以是描述数据特性的规则、频繁出现的模式、数据集中目标的聚类、预测模型等[1]。目前数据挖掘技术被认为具有广阔的研究前景。本文运用微软决策树分别建立了以客户信息作为输入的车型、颜色和排量决策树模型,
  开发的基于Visual Basic 6.0的应用程序可以创建和训练模型,同时可以根据用户的输入数据进行预测查询。
  
  2 分类规则及相关算法
  2.1 分类规则概述
  分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中的某一个。分类规则的使用一般分为构造模型和预测查询两个阶段。
  构造模型的过程一般分为训练和测试两个阶段。在构造模型之前,要求将数据集随机地分为训练数据集和测试数据集。在训练阶段,使用训练数据集,通过分析由属性描述的数据库元组来构造模型,假定每个元组属于一个预定义的类,由一个称作类标号属性的属性来确定。训练数据集中的单个元组也称作训练样本,一个具体样本的形式可为:(u1,u2,…,un;c),其中ui表示属性值,c表示类别。由于提供了每个训练样本的类标号,该阶段也称为有指导的学习,通常,模型用分类规则、判定树或数学公式的形式提供。在测试阶段,使用测试数据集来评估模型的分类准确率,如果认为模型的准确率可以接受,就可以用该模型对其它数据元组进行分类。一般来说,测试阶段的代价远远低于训练阶段。
  构造分类模型的目的是对类别未知的数据进行类别的预测,分类模型经过测试且达到一定的准确度后便可用来对未知类别的数据进行分类。
  2.2 微软决策树算法
  决策树(Descision Tree)学习是实例如为基础的归纳学习算法,它着眼于从一组无次序、无规则的事例中推理出决策树表示形成的分类规则,他它采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较并根据不同的属性值判断从该节点向下的分支,在决策......点击查阅全文......↓