关键词不能为空

当前您在: 主页 > 英语 >

数据挖掘工具比较

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-10 16:35
tags:

-

2021年2月10日发(作者:extreme什么意思)


数据挖掘工具的评判



刘世平



姚玉辉博士

< br>/




要做数据挖掘,当然需要 工具。但若靠传统的自我编程来实现,未免有些费时费力,而且其性能也不


一定比商业工 具来得强和稳定。目前,世界上已经有很多商业公司和研究机构开发出了各自的数据挖掘产


品,


而且功能和使用简易性也在日益提高。


例如:

< p>
SAS


公司的



Enterprise Miner


以及


IBM


公司的



Intelligent


Miner


,等等。




直接采用商业数据挖掘工具来帮助项目实施,是一个很好的选 择。它既节省了大量的开发费用,又可


以节约维护和升级的开销。本文是目前国内第一份 对主流数据挖掘工具的评估报告,该报告综合了国内一


流业务专家和数据挖掘专家的意见 ,为帮助企业进行类似评估提供了很高的参考价值。




工具种类




数据挖掘工具包括两种:





数据挖掘


(Mining for Data)


工具:


其所用的数据都存储在已经有了明确字段定义 的数据库或文本文件


里,我们称之为结构化的数据挖掘工具。它主要是用来进行预测、聚 类分析、关联分析、时间序列分析以


及统计分析等。





文本挖掘


(Text Mining)


工具:它是用来从非结构化的文档中提取有价值的信息,这些信息都隐藏在


文档里并且没 有清晰的字段定义。文本挖掘主要是应用在市场调研报告中或呼叫中心


(Call Ce nter)


的客户报


怨定级、专利的分类、网页的分类以及电子 邮件分类等。根据著名数据挖掘网站


KDnuggets


统计, 目前已



50


多种数据挖掘工具问世。





一般 而言,目前市场上这些数据挖掘工具又可分成两类


——


企业型工 具以及小型工具。




企业型数据挖掘 工具:应用在需要高处理能力、高网络容量和大数据量的场合下。这些工具通常支持


多种 平台,


并基于客户机


/


服务器结构。< /p>


它通常可以直接连接一些复杂的数据管理系统


(

< br>不像普通文本文件


)



并能处理 大量的数据。这类数据挖掘工具的另一个特点是它通常提供了多种数据挖掘算法,并有能力解决

< br>多种应用问题。企业数据挖掘工具的实例有


IBM



Intelligent Miner



SAS Enterprise Miner


等。





小型数据挖掘工具:它与企业型的工具着眼点不同。小型数 据挖掘工具或者是针对低端、低消费的


用户,或者是为解决特定的应用问题提供特定的解 决方案。比如


Oracle


公司的


< /p>


Darwin



Insightful< /p>


公司的


Insightful Miner


,等等。




工具选择




如何在众多工具中挑选出最适合本公司的呢?这的确是一个非常具有挑战性的工作。由于各个公司的


背景、财务、挖掘水平各不相同,对数据挖掘工具的需求也就各不一样。到目前为止,可供参考的权威 评


估报告非常少。最近的一份完整而权威的数据挖掘工具评估报告是由

< br>John F. Elder IV



Dean W. Abbott



1998


年完成的。可 以说,它已经过时了。但一般说来,对数据挖掘工具的选择可从以下几点着眼:





公司的数据挖掘需求是短期行为还是长期使用




如果是短期行为,就购买那些能解决特定问题的软件包或外包 给咨询公司。如果是长期使用,就需要


购买功能比较丰富,使用比较方便,维护升级比较 好的企业型数据挖掘工具。





公司的数据挖掘经验和水平




公司应该根据内部数据挖掘团队的经验和水平,选取一些经过基本培训后就能掌握的工具。而不 要盲


目求好,最终导致因不会使用工具而将其束之高搁,从而造成资源的浪费。





公司的数据状态



< br>在挑选数据挖掘工具前,


公司必须对现有的数据进行评估。


如果没有具备进行业务主题数据挖掘


(


比如:


风险预测


)


的数据或者现有格式不能满足数据挖掘工具 的需求,


那就需要等数据具备了,


才可考虑购买工具。





公司的预算




当然,在评估数据挖掘工具时,公司也要结合自身的财务预算来决定。





工具的性能




好的工具可以更有效地挖掘出高准确和高价值的信息,所以工具性能的评估也是相当重要的。

< br>



下面,本文将结合国内某一家大公司数据挖掘工具评 估的实际例子,对目前市场上最流行的数据软件


工具从纯技术角度进行详细讲解和评估。 从而为行内公司进行类似的工作提供参考。




工具评判





1


显示了数据挖掘工具评估的一般过程。



首先我们要通过不同途径


(I nternet


,杂志,供应商提交材料等


)

< br>尽可能多地收集数据挖掘工具的相关资


料。然后,根据公司的业务需求、工具性能 、公司背景等情况,确定


3



5


个初选对象。在确定完评估对象


后,我们将从技术、业务需求、数据状 态、供应商实力、财务预算等各个角度来制定比较详细的评估条款


以及权值。制定完标准 后,下一步就是根据所制定的标准进行逐一评分。最后,根据评分结果进行总结,


从而提 出数据挖掘工具的选取建议。





下面的案例,是国内某家大公司数据挖掘工具的技术评估过程:




该公司于


2002

< br>年开始启动数据挖掘项目。对于该公司来说,


数据挖掘是一项长期的工程。


由于同时考


虑到数据量大、业务需求广泛,因此本次评估对象仅限于企 业级的数据挖掘工具。




根据所收集 的资料,我们对目前在中国市场上最为流行的三大数据挖掘软件


(SAS


公司的



Enterprise

Miner



IBM


公司的



Intelligent Miner


和< /p>


SPSS


公司的



Clementine


,进行了评估。本次评估主要有


6


个主要


标准,包括数据存取、数据处理、模型算法、自动建模、可视 化以及其它系统要求。下面的内容说明了对


每个工具在


6


个主要标准上进行打分的具体情况。




1.


数据存取




数据存取主要是考查数据挖掘工具或方案的数据访问能力。它 通常包括文本文件、


EXCEL


文件、


NATIVE


接口和


ODBC


等。一般 情况下,数据都存储在数据库里或文本文件中,所以相应的权值就比较高


一些。





2.


数据处理




数据处理主要是考查数据挖掘工具的数据处理能力。它通常包括基本数学变化


(


比如


log



Ln)


、连续


变量的数据分段、数据整合


(< /p>


数据表格的合并


)


、数据过滤

< p>
(


数据的字段筛选或记录筛选


)

< br>、数据转换


(


字符型


数据转换成 数字型等


)


、数据编码


(


无效数据编码或缺失数据编码等


)


、数据随机采样以 及


SQL


支持等。




为了提供数据挖掘的准确性,我们经常需要对原始数据进行一 系列的转换,以便从不同角度来更好地


描述某种事物或行为,所以丰富的数学变化函数是 非常需要的,其权值也相应地就比较高一些。




在实际建模中,我们经常会碰到这样的例子:假定要预测某种产品的购买概率,一般来说我们会采用< /p>


分类模型。但是,如果已购买者和没有购买者的比例是


1



100


,此时我们就需要采用过度采样


(Stratified


Sampling)


的方法,使得已经购买者和没有购买者的比例变小


(


比如达到


1



6)


。另 外,我们也经常会随机采



50%


的数 据来建模,用另外


50%


来验证模型。所以在评估过程中,我们 决定给工具的随机采样功能比较


高的权值。因为数据挖掘工具经常需要和数据库打



交道




SQL


将很方便为数据的提取处理提供支持,所


以我们给的权值为


15%




-


-


-


-


-


-


-


-



本文更新与2021-02-10 16:35,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/630219.html

数据挖掘工具比较的相关文章