数据挖掘工具比较_高中生题库网|高考真题|高考试题-「密云二中」

数据挖掘工具比较

作者：高考题库网

来源：https://www.bjmy2z.cn/gaokao

2021-02-10 16:35

tags:

-

2021年2月10日发(作者：extreme什么意思)

数据挖掘工具的评判

刘世平

姚玉辉博士

/

文

要做数据挖掘，当然需要工具。但若靠传统的自我编程来实现，未免有些费时费力，而且其性能也不

一定比商业工具来得强和稳定。目前，世界上已经有很多商业公司和研究机构开发出了各自的数据挖掘产

品，

而且功能和使用简易性也在日益提高。

例如：

SAS

公司的

Enterprise Miner

以及

IBM

公司的

Intelligent

Miner

，等等。

直接采用商业数据挖掘工具来帮助项目实施，是一个很好的选择。它既节省了大量的开发费用，又可

以节约维护和升级的开销。本文是目前国内第一份对主流数据挖掘工具的评估报告，该报告综合了国内一

流业务专家和数据挖掘专家的意见，为帮助企业进行类似评估提供了很高的参考价值。

工具种类

数据挖掘工具包括两种：

●

数据挖掘

(Mining for Data)

工具：

其所用的数据都存储在已经有了明确字段定义的数据库或文本文件

里，我们称之为结构化的数据挖掘工具。它主要是用来进行预测、聚类分析、关联分析、时间序列分析以

及统计分析等。

●

文本挖掘

(Text Mining)

工具：它是用来从非结构化的文档中提取有价值的信息，这些信息都隐藏在

文档里并且没有清晰的字段定义。文本挖掘主要是应用在市场调研报告中或呼叫中心

(Call Ce nter)

的客户报

怨定级、专利的分类、网页的分类以及电子邮件分类等。根据著名数据挖掘网站

KDnuggets

统计，目前已

有

多种数据挖掘工具问世。

●

一般而言，目前市场上这些数据挖掘工具又可分成两类

——

企业型工具以及小型工具。

企业型数据挖掘工具：应用在需要高处理能力、高网络容量和大数据量的场合下。这些工具通常支持

多种平台，

并基于客户机

服务器结构。

它通常可以直接连接一些复杂的数据管理系统

(

不像普通文本文件

)

，

并能处理大量的数据。这类数据挖掘工具的另一个特点是它通常提供了多种数据挖掘算法，并有能力解决

多种应用问题。企业数据挖掘工具的实例有

IBM

的

Intelligent Miner

和

SAS Enterprise Miner

等。

●

小型数据挖掘工具：它与企业型的工具着眼点不同。小型数据挖掘工具或者是针对低端、低消费的

用户，或者是为解决特定的应用问题提供特定的解决方案。比如

Oracle

公司的

Darwin

，

Insightful

公司的

Insightful Miner

，等等。

工具选择

如何在众多工具中挑选出最适合本公司的呢？这的确是一个非常具有挑战性的工作。由于各个公司的

背景、财务、挖掘水平各不相同，对数据挖掘工具的需求也就各不一样。到目前为止，可供参考的权威评

估报告非常少。最近的一份完整而权威的数据挖掘工具评估报告是由

John F. Elder IV

和

Dean W. Abbott

在

1998

年完成的。可以说，它已经过时了。但一般说来，对数据挖掘工具的选择可从以下几点着眼：

●

公司的数据挖掘需求是短期行为还是长期使用

如果是短期行为，就购买那些能解决特定问题的软件包或外包给咨询公司。如果是长期使用，就需要

购买功能比较丰富，使用比较方便，维护升级比较好的企业型数据挖掘工具。

●

公司的数据挖掘经验和水平

公司应该根据内部数据挖掘团队的经验和水平，选取一些经过基本培训后就能掌握的工具。而不要盲

目求好，最终导致因不会使用工具而将其束之高搁，从而造成资源的浪费。

●

公司的数据状态

在挑选数据挖掘工具前，

公司必须对现有的数据进行评估。

如果没有具备进行业务主题数据挖掘

(

比如：

风险预测

)

的数据或者现有格式不能满足数据挖掘工具的需求，

那就需要等数据具备了，

才可考虑购买工具。

●

公司的预算

当然，在评估数据挖掘工具时，公司也要结合自身的财务预算来决定。

●

工具的性能

好的工具可以更有效地挖掘出高准确和高价值的信息，所以工具性能的评估也是相当重要的。

下面，本文将结合国内某一家大公司数据挖掘工具评估的实际例子，对目前市场上最流行的数据软件

工具从纯技术角度进行详细讲解和评估。从而为行内公司进行类似的工作提供参考。

工具评判

图

显示了数据挖掘工具评估的一般过程。

首先我们要通过不同途径

(I nternet

，杂志，供应商提交材料等

)

 尽可能多地收集数据挖掘工具的相关资

料。然后，根据公司的业务需求、工具性能、公司背景等情况，确定

～

个初选对象。在确定完评估对象

后，我们将从技术、业务需求、数据状态、供应商实力、财务预算等各个角度来制定比较详细的评估条款

以及权值。制定完标准后，下一步就是根据所制定的标准进行逐一评分。最后，根据评分结果进行总结，

从而提出数据挖掘工具的选取建议。

下面的案例，是国内某家大公司数据挖掘工具的技术评估过程：

该公司于

2002

 年开始启动数据挖掘项目。对于该公司来说，

数据挖掘是一项长期的工程。

由于同时考

虑到数据量大、业务需求广泛，因此本次评估对象仅限于企业级的数据挖掘工具。

根据所收集的资料，我们对目前在中国市场上最为流行的三大数据挖掘软件

(SAS

公司的

Enterprise

Miner

、

IBM

公司的

Intelligent Miner

和

SPSS

公司的

Clementine

，进行了评估。本次评估主要有

个主要

标准，包括数据存取、数据处理、模型算法、自动建模、可视化以及其它系统要求。下面的内容说明了对

每个工具在

个主要标准上进行打分的具体情况。

数据存取

数据存取主要是考查数据挖掘工具或方案的数据访问能力。它通常包括文本文件、

EXCEL

文件、

NATIVE

接口和

ODBC

等。一般情况下，数据都存储在数据库里或文本文件中，所以相应的权值就比较高

一些。

2.

数据处理

数据处理主要是考查数据挖掘工具的数据处理能力。它通常包括基本数学变化

(

比如

log

，

Ln)

、连续

变量的数据分段、数据整合

(

数据表格的合并

)

、数据过滤

(

数据的字段筛选或记录筛选

)
 、数据转换

(

字符型

数据转换成数字型等

)

、数据编码

(

无效数据编码或缺失数据编码等

)

、数据随机采样以及

SQL

支持等。

为了提供数据挖掘的准确性，我们经常需要对原始数据进行一系列的转换，以便从不同角度来更好地

描述某种事物或行为，所以丰富的数学变化函数是非常需要的，其权值也相应地就比较高一些。

在实际建模中，我们经常会碰到这样的例子：假定要预测某种产品的购买概率，一般来说我们会采用

分类模型。但是，如果已购买者和没有购买者的比例是

1

∶

100

，此时我们就需要采用过度采样

(Stratified

Sampling)

的方法，使得已经购买者和没有购买者的比例变小

(

比如达到

1

∶

6)

。另外，我们也经常会随机采

样

50%

的数据来建模，用另外

50%

来验证模型。所以在评估过程中，我们决定给工具的随机采样功能比较

高的权值。因为数据挖掘工具经常需要和数据库打

“

交道

”

，

SQL

将很方便为数据的提取处理提供支持，所

以我们给的权值为

15%

。

-

-

-

-

-

-

-

-

本文更新与2021-02-10 16:35，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/630219.html

返回列表：英语

上一篇：SCI摘要常用句型(自己整理)
下一篇：希望英语unit 1

当前您在：主页 > 英语 >

数据挖掘工具比较

-

-

-

-

-

-

-

-

-

返回列表：英语

数据挖掘工具比较的相关文章

人生最落魄最穷的感悟人性的句子,人生最落魄最穷的感悟人性的句子图片

女神节祝福语句简短唯美,女神节祝福语句简短唯美图片

正能量句子励志短句子及感悟,很暖很治愈的短句

每日清晨祝福语大全,每日清晨祝福语大全遂宁

处理婆媳关系最好的办法,敢和婆婆翻脸的女人

给领导早晨的祝福短信,给领导早上问候语正能量

杨绛先生关于读书的经典

给团队打气激励的句子名

王者荣耀国服诸葛亮是谁

人生,就是三句话(精辟)白

关于拼搏的名言名句名诗

心情低落的图片一个人背

记录孩子开心时刻的句子

人生很短,余生很贵,好好珍

台湾作家龙应台经典语录

形容感情一路走来不容易

张爱玲名言名句,经典语录

熬过最难最经典的语句接

让前任瞬间流泪的句子1

励志的人生格言图片带字

关于2023励志的句子经典语

杨绛先生情感语录大全,杨

适合心情低落的句子100字

三国志战略九游版下载,三

当前您在： 主页 > 英语 >

-

-

-

-

-

-

-

-

-

数据挖掘工具比较的相关文章

当前您在：主页 > 英语 >