数据挖掘的模式类型及其应用领域

数据挖掘的模式类型及其应用领域发表时间:2009-11-25薛向阳:万方数据关键字:数据挖掘模式类型BI信息化应用调查我要找茬在线投稿加入收藏发表评论好文推荐打印文本本文阐述了数据挖掘的概念、模式类型及其应用领域.目的在于使人能够根据其所在领域的挖掘任务选择具体的挖掘模式。一、引言随着数据库技术的成熟和数据库管理系统的广泛应用,人们已经在商业、政府和科学等领域的数据库内积累r大量历史数据,激增的数据背后隐藏着许多重要的信息,然而过去由于缺乏挖掘数据背后隐藏知识的手段,导致r“数据丰富,但信息贫乏”的现象,即所渭“数据爆炸”。面对浩森无际的数据海洋.人们希望能够对数据进行更高层次的分析,以便更好地理解和利用这些数据背后所包含的信息,数据挖掘(DataMining,DM)便应运而生了,这里所指的“知识”就是数据中隐含的信息。数据挖掘就是从大量的、不完全的、有噪声的、模糊的和随机的数据中。提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。近年来,国内的数据挖掘研究也正逐渐掀起高潮,在算法和应用方而取得了一些具有扩展性或突破性的研究成果。二、数据挖掘的模式类型由于每种数据挖掘技术都有其自身的特点和实现的步骤,对数据的形式有具体的要求,冈此,成功的应用数据挖掘技术以达到日标,这个过程奉身就是一件很复杂的事情,下面主要从挖掘任务这个角度来讨论对具体挖掘模式的选择。根据挖掘任务,数据挖掘可分为概念/类描述;挖掘频繁模式、关联和相关;分类和颅测;聚类分析;离群点分析和演变分析等。在选择使用某种数据挖掘技术之前,首先要将待解决的商业|’日J题转化成止确的数据挖掘任务,然后根据挖掘任务来选择具体使用某一种或几种挖掘模式。F面具体地分析每一种挖掘任务应使用哪些挖掘模式:1.概念/类描述用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。这种类或概念的描述称为概念/类描述。这种描述可以通过下述方法得到:(1)数据特征化,一般地汇总所研究类的数据;(2)数据区分,将日标类与一个或多个可比较类进行比较;(3)数据特征化和比较。2.挖掘频繁模式、关联和相关频繁模式足在数据中频繁出现的模式。存在多种类型的频繁模式,包括项集、子序列和f结构。频繁项集是指频繁地在事物数据集中一起出现的项的集合,如牛奶和面包。频繁m现的子序列.如顾客倾向于先购买PC再购艾数码相机然后再购买内存卡这样的模式是一个(频繁)序列模式。子结构可能涉及不同的结构形式,如图、树或格,可以与项集或子序列结合在一起。如果一个子结构频繁地出现,则称它为(频繁)结构模式。关联分析是寻找在同一个事件中出现的不同项的相关性,比如在一次购父活动所买不同商品的相天性。以购物篮这个典型例子分析关联规则,“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”。即(面包+黄油)牛奶。还可以做其他分析,发现相关联的属性——值对之间的有趣的统计相关。3.分类和预测分类是这样的过程,它找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象类。导出模型是基J:对训练数据集的分析。预测足建立连续值函数模型。也就是说,它用来预测空缺的或不知道数值数据值,而不是类标号。4.聚类分析聚类分析数据对象不考虑已知的类标号。一般情况下,训练数据中不提供类标号,冈为开始并不知道类标号。可以使用聚类产生这种标号。对象根据最大化类内部的相似性、最小化类之问的相似性原则进行聚类或分组。也就是说,对象的簇这样形成,使得相比之卜.在一个簇中的对象具有很高的相似性,而与其它簇中的对象很不相似。所以形成的每个簇口r以看作一个对象的类,由它可以导出规则。5.离群点分析数据库中町能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象是离群点。大部分数据挖掘方法将离群点视为噪声或异常而丢弃。然而,在一些应用中(如欺骗检测),罕见的事件比正常出现的事什更令人感兴趣。离群点数据分析称作离群点挖掘:可以假定一个数据分布或概率模型.使崩统计检验检测离群点;或者使用距离度量,将远离任何簇的对象视为离群点。6.演变分析...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?