颜雪松-关联规则挖掘综述

颜雪松,-关联规则挖掘综述收稿日期:20011214;修返日期:20020428基金项目:湖北省自然科学基金资助项目(2001ABB006)关联规则挖掘综述*颜雪松,蔡之华,蒋良孝,贺毅(中国地质大学信息工程学院,湖北武汉430074)摘要:介绍了关联规则挖掘的一般概念,并进一步导出它的一般框架;同时对一些典型算法进行了分析和比较,介绍了关联规则的应用;最后展望了关联规则挖掘的未来研究方向。关键词:关联规则;频繁项目集;深度优先遍历;宽度优先遍历中图法分类号:TP3016文献标识码:A文章编号:10113695(2002)11000104SurveyofAssociationRuleMiningYANXuesong,CAIZhihua,JIANGLiangxiao,HEYi(CollegeofInformationEngineering,ChinaUniversityofGeosciences,WuhanHubei430074,China)Abstract:Inthispaperweexplainthefundamentsofassociationruleminingandmoreoverderiveageneralframework.Atthesametimecomparesandanalysessometypicalalgorithms,introducestheapplicationoftheassociationrules.Attheend,viewssomefuturedirectionsinassociationrulegeneration.Keywords:AssociationRule;FrequentItemsets;DFS;BFS1引言面对海量的存储数据,如何从中发现有价值的信息或知识是一项非常艰巨的任务。数据挖掘就是为了满足这种要求而迅速发展起来的。数据挖掘是指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。数据挖掘是人工智能和数据库发展相结合的产物,是目前国际上数据库和信息决策系统最前沿的研究方向之一,已引起了学术界和工业界的广泛关注。目前研究的主要目标是发展有关理论、方法和工具,以支持从大量数据中提取有价化的知识和模式。在事务数据库中挖掘关联规则是数据挖掘领域中的一个非常重要的研究课题。它是由R.Agrawal等人首先提出的。关联规则的一个典型例子就是:90%的客户在购买面包的同时也会购买牛奶,其直观意义为顾客在购买某些商品的时候有多大的倾向会购买另外一些商品。2关联规则的基本概念假设T是事务的集合,在T中的每一个事务都是项目集I的子集。假设C是I的一个子集,我们定义C的支持度如下:(C)=|{t|t!T,Ct}|。(C)表示包含在C中的事务的数目。例如图1所示的事务集。事务的项目集I是{Bread,Beer,Coke,Diaper,Milk}。{Diaper,Milk}的支持度是{Diaper,Milk}=3,而{Diaper,Milk,Beer}=2。TIDItems1Bread,Coke,Milk2Beer,Bread3Beer,Coke,Diaper,Milk4Beer,Bread,Diaper,Milk5Coke,Diaper,Milk图1TransactionsfromSupermarket关联规则可描述为:!XY,XI,YI。关联规则X!Y的支持度s定义为:(X?Y)/|T|,置信度定义为(X?Y)/(X)。例如,假设一条规则{Diaper,Milk}!{Beer},表示如果Diaper和Milk在一个事务中,就意味着Beer也包含在这个事务中。这条规则的支持度是:(Diaper,Milk,Beer)/5=40%。置信度为(Diaper,Milk,Beer)/(Diaper,Milk)=66%。如果一条规则的置信度很高的话,就说明这条规则很重要,因为它可以在规则中给项目关联提供精确的预测。同样的,规则的支持度也很重要,它可以暗示在事务中这条规则的出现频率有多高。支持度很低的规则通常是引不起人们的兴趣的。这就是为什么大多数的算法[2]忽视那些不能满足用户给定的最小支持度条件的规则的原因。这种用给定最小支持度过滤规则的方法可以减少产生的关联规则的数量,以便于管理。因为算法可能产生的规则的数量和项目集I的子集的数量是成比例的,可能达到2|I|,因此,这种过滤在实际应用中是必需的。发现关联规则的任务就是发现所有形如X!Y的规则,规则的支持度大于或等于给定的最小支持度,规则的置信度大于或等于给定的最小置信度。发现关联规本文来源:网络收集与整理,如有侵权,请联系作者删除,谢谢!

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?