最大频繁项集挖掘中搜索空间的剪枝策略

最大频繁项集挖掘中搜索空间的剪枝策略ISSN1010-0054CN11-2223/N清华大学学报(自然科学版)JTsinghuaUniv(Sci&Tech),2005年第45卷第S1期2005,Vol.45,No.S15/391748-1752最大频繁项集挖掘中搜索空间的剪枝策略马志新,陈晓云,王雪,李龙杰(兰州大学信息科学与工程学院,兰州730000)收稿日期:2005-05-20基金项目:国家自然科学基金资助项目(60473095)作者简介:马志新(1973-),男(汉),甘肃,副教授。E-mail:mazhx@lzhttps://www.sodocs.net/doc/85128781015.html摘要:最大频繁项集挖掘可以广泛应用在多种重要的Web挖掘工作中。为了有效地削减搜索空间,提出了一种新的最大频繁项集挖掘中的搜索空间剪枝策略。这种策略基于深度优先遍历词典序子集枚举树,利用树中子节点与父节点扩展集中相同项的扩展支持度相等的特性,对搜索空间进行剪枝。应用该策略,对MAFIA算法进行改进优化。实验结果表明,该剪枝策略可以有效削减搜索空间,尤其在稀疏但包含长频繁项集的数据集上,搜索空间削减掉2/3,算法的时间效率比原MAFIA算法提高3~5倍。关键词:Web挖掘;最大频繁项集;剪枝策略;搜索空间中图分类号:TP311文献标识码:A文章编号:1010-0054(2005)S1-1748-05PruningstrategyforminingmaximalfrequentitemsetsMAZhixin,CHENXiaoyun,WANGXue,LILongjie(SchoolofInformationScienceandEngineering,LanzhouUniversity,Lanzhou730000,China)Abstract:Miningmaximalfrequentitemsetsisafundamentalprobleminmanypracticalwebminingapplications.ThispaperpresentsESEquivPS(extensionsupportequivalencypruningstrategy),anewsearchspacepruningstrategyforminingmaximalfrequentitemsetstoeffectivelyreducethesearchspace.ESEquivPSwasbasedonadepth-firsttraversaloflexicographicsubsetenumerationtreeandusesequivalencyofitem'sextensionsupportstoprunesearchspace.Furthermore,theMAFIA(maximalfrequentitemsetalgorithm)wasimprovedbyusingESEquivPS.TheexperimentalresultsshowthatESEquivPScanefficientlyreducethesearchspace.Especiallyonsparsedatasetwithlongeritemsets,thesizeofsearchspacecanbetrimmedoffby2/3andnewalgorithmrunsaroundthreetofivetimesfasterthanpreviousMAFIAalgorithm.Keywords:webmining;maximalfrequentitemsets;pruningstrategy;searchspace频繁项集挖掘是一类重要的数据挖掘问题,可以广泛应用在客户行为模式分析、网页关联分析、日志分析和网络入侵检测等重要的Web挖掘工作中。该问题描述如下:给定事务数据库D,项目集合I和用户指定的支持度阈值,频繁项集挖掘是在D中找出支持度大于或等于阈值的所有项集。典型的频繁项集挖掘算法是Apriori以及在此基础上的各种改进算法[1],该类算法采用自底向上广度优先的思想,依次计算出所有的频繁1项集,频繁2项集,直到找出所有的频繁项集。当出现大量长的频繁项集时,该类算法代价很高,需要多次扫描数据库并且产生大量的候选项集,对于长度为m的频繁项集需要枚举出所有可能的2m-2个子集,出现组合问题,导致算法效率低下或无法计算。因此,最大频繁项集挖掘和封闭频繁项集挖掘方法受到该研究领域的重视,先后提出多种重要的最大频繁项集挖掘算法和封闭频繁项集挖掘算法[27]。如何有效地进行搜索空间剪枝是最大频繁项集挖掘研究工作的一个核心[6]。本文提出了一种新的搜索空间剪枝策略:扩展支持度相等性剪枝策略ESEquivPS(extensionsupportequivalencypruningstrategy),该策略基于词典序子集枚举树,利用树中子节点与父节点的扩展集中相同项的扩展支持度相等的特性,对搜索空间进行削减。该策略可以方便的应用到各种最大频繁项集挖掘算法中,大幅度提高算法的效率。本文结合ESEquivPS对MAFIA算法进行了优化改进,并在不同特征的Web数据集上进行了实验验证。实验结果表明,该剪枝策略可以有效削减搜索空间,改进后的算法效率明显优于原有的MAFIA算法。1最大频繁项集挖掘与搜索空间剪枝策略最大频繁项集挖掘问题具体描述如下。本文来源:网络收集与整理,如有侵权,请联系作者删除,谢谢!

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?