并行关联规则挖掘综述

并行关联规则挖掘综述关联规则是等人首先提出的的一个重要R.AgrawalKDD研究内容,近年来受到了数据库界的广泛关注。关联规则是寻找在同一个事件中出现的不同项的相关性,即找出事件中频繁发生的项或属性的所有子集,以及它们之间应用相互关联性。关联规则最早用于发现顾客交易数据库中不同商品间的联系,后来诸多的研究人员对关联规则的挖掘问题进行了大量的拓展和研究。他们的工作包括对原有算法的优化,如引入并行的思想,以提高算法的效率,对关联规则的应用进行扩展。关联规则挖掘具有计算量大,负载集中的特点。而I/O且许多关联规则的实际应用涉及到海量数据。在这种情况下,即使对算法进行了优化,在单处理机上使用串行算法进行挖掘所需要的时间可能也是无法接受的。其主要原因在于单处理器本身受到内存和带宽的限制。因此,必须依靠I/O高性能并行计算来有效地完成挖掘任务。关联规则的基本概念1关联规则的形式化描述如下:{}12,,...,miii令为项目集,为事物数据库,其中每I=DIT?个事物是一个项目子集,并另有一个唯一的事物标T()TX?识符。如果,则事物包含项目集。TIDTXYX?IYIX??,一个关联规则是形如的蕴涵式这里并,,YX∩YX?且ф。规则在交易数据库中的支持度=D(是交易数据库中和的交易数与所有交易数之比,support)XYYX?记为,即support()YX?{}DDTTYXT/,:∈?∪support()=YX?规则在交易数据库中的可信度指包D(confidence)含和的交易数与包含的交易数之比,记为XYXYX?,即confidence()confidence(YX?{}{}DTTXTDTTYXT∈?∈?∪,:/,:)=给定一个交易集,关联规则的挖掘问题就是产生支持D度和可信度分别大于用户给定的最小支持度和最(minsupp)小可信度的关联规则。(minconf)关联规则的发掘分为两个步骤:找出所有支持度大(1)于最小支持度的频集;从频集中产生期望的规则。(2)串行关联规则挖掘算法2目前所有并行关联规则算法都是在相应的串行算法的基础上提出的。本文首先对这些串行算法进行介绍和分析。算法2.1Apriori-like在各种关联规则挖掘算法中,最经典、最广泛使用的就是等Agrawal[2]设计的算法,其核心思想是基于频集理Apriori论的递推方法。首先产生频繁项集,然后是频繁项集,1-2-直到有某个值使频繁项集为空,算法停止。这里在第次rr-k循环中,过程先通过对两个只有一个项不同的属于的频k-1集做连接产生候选项集的集合。然后验证候选项集(k-2)-k-k-中的每个元素来决定是否将其加入频集,这里的验证过程k-是算法性能的一个瓶颈。这个方法要求多次扫描数据库,这就需要很大的负载。I/O等提出了一个高效地产生频繁集的基于杂凑Park(hash)的算法:算法。通过实验DynamicHashingandPruning(DHP)可以发现寻找频集的主要计算是在生成频繁项集上。2-DHP利用一个杂凑表在计算频繁项集时先大概计算出项集的1-2-支持度,从而减少了候选项集的数量。还采用了数据2-DHP库修剪技术,通过修剪掉那些不包含频集的事物集以减小下一次循环中数据库的大小。然而,这种修剪技术的优化并不显著。其主要原因在于只能通过过滤对数据库执行逻辑上的并行关联规则挖掘综述尚学群,沈均毅西安交通大学电信工程学院软件研究所,西安(710149)摘要:关联规则发现作为数据挖掘的重要研究内容,在许多实际领域内得到了广泛的应用。因为在挖掘过程中涉及到大量的数据和计算,高性能计算成为大规模数据挖掘应用的一个重要组成部分。该文介绍了当前并行关联规则挖掘方面的研究进展,对一些典型算法进行了分析和评价,从并行度、负载平衡以及和数据库的集成等方面展望了并行关联规则挖掘的研究方向。关键词:数据挖掘;关联规则;并行算法SurveyofParallelAssociationRuleMining,SHANGXuequnSHENJunyi(SoftwareInstitute,SchoolofTelecomEngineering,Xi'anJiaotongUniversity,Xi'an710149)AbstractDuetothehugesizeofdataandamountofcomputationinvolvedindatamining,high-performancecomputingisanessentialcomponentforanysuccessfullarge-scaledataminingapplication.Thispaperprovidesasurveyofthestudyinparallelassociationrulegeneration,reviewsandanalysessometypicalalgorithms,viewsthetrendofpa...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?