关联规则挖掘算法学习报告

关联规则挖掘算法学习报告专业:电子信息工程班级:10-2姓名:范琳琳学号:201016050203---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---摘要:如何在海量的数据中,挖掘其中隐藏的、人们感兴趣的知识,已经成为了一个研究的热点。apriori算法是目前使用最为广泛的关联规则挖掘算法,本文就其算法实现的流程以及具体的实现进行研究。关键词:数据挖掘;关联规则挖掘;apriori算法:tp309文献标识码:a:1007-9599(2011)23-0000-02aprioriassociationruleminingalgorithmnanzhihai,sunyong(schoolofcomputersciencetechnology,soochowuniversity,suzhou215006,china)abstract:howtovastamountsofdata,miningthehidden,peopleareinterestedinknowledge,hasbecomearesearchhotspot.apriorialgorithmisthemostwidelyusedassociationruleminingalgorithm,thisalgorithmontheimplementationprocessandthespecificstudy.keywords:datamining;associationrulemining;apriorialgorithm二、数据挖掘技术概述随着信息技术的发展,信息量呈爆炸式增长。在大量的数据面前,“无用”的信息量远远超过了“有用”信息量,使用手工的方式在海量的数据里面寻找所需要的信息已经不再现实。在这种“数据爆炸,知识贫乏”的背景下,数据量的不断增长,大大降低了数据检索的效率。因此,数据挖掘作为在海量的数据中发现有价值知识的工具,得到了广泛的关注和应用。例如“尿布与啤酒”的例子就是数据挖掘应用的经典案例。目前,数据挖掘以其优越性,已经在各行各业中得到了广泛的应用,同时也进一步促进了数据挖掘技术的发展。数据挖掘的目的就是从大量数据中发现有用的模式。模式表示数据之间的关联关系,是预测数据变化、进行数据分类的标准。各种模式为用户提供了各种各样的数据挖掘途径,用户可以根据不同的具体情况来使用不同的模式挖掘数据中有用的知识。在现实应用中,模式常被划分成如下几种类型:(一)关联模式---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---关联模式通过对数据出现的频率进行统计,从而分析数据中各元素的关联程度,即关联模式表示了数据之间潜在的联系,从而挖掘其中隐含的关系。(二)分类模式分类模式是将海量的数据进行分类,将数据库中的数据映射到一个分类中,从而对这个数据进行标记。例如判定树、神经网络以及数学公式等都是比较常见的分类模型。(三)聚类模式聚类模式即识别数据的内资规则,将具有同类关联内在规则的数据划分到同一个簇中。使得聚类中粗之间的区别尽可能大,而簇内元素的差别尽可能小。聚类模式与分类模式相似,其区别在于:聚类模式在划分过程中,来确定簇的数量和半径;而在分类模式中,在数据映射之间就确定了分类的定义。(四)时序模式时序模式指将原有的数据在时间轴上进行排序,并且根据这些数据基于时间的变化,来预测未来的发展趋势。三、apriori算法流程分析agrawal等在1994年提出使用apriori算法对顾客交易的数据库项之间的关联规则进行挖掘的方法。基于这种方法分成以下两部分来完成:(1)首先,找出数据库中所有出现频率比最小支持度大或者相等的频繁项集;(2)然后,根据所得到的频繁项集来制定强关联规则,同时这些强关联规则必须要满足最小可信度以及最小支持度这两个基本的条件。从上面方法实现的两个部分可以看出,apriori算法的实现分成以下两个步骤:(1)首先使用迭代方法对数据集中的所有项集进行扫描,并且设定一个支持度阈值,筛选出数据集中的所有频繁项集,即将支持度低于阈值的项集全部淘汰掉,而将支持度高于这个阈值的项集认为是频繁项集。(2)对上一步迭代所得到的频繁项集的置信度进行计算,从而获取真正的规则。具体实现的方法如下:---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---首先,将数据集中所有的1阶项集全部找出来,并且根据一个预先设定的支持度阈值来找出这些1阶项集中的频繁项集,并且将频繁项集记为l1;然后,根据上一步所计算出来的1阶频繁项集计算出2阶候选集c2,同样通过与最小支持度的比较,得到2阶频...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?