基于矩阵的apriori的改进算法探讨数据挖掘中关联规则的研究

基于矩阵的Apriori的改进算法探讨数据挖掘中关联规则的研究摘要:文章建立在Apriori改进算法的基础之上,以深州市食品安全问题为研究对象,通过数据挖掘关联规则的方式,证实了食品质量与食品规格食品产地,食品种类之间的相关性关系,望引起各方关注与重视。关键词:Apriori算法;数据挖掘;关联规则;食品安全中图分类号:TP311.13食品质量与安全是一个专业性很强的问题,其标准的制定和抽样检测及评价都需要科学有效的方法。本文即结合实际数据,在改进Apriori算法下,对该问题进行详细分析与说明。1基于矩阵的Apriori改进算法分析改进的基木思路在于:由于在常规意义上,Apriori算法建立模型过程中需要多次扫描事务数据库,耗费时间过多,当数据量庞大的时候运算效率低,于是裁剪数据集以减少I/O开支显得尤为重要。而FP-Tree通过合并一些重复路径,实现了数据的压缩,从而使得将频繁项集加载到内存中成为口J能。常规Apriori算法得以实现的关键在于:对事物数据库进行多次扫描,在扫描过程当中,计算得岀事物数据库当中所包含的每个项冃出现的次数,并生成候选1?项目集合,删除支持度在预期数值以下的项集,最终得出频繁1?项的基本集合。此过程中,往往需耍对事物数据库进行多次,且重复性的扫描,因而运算效率较低,值得改进。本文所提岀的改进方法主要在于:将整个事物数据库压缩为一个频繁模式树的形式,借助于频繁模式树,生成相应的关联规则。先设定数据挖掘中最小支持度的阈值,在对事物数据库进行一次完整扫描的基础之上,生成对应的1?频繁集,按照由大至小的方式进行排列,并将支持度计数数值小于设定数值的方式集合项予以排除,生成结果集合L。按照集合L描绘FP-tree树,当中对所涉及到的关联信息予以了保留。在此基础之上,再对事物数据库进行一次扫描,采取自下而上的方式进行挖掘,删除相关子节点,最终产生与需求契合的频繁模式。举例来说,假定前期所设置的最小支持度为2o第一步需要完成对事物数据库的扫描,获取相应的频繁1?项集合。此步骤的操作示意图如下图所示(见图1);第二步则需要按照支持度计数大小,由大至小进行频繁项的排序;进而,对频繁项集进行支持度计数的排序,获取相应的结果集,如下图所示(见图2)。在构建FP-tree的基础之上,对事务进行扫描,生成相应的分支。每次扫描事务需要增加相应节点的计数,同时增加新的节点;最后还需要对事物数据库进行一次完整扫描,采取自下而上的数据挖掘方法,对所存在的子节点进行删除,获取频繁模式(见图3)。2实例分析木文从2010年、2011年和2012年深圳市的食品抽检数据入手,探求如食品产地与食品质量的关系;食品销售地点(即抽检地点)与食品质量的关系等;为解决上述问题,本文引入了以上改进后的Apriori算法,望通过对关联规则的应用,以达到良好的效果。2.1对数据进行处理:选取附件中的检验不合格的数据1作为样本,其中以每年的80%的样本数据作为建模的训练样本,20%作为检验模型的检验样本;然后对样本数据进行分类,以[不合格,食品种类、抽检地点,食品产地,型号规格,季节]为格式输入数据库中。2.2模型准备:以2012年第2期检验不合格数据中油炸食品为例,则频繁模式为[不合格、油炸鸡翅,盐出区,一线城市、散装、春季],所有的频繁模式即为频繁集。算法的基本思想是:在第K趟扫描过程中,H生成长度为K的频繁项目集。以前一趟生成的所有频繁项目集为基础,生成新的候选项目集,然示扫描数据库,计算这些项目集的支持度,按照给定的支持度确定频繁项冃集。(1)首先计算所有的候选1-项集的集合(2)扫描数据库,删除其中的非频繁项子集,生成频繁1-项集的集合(3)将与自己连接生成候选2-项集(4)扫描数据库,删除中的非频繁子集,生成频繁2-项集(5)以此类推,通过k-l-项频繁项集与自己连接生成候选k-项集,然后生成频繁k-项集,直到不再有频繁项集产生为止。2.3Apriori算法关联规则模型建立:将每个特征的范围划分为相应个数的等间区间,如产地为3个等间区间,将特征值的不同取值映射到得分高、中、低的三个区间,用1、2、3标记。不同的特征值也用数字标记,并跟得分组合。与此同时,将不同的...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?