基于中药专利数据集的关联规则发现算法

基于中药专利数据集的关联规则发现算法摘要:指出关联规则在中药数据分析中的难点,据此提出了一种改进的Apriori算法――Apriori+算法;最后,以治疗感冒的中药专利数据集为测试数据,进一步验证算法的有效性和实用性。结果表明,此算法能够有效地从治疗感冒的专利数据库中发现布尔型与数值型关联规则,为开发新的感冒中药提供配伍依据。关键词:数据挖掘;数据预处理;关联规则;中药配伍规则:TP301.6文献标志码:A:1001-3695(2007)07-0061-03数据挖掘技术已成功地应用于西药的研究[1],而对中医药数据的分析尚处于起步阶段。由于西药是由有机化学药品、无机化学药品和生物制品组成,研究的是人工合成的物质,其组成有较高的确定性;而中药是由我国传统使用的植物、动物和矿物药及其成药组成,是天然药物,加之中药上千年的发展,在不同地方形成不同的中药文化,中药的组成较为复杂。用于分析西药的技术并不能直接应用于中药的研究。为此,根据中药数据的特点,将关联规则用于分析传统的中药专利数据库,及时发现中医药数据库中中药方剂的配伍规律,从而打破中医药数据堆积而信息贫乏的局面,为中药新药的研制提供决策信息。??1基于方剂用量值的约束关联规则挖掘算法??将关联规则用于分析传统的中药专利数据库,其主要目的是为了及时发现中医药数据库中中药方剂的配伍规律,如治疗某种疾病时哪几味中药会同时出现,以及同时出现的几味中药中它们各自所对应的用量范围,即需要从中医药专利数据库中同时发现布尔型与数值型关联规则。针对上述目标,结合经典的关联规则挖掘算法――Apriori算法思想,本文提出Apriori+算法。??在Apriori+算法中,每一个项由项名与项值构成,在扫描所有事务时,不仅对每个项的出现次数计数,还对每个项名的出现次数计数。因此得到的关联规则同时包括了数值型与布尔型两种关联规则。??1.1数据结构定义??为了方便算法的描述,并结合预处理之后方剂信息的存储形式(图1),定义如下数据结构来存放中药事务数据库中的每个中草药对象,即事务数据库中的某一项。??structitem??{string:name;??int:weight;}1.2算法改进??利用Apriori+算法挖掘关联规则时,主要在以下几方面进行扩充和改进:??(1)支持度阈值的设定??由于Apriori+算法要同时获取布尔型和数值型关联规则,为产生这两种不同的关联规则分别设置了不同的支持度阈值min_supB、min_supQ,且min_supB≥min_supQ。这是因为,在中药专利数据中,同一味中草药可以以不同的药剂量出现在不同的药方中,在中药专利数据库中就表现为一个项名和不同的项值组合成不同的项,所以项名的出现频率一定大于项的出现频率。??(2)候选项集的产生??候选项集的产生同样也包括关于项的候选项集和关于项名的候选项集的产生这两个不同过程。关于项名的候选项集的产生与经典的Apriori算法过程一致;而关于项的候选项集的产生则通过下述连接过程实现:为找频繁??k-项集L??k,通过由L??(k-1)与自身连接生成候选k-项集的集合C??k。在此规定L??(k-1)的元素可以进行连接的条件。??①前(k-2)个项所描述的属性和属性的事实约束值均相同;??②第(k-1)个项所描述属性是不同的。????1.3算法实现??Apriori+算法如下:??输入:事务数据库ZY;最小支持度阈值min_supB、min_supQ??输出:ZY中的频繁项集L、L′??方法:??C??1=find_1_itemsetsQ(ZY);??C′??1=find_1_itemsetsB(ZY);??foreachtransactiontinZY{??foreachcandidatecinC??1??ifcintthenc.count++;??foreachcandidatec′inC′??1??ifc′int.namethenc′.count++;??}??L??1={cinC??1|c.count>=(min_supQ*|ZY|)};??L′??1={c′inC′??1|c′.count>=(min_supB*|ZY|)};??ifL??1≠Φthen{flagQ=1;??kQ=2;}??ifL′??1≠Φthen{flagB=1;??kB=2;}??while(flagB=1orflagQ=1){??ifflagQ=1thenC??kQ=apriori_genQ(L??kQ-1);??ifflagB=1thenC′??kB=apriori_genB(L′??kB-1);??foreachtransactiontinZY{??ifflagQ=1then{C??t=subset(C??kQ,t);foreachcandidatecinC??tc.count++;}??ifflagB=1then{C′??t=subset(C′??kB,t.name);foreachcandidatec′inC′??tc′.count++;??...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?