一种基于分布约简的规则获取方法

一种基于分布约简的规则获取方法摘要:基于决策表分布约简定义规则的分布核与分布约简概念,提出一种基于分布约简的规则获取方法。首先确定条件类的分布核,进而采用启发式算法计算其分布约简,挖掘出最简产生式规则。该方法能适应决策表的不一致情形,且运用此方法所提取的规则集能够保持与原信息系统一致。关键词:粗糙集;分布约简;分布核;规则获取:TP301.6文献标志码:A:1001-3695(2007)06-0042-03粗糙集理论是一种能有效处理不精确、不确定和含糊信息的数学理论。经过二十余年的发展,它已在数据挖掘、机器学习、模式识别与智能信息处理等领域得到了广泛应用。??规则获取一直是粗糙集理论研究的重要课题。目前已有较多学者就规则获取方法进行了一定的研究。文献[1]提出一种最简规则挖掘方法,可挖掘出满足给定精确度的最简产生式规则。该方法简洁有效,但是它通过人为给定一个分类正确度?敌薷牟灰恢露韵缶霾咧担?最后所得规则可能与原信息系统不一致。文献[2]提出一种决策表约简的增量式学习方法。利用该方法得到分类规则知识库,但并没有考虑决策表不相容的情形。文献[3]在等价矩阵概念基础上提出进行数据清洗、提取决策规则的矩阵算法。但该方法通过数据清洗删除不一致对象会导致原信息系统信息的损失,最后所提取规则与原信息系统可能不一致。文献[4]讨论了最大分布约简、分配约简、分布约简和近似约简之间的关系,并给出了相应的可辨识矩阵、不协调目标信息系统的知识约简新方法,但并没有进一步给出获取规则的具体方法。1粗糙集基本概念2基于分布约简的规则获取方法??决策表核属性的确定对属性约简具有重要意义,一直受到粗糙集理论界学者的关注。Hu等人[5]根据Skowron提出的可辨识矩阵得出一个确定决策表信息系统核属性集的方法。叶东毅教授等人[6]对Hu的结论提出质疑,并通过改进可辨识矩阵提出了一种计算核属性的方法。王国胤教授[7]对上述两种方法进行了分析,分别指出其局限性,并提出一种决策表信息熵定义下的核属性计算方法。他指出,对于相容决策表可采用Hu的方法计算核属性;对于不相容决策表可采用叶的方法计算核属性;而无论决策表是否相容均可使用信息熵定义下的核属性计算方法。本章将基于文献[4]提出的分布约简概念定义决策表的分布核属性,并与文献[7]中信息熵定义下的核属性进行比较研究。然后定义条件类的分布核与分布约简,简述基于分布约简生成最简规则的基本原理。定理1表明分布核概念的意义主要体现在两个方面:①分布核可解释为决策表中不能消去的属性集,因为缺少核属性将导致部分对象关于某些决策类的隶属程度发生改变;②分布核可以作为分布约简的计算基础,因为分布核包含在所有分布约简之中,并且计算可以直接进行。引理1表明,①如果将决策表条件属性的分类进行合并,将导致条件熵的单调上升;只有在发生合并的两个分类对于决策类的隶属度(概率)相等的情况下,才不会导致条件熵的变化。②划分U/??IND??(C-{a})是可以通过将划分U/??IND??(C)中的部分等价块合并得到的。如果H(D|C-{a})=H(D|C),则所有被合并在一起的等价块对于决策类的隶属度均相等。因此在合并后,条件属性分类中的等价块对于各个决策属性分类的隶属度不会发生变化。??下面证明定理2。求条件类的最小分布约简是一个NP完全问题。算法1利用属性重要性作为启发函数求近似最小约简。其基本过程是,首先得到条件类的分布核作为求取其分布约简的基础,然后按照属性的重要程度从大到小逐个加入属性,直到得到其分布约简为止。无论决策表是否一致,此规则提取方法均适用,且所提取的规则集保持与原信息系统一致。??3结束语??本文提出了一种基于分布约简的规则获取方法,它能适应决策表的不一致性。该方法将传统的属性约简和值约简合而为一,并且同样适用于一致决策表。本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?