基于粒度计算的数据分类建模研究

基于粒度计算的数据分类建模研究摘要:基于粒度计算在理论上对数据分类问题进行建模研究。引入全粒度空间的概念,给出了集合的粒度表示、概念学习在粒度计算理论中的解释,从而得到数据分类问题的机理分析;最后导出了基于数据分类的知识发现模型,为知识发现面临的问题提供解决的理论依据,也为进一步研究奠定了重要的理论基础。关键词:数据分类;粒度计算;数据库中的知识发现;建模:TP311.13文献标志码:A:1001-3695(2007)03-0037-040引言粒度计算是信息处理的一种新的概念和计算范式,它覆盖了所有有关粒度的理论、方法、技术和工具的研究[1],现已成为人工智能领域研究的热点之一。这种计算理论符合人类解决问题的智力思维特征。人类正是采用这种由粗到细不断求精的多粒度分析法避免了计算复杂度高的困难,使得原来看似非多项式难解的问题迎刃而解[2]。??目前,研究得较多且较成熟的一种粒度计算理论是商空间理论[3]。在该模型中,用三元组(X,f,T)来描述一个问题。其中X是论域;f:X→Y表示论域上元素的属性;Y可以是n维空间,也可以是一般的集合;T是论域的结构,它表示论域中各元素之间的关系,将论域中的子集当做新的元素(粒度)进行研究。用数学术语来讲,就是先对X进行划分而得到商集[X]后,再对[X]进行研究。该计算理论的优点是,它使得对问题的解决摆脱了一些烦琐而非关键的过程,抓住问题的本质,以便从适当的层次(粒度)来研究问题的解,从而可以快速获得问题的精确解或近似解。知识发现研究领域中尚存在许多理论问题有待解决[4,5]。粒度计算为其中某些问题的解决提供了一种新的途径。知识发现的过程实际上就是粒度计算的过程,知识的形成过程本质上是在知识空间中搜索信息粒度的过程。不同领域的应用在期待着从历史数据中得到自己的答案,将信息粒度(的语义)变为知识。然而,不同的应用目的对信息粒度的层次和大小有不同的需求,其解释(语义)也因此存在差异。例如,在数据挖掘中对数据仓库处理时提出分层(Hie ̄rarchy)概念,从不同的粒度中得到不同层次的信息和知识,以满足人们对不同层次知识的要求[6],即发现用户真正感兴趣的知识。更重要的是,粒度计算可以在不同层次粒度的研究中提供深入的数学分析理论,是研究不同粒度世界的一种新型的数学工具,具有完备的理论基础。数据分类(DataClassification)是数据挖掘的一个重要任务。它可以分为两个过程:①根据给定的样本数据集或概念集(在粒度计算中通常又称为信息系统、决策系统等),用设计的算法创建一个模型;②使用模型进行分类、预测等。显然,后一过程属于应用,关键是前一过程,即算法的设计。当前的研究主要集中于算法的效率和准确率,但对此并未取得根本性的突破,而更多的是针对算法的技巧性改进,不具一般指导意义。本文的研究是希望从知识发现的代数和几何理论体系中去探讨,寻求对问题解决的一般性原则。本文主要是基于粒度计算的有关理论和方法对数据分类问题进行建模,为进一步研究奠定重要的理论基础。1基本概念在信息系统〈U,A〉中,利用信息函数fa在论域U上构造一个关于属性集BA的关系RB,定义为易知,U上的任一等价关系均可以形成U的相应等价划分。把等价关系B形成的等价划分记为PB,或记为商集的形式U/B。本文主要是研究基于数据分类的知识发现,从全局的高度对知识所在的空间进行分析,以找出独立于具体算法的一般性规律。所以,与本文中提到的信息系统对应的论域U是指实际系统在其生命周期内所有可能的全部数据的集合,也称为问题全域。2集合的粒度表示及概念学习2.1集合的粒度表示如果信息系统〈U,A〉的所有基本元都是一元基本元,那么对任意X??U,X均可精确粒度表示。因为对任意s∈X,{s}都是粒度,从而∪s∈X{s}是X的极小精确粒度表示。但是,这些粒度的支持度都是1/|U|,为最小值。一般地,采用基本元来构造一个集合的精确粒度表示,这在实际应用中是没有意义的。实际上,在精确粒度表示中,粒度的支持度越大越好,这会使粒度表示更具一般性和适应性。但是对于大粒度,相应的表示可能无法保证精确,这也是粒度产生的原因之一。因此,需要考虑集合近似的极小粒度表示,这...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?