文本自动分类中的动态类别扩展研究

文本自动分类中的动态类别扩展研究摘要:提出基于粗糙集理论的动态类别扩展算法,可以根据新文献与已有训练规则的匹配程度,有效地进行新类别的自动扩展和新分类规则的自动生成,从而屏蔽训练集和分类规则的更新等问题。??关键词:文本自动分类;粗糙集;动态类别扩展??:TP391.1文献标志码:A:1001-3695(2007)05-0074-03文本自动分类是指在给定的分类体系下,根据文献的内容自动判别文献类别的过程[1~3]。文本自动分类采用分类思想组织文献,不仅符合人们的思维习惯和应用习惯,而且需求资源较少,操作简单,能够适应大规模文本处理的要求。20世纪90年代以来,机器学习方法已经广泛应用于文本自动分类研究。基于机器学习的文本自动分类已成为当前机器学习、信息检索和自然语言处理领域最活跃的研究主题之一。??基于机器学习的文本自动分类包括两个基本过程,即分类知识训练和新文献分类预测。分类知识训练是指应用分类算法从一个包含一定数量的已经进行分类标记的文献集合(即训练集)中获得分类知识;新文献分类预测则是运用训练得到的分类知识对训练集之外的文献进行分类预测。??在文本自动分类中,训练集是相对固定的,一般不可能代表所有新文献包含的主题。随着系统中新文献的不断加入,原来训练得到的分类知识对新文献的分类预测能力会变得越来越低。人们一般采取定期或不定期更新训练集,再重新训练分类器的方法来解决这一问题。但是,这种方法不仅会增加训练时间,而且会造成分类知识的不一致性,从而导致整个分类系统中文献分类结果不一致,影响系统的检索性能。??粗糙集理论产生于1982年,是一种处理知识模糊性和不确定性的数学工具。到目前为止,粗糙集理论已经广泛应用于股票分析、地震预报、知识发现、医疗诊断、过程控制和图像处理等领域。其基本思想是在保持分类能力不变的前提下,通过知识约简,导出分类规则。在分类任务中,粗糙集方法不需要先验知识,能够以较低的计算时间推导出易于理解和验证的分类规则。粗糙集理论从知识分类的角度来研究对象之间和概念之间的关系,与文本自动分类原理非常吻合。因此,近来年,基于粗糙集理论的文本自动分类研究受到越来越多的关注。研究表明,基于粗糙集理论的文本自动分类方法具有较好的发展前景,还有待进一步的深入研究与推广应用[4~8]。??1粗糙集基本理论??根据粗糙集理论及其属性约简算法,可以有效地推导出用于文本自动分类的分类规则。但是,在分类规则应用于新文献的分类预测过程中,随着新文献的不断加入,分类规则与新文献主题的不匹配矛盾会变得越来越突出。近似分类规则和匹配方法的改进不能从根本上解决这个问题。另外,它们会导致分类的准确率降低,以及分类准确性不可预测性提高。例如下面两种情况:①如果新文献在分类规则中能够找到至少一条的匹配规则,但是匹配相关值较小,那么分类预测结果的正确率就会受到较大的影响;②如果新文献在分类规则中根本找不到匹配规则,那么文献类别就变得不可预测。最常用的办法是将其归为出现频率较高的类别。很显然,这种方法不能保证预测的准确性。需要指出的是,本文不讨论基于粗糙集理论的分类规则推导算法,具体研究是在假设分类规则已经推导出的情况下。有关基于粗糙集理论的规则推导算法请参考文献[10]。??2动态类别扩展算法??与平面分类法相比,层次体系结构分类法的类别自动扩展相对比较复杂。事实上,平面分类法可以看做是层次体系结构分类法的一种特例。因此,重点讨论层次体系结构分类法的类别自动扩展问题。层次体系分类法的类别分布呈树状结构。其中每个类别都可以看做是树上的一个节点,每个类别的上位类是其代表节点的父节点,下位类是其代表节点的子节点,同位类是指代表节点的兄弟节点。实验数据集(CWT)由北京大学网络实验室提供,包括??15605个网页文本。该数据集主要用于测试网页自动分类方法的性能。表1描述了该数据集的训练集和测试集的划分情况。图1描述了CWT数据集的层次体系结构。??对于层次体系分类法,类别自动扩展算法主要解决两个问题:①建立创建新类别的标准,即判断在分类系统应用过程中,什么状态下可以创建新类别;②如何确定...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?