基于联合提取特征的粗糙集文本分类技术研究

基于联合提取特征的粗糙集文本分类技术研究摘要:重点研究了文本的特征提取,通过对互信息和χ??2统计的研究,根据其各自的缺陷,提出了一种新的特征提取算法――联合特征提取算法(CEFA)。通过CEFA可以提取出更具代表性的特征项,利用粗糙集优越的约减性构造文本分类系统,提取决策规则,对文本进行分类。实验表明该方法分类准确度较高。关键词:文本分类;粗糙集;互信息;χ??2统计;联合提取特征:TP391文献标志码:A:1001-3695(2007)07-0097-02Internet容纳了海量的各种类型的源信息。随着Internet的飞速发展,越来越多的人使用网络来查找有用的信息。如何在海量的信息中获得有价值的模式与知识是当前数据挖掘的主要目标[3]。搜索引擎是目前从网络获取有价值信息的重要途径,然而目前的搜索引擎大部分都基于关键字进行查找,返回的信息大部分与目标信息无关。文本分类的目标是在分析文本内容的基础上,为每个文本分配一个比较合适的类别,从而提高搜索引擎的查准率。??1粗糙集理论??粗糙集理论是波兰华沙理工大学Pawlak教授于1982年提出的,它不需要任何先验信息,能够有效地分析和处理不完备、不一致、不精确的数据,已经在知识获取、规则提取、机器学习、决策分析、模式识别、数据挖掘等领域获得了广泛的应用。利用粗糙集进行文本分类会涉及粗糙集的决策表、属性约减等知识。??1.1不可分辨关系与决策表??条件属性C和决策属性D的等价关系??IND??(C)和??IND??(D)的等价类分别称为条件类和决策类。在文本分类中,从文本提出的特征词用做规则的前提条件;文本所属的类别用做规则的决策。????1.2决策表的属性约简与规则的化简??属性约简是粗糙集理论处理信息系统的重要手段。它在保持信息系统分类能力不变的前提下,导出问题的决策或分类规则。??(P),则称Q是P??的一个绝对约简。??决策表约简步骤如下:??(1)进行条件属性的简化,即从决策表中消去某些列;??(2)消去重复的行;??(3)消去属性的冗余值。??决策表的简化就是化简决策表中的条件属性。化简后的决策表具有化简前的功能,但具有更少的条件属性,化简的结果可以作为文本分类的规则。??2文本分类的关键技术??构成文本词汇的数量是相当大的,因此,表示文本的向量空间的维数也相当大,可以达到几万维,如何用最少的词汇即特征词来表示文本是提高文本分类效率的关键。当前特征词的提取方法有信息增益、互信息、χ??2统计等。??2.1互信息??互信息被普遍地应用于相关词统计语言建模中[2]。其计算公式如下:??2.3联合特征提取新算法??上述分析表明互信息与χ??2统计在一定程度上存在互补性。在特征提取时互信息可能会滤掉那些有用的但??P(W|C??i)??相等时的高频词;而χ??2可能会滤掉那些有用的低频词。因此,本文提出了一种联合特征提取的方法――CEFA(CombinedExtractFeaturesAlgorithm)。它具备了互信息与χ??2统计的优点,用以提高文本表示质量。其算法描述如下:??(1)分别使用互信息和χ??2统计计算各词的权重。??(2)将各算法计算出来的权重按权重的大小排序。??(3)在各权重数组中取前??N+n项(假定取N个特征词),并求出这两个数组中的交集,交集的个数为K。??(4)若K=N,转(7);若K<N,转(6);若K>N,转(5)。??(5)n=n-1,转(3)。??(6)n=n+1,转(3)。??(7)结束。????3基于粗糙集的文本分类系统??3.1构建决策表??将特征项集合作为规则的条件属性集,文本所属的类别作为决策表的决策属性集,进而可以构建如表1所示的决策表。??3.2基于粗糙集的文本分类规则提取过程??基于粗糙集理论并结合文本特征提取的新算法CEFA的文本分类系统处理过程如图1所示。??(1)从语料库中选取训练文本,每个文本由人工标上唯一的类别标志;??(2)对训练文本进行分次,用上述联合方法进行特征提取,提取出关键词;??(3)将特征项的权值进行离散化处理;??(4)构造决策表,以关键词向量集为决策表的条件属性集,文本所属的类别集为决策表的决策属性集;??(5)利用上面提到的决策表属性约简方法,对条件属性进行约简,并输出规则。??3.3模式评价??模式评价采用分类正确率的评估方法,其内容是...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?