基于CFS-GA特征选择算法中文网页自动分类

基于CFS-GA特征选择算法中文网页自动分类摘要:为在中文网页分类时降低特征向量的维度、提高分类的精度,采用一种基于关联的特征选择(Correlation^basedFeatureSelection,CFS)与遗传算法(GeneticAlgorithm,GA)相结合的方法进行特征选择.在该算法中,特征子集被当作GA中的一个染色体进行二进制编码;利用CFS启发值作为GA的适应度函数对个体进行评价;CFS值越大的个体遗传到下一代的概率越大•结合GA的全局搜索特性,该算法可保证所得特征子集是全局最优的.利用weka平台,对搜狗实验室提供的中文网页数据集进行实验.结果表明,该算法能有效降低特征空间的维度、提高分类精度.关键词:中文网页分类;特征选择;基于关联的特征选择算法;遗传算法中图分类号:TP393.092;TP183文献标志码:AChineseWebpageclassificationbasedonCFS❷GAfeatureselectionalgorithmYUChunping,HUANGXiaoxia(InformationEngineeringCollegeShanghaiMaritimeUniv.,Shanghai201306,China)Abstract:ToreducethedimensionofthefeaturespaceandimprovetheprecisionofChineseWebpageclassification,amethodbasedonCorrelation^basedFeatureSelection(CFS)andGenetieAlgorithm(GA)isusedintheprocessoffeatureselection.IntheCFS❷GAalgorithm,afeaturesubsetisregardedasachromosomewhichisthenperformedinbinaryencode,andCFSisusedasGA,sfitnessfunctiontoevaluatethechromosome.ThegreatertheCFSvalueis,thegreatertheprobabilitythatindividualsinherittothenextgenerationwillbe・CombiningwithGA,sglobalsearchcharacter,thealgorithmcanensurethatthefeaturesubsetisglobaloptiniuni.ExperimentisdoneonwekaplatformwiththeChineseWebpagedatasetprovided-bytheSougoulab・Theresultshowsthatthisalgorithm-canreducethedimensionofthefeaturespaceeffec-tivelyandimprovetheprecisionoftheclassification・Keywords:ChineseWebpageclassification;featureselection;correlation❷basedfeatureselection;ge^neticalgorithm0引言自进入信息化时代以来,因特网上的网页数量增长迅猛.为了提高信息的检索效率,很有必要对因特网上的一些网页进行分类.尽管目前有Google,Yahoo,搜狐等分类目录式的中文网站目录,但由于其均为人工编纂,效率低下,而且更新速度慢,无法满足当前因特网对信息实时性的要求.[1]因此,网页自动分类的研究对基于内容的信息检索、Web数据挖掘具有深远的意义.中文网页分类一般包括预处理、特征选择和构造分类器等3个阶段.[2]预处理包括文本标记(html标签和JavaScript代码)的处理、分词处理和停用词处理•对中文网页中的海量信息进行预处理后所形成的特征向量的维数高达几万、甚至几十万,这无疑会造成维灾难.这些高维数据中含有大量的噪声以及与类别不相关的信息,用其直接进行分类既降低分类效率又影响分类的精确度,因此特征选择成为中文网页分类中的一项关键技术.[3]特征选择是一个NP难题.[4]按照分类算法评价标准可以将特征选择算法分成两大类:过滤型(filter)和封装型(wrapper)•过滤型不考虑具体的学习算法,而是直接从原始数据出发得到各个特征的贡献评价;封装型则考虑具体的学习算法,由分类器的结果评价特征好坏•过滤型算法可以很快从原始特征集合分类中,遗传算法(GeneticA1gorithm,因其具有全局中选出较优的特征子集,但是该特征子集并不是最小的,且其中还可能含有与类别信息不相关的噪声,从而与后续的分类算法产生较大偏差•封装型算法具有很好的降维效果,选择结果较好,但因其与特定的学习算法有关,特征选择过程耗时较长.[5❷6]常用的文本分类算法有信息增益(IG)、x2统计(CHI)、互信息(MI)和文档频率(DF),其中IG和CHI的性能较好[7❷8].基于关联的特征选择(Correla^tion^>basedFeatureSelection,CFS)作为一种过滤型算法,是以属性与类别之间的相关性以及属性与属性之间的冗余度为衡量依据的[9❷11],该算法虽然具有较好的降维能力,但其所得到的解不一定是全局最优的•在文本搜索特性常被作为一种封装型算法对特征进行降维处理.[12❷14]本文将CF...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?