一种基于PCA的组合特征提取文本分类方法

计算机应用研究ApplicationResearchofComputers一种基于PCA的组合特征提取文本分类方法*李建林1,2(1.南京信息职业技术学院计算机与软件学院,南京210023;2.里贾纳大学计算机科学系,里贾纳S4S0A2,加拿大)摘要:为了获得更好的文本分类准确率和更快的执行效率,研究了多种WEB文本的特征提取方法,通过对互信息(MI)、文档频率(DF)、信息增益(IG)和χ2统计(CHI)算法的研究,利用其各自的优势互补,提出一种基于主成分分析(PCA)的多重组合特征提取算法(PCA-CFEA);首先通过PCA算法的正交变换快速的将文本特征空间降维,再通过多重组合特征提取算法在降维后的特征空间中快速的提取出更具代表性的特征项,过滤掉一些代表性较弱的特征项,最后使用SVM分类器对文本进行分类;实验结果表明PCA-CFEA算法能有效的提高文本分类的正确率和执行效率。关键词:基于PCA的组合特征提取算法(PCA-CFEA);主成分分析;特征提取;文本分类;中国分类号:TP391文献标识码:A文章编号:AcombinationoffeatureextractionintextclassificationalgorithmbasedonPCALIJian-lin1,2(1.NanjingCollegeofInformationTechnologyDepartmentofComputer&Software,Nanjing210023,China;2.UniversityofReginaDepartmentofComputerScience,ReginaS4S0A2,Canada)Abstract:Inordertoobtainabettertextclassificationaccuracyandfasterexecutionefficiency,studyavarietyofWEBtextfeatureextractionmethod,basedonthemutualinformation(MI),documentfrequency(DF),informationgain(IG)andx2Statistics(CHI)algorithm,throughusingoftheircomplementaryadvantages,proposedacombinationsoffeatureextractionalgorithmbasedonprincipalcomponentanalysis(PCA-CFEA).First,bytheorthogonaltransformationofthePCAalgorithmtofasterdimensionalityreductionofthetextfeaturespace;Thenthroughthemultiplecombinationfeatureextractionalgorithminthelowerdimensionoffeaturespacefastextractmorerepresentativeofthefeature,filteroutsomerepresentativeweakfeatureitems;Finally,usingtheSVMclassifiertoclassifythetext.TheexperimentalresultsshowthatPCA-CFEAalgorithmcaneffectivelyimprovetextclassificationaccuracyandrunningefficiency.Keywords:CombinedfeatureextractionalgorithmbasedonPCA(PCA-CFEA);Principalcomponentanalysis;Featureextraction;Textclassification;0引言Internet上蕴含着海量的各种类型的原始资源信息,随着Internet技术和应用的快速发展,越来越多的人使用网络来查找对自己有用的信息;如何在大量的信息源中获得有价值的模式与知识是当前WEB数据挖掘的主要目标[1]。Web文本分类是Web数据挖掘的一个重要研究课题,其主要思想是根据Web文本内容,利用从已知类别的网页集中学习到的知识,自动对一个待识别网页予以一个类别标识。文本分类时,通常用向量空间模型(SVM)表示文本,即以一组词条作为属性的向量构成的特征向量空间。文本的原始特征向量空间包含全部的词条属性,具有高维性、稀疏性的特点。但并不是所有属性对分类决策都有贡献,冗余的属性不但对决策的结果无任何贡献,反而会降低决策的执行效率。提高属性集的充分、必要性以及降低属性间的相关性是提高文本向量空间中模式的可分性以及分类效率的重点[2],这就需要在不降低系统性能的前提下,对高维文本特征属性空间进行有效的降维处理,提取出最佳分类特征属性集合。目前,文本特征提取主要是在特征文档矩阵的基础上采用某种特征评估函数对每个特征词进行评估,通过设定阈值保留一定数量的特征来完成的,收稿日期:2012-12-12基金项目:江苏省2010年度青蓝工程骨干教师资助项目(项目编号:苏教2010-16);作者简介:李建林(1974-),男,湖南洪江市人,副教授、高级工程师,计算机与软件学院副院长,国家示范性(骨干)院校项目重点建设专业(软件技术)项目组副组长,加拿大里贾纳大学高级访问学者,中国计算机学会会员(E200016559M),主要研究方向:数据挖掘、软件技术、教学管理,E-mail:lijl@njcit.cn。计算机应用研究现有的特征选择函数主要有文档...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?