计算机应用研究ApplicationResearchofComputers一种基于PCA的组合特征提取文本分类方法*李建林1,2(1.南京信息职业技术学院计算机与软件学院,南京210023;2.里贾纳大学计算机科学系,里贾纳S4S0A2,加拿大)摘要:为了获得更好的文本分类准确率和更快的执行效率,研究了多种WEB文本的特征提取方法,通过对互信息(MI)、文档频率(DF)、信息增益(IG)和χ2统计(CHI)算法的研究,利用其各自的优势互补,提出一种基于主成分分析(PCA)的多重组合特征提取算法(PCA-CFEA);首先通过PCA算法的正交变换快速的将文本特征空间降维,再通过多重组合特征提取算法在降维后的特征空间中快速的提取出更具代表性的特征项,过滤掉一些代表性较弱的特征项,最后使用SVM分类器对文本进行分类;实验结果表明PCA-CFEA算法能有效的提高文本分类的正确率和执行效率。关键词:基于PCA的组合特征提取算法(PCA-CFEA);主成分分析;特征提取;文本分类;中国分类号:TP391文献标识码:A文章编号:AcombinationoffeatureextractionintextclassificationalgorithmbasedonPCALIJian-lin1,2(1.NanjingCollegeofInformationTechnologyDepartmentofComputer&Software,Nanjing210023,China;2.UniversityofReginaDepartmentofComputerScience,ReginaS4S0A2,Canada)Abstract:Inordertoobtainabettertextclassificationaccuracyandfasterexecutionefficiency,studyavarietyofWEBtextfeatureextractionmethod,basedonthemutualinformation(MI),documentfrequency(DF),informationgain(IG)andx2Statistics(CHI)algorithm,throughusingoftheircomplementaryadvantages,proposedacombinationsoffeatureextractionalgorithmbasedonprincipalcomponentanalysis(PCA-CFEA).First,bytheorthogonaltransformationofthePCAalgorithmtofasterdimensionalityreductionofthetextfeaturespace;Thenthroughthemultiplecombinationfeatureextractionalgorithminthelowerdimensionoffeaturespacefastextractmorerepresentativeofthefeature,filteroutsomerepresentativeweakfeatureitems;Finally,usingtheSVMclassifiertoclassifythetext.TheexperimentalresultsshowthatPCA-CFEAalgorithmcaneffectivelyimprovetextclassificationaccuracyandrunningefficiency.Keywords:CombinedfeatureextractionalgorithmbasedonPCA(PCA-CFEA);Principalcomponentanalysis;Featureextraction;Textclassification;0引言Internet上蕴含着海量的各种类型的原始资源信息,随着Internet技术和应用的快速发展,越来越多的人使用网络来查找对自己有用的信息;如何在大量的信息源中获得有价值的模式与知识是当前WEB数据挖掘的主要目标[1]。Web文本分类是Web数据挖掘的一个重要研究课题,其主要思想是根据Web文本内容,利用从已知类别的网页集中学习到的知识,自动对一个待识别网页予以一个类别标识。文本分类时,通常用向量空间模型(SVM)表示文本,即以一组词条作为属性的向量构成的特征向量空间。文本的原始特征向量空间包含全部的词条属性,具有高维性、稀疏性的特点。但并不是所有属性对分类决策都有贡献,冗余的属性不但对决策的结果无任何贡献,反而会降低决策的执行效率。提高属性集的充分、必要性以及降低属性间的相关性是提高文本向量空间中模式的可分性以及分类效率的重点[2],这就需要在不降低系统性能的前提下,对高维文本特征属性空间进行有效的降维处理,提取出最佳分类特征属性集合。目前,文本特征提取主要是在特征文档矩阵的基础上采用某种特征评估函数对每个特征词进行评估,通过设定阈值保留一定数量的特征来完成的,收稿日期:2012-12-12基金项目:江苏省2010年度青蓝工程骨干教师资助项目(项目编号:苏教2010-16);作者简介:李建林(1974-),男,湖南洪江市人,副教授、高级工程师,计算机与软件学院副院长,国家示范性(骨干)院校项目重点建设专业(软件技术)项目组副组长,加拿大里贾纳大学高级访问学者,中国计算机学会会员(E200016559M),主要研究方向:数据挖掘、软件技术、教学管理,E-mail:lijl@njcit.cn。计算机应用研究现有的特征选择函数主要有文档...