一种基于方差的文本特征选择算法

2012年6月June2012计算机工程ComputerEngineering第38卷第12期Vol.38No.12·人工智能及识别技术·文献标识码:A文章编号:1000—3428(2012)12—0155—03中图分类号:TP312一种基于方差的文本特征选择算法袁轶,王新房(西安理工大学自动化与信息工程学院,西安710048)摘要:中文文本分类中传统特征选择算法在低维情况下分类效果不佳。为此,提出一种结合方差思想的评估函数,选出具有较强类别信息的词条,在保证整体分类性能不下降的同时,提高稀有类别的分类精度。采用中心向量分类器,在TanCorpV1.0语料上进行实验,结果表明,该方法在低维空间优势明显,与常用的文档频率、信息增益等9种特征选择算法相比,宏平均值均有较大提高。关键词:文本分类;特征选择;方差;类别信息;宏平均TextFeatureSelectionAlgorithmBasedonVarianceYUANYi,WANGXin-fang(SchoolofAutomation&InformationEngineering,Xi’anUniversityofTechnology,Xi’an710048,China)【Abstract】Theeffectivenessoftraditionalfeatureselectionmethodisnotgoodwhenfeaturedimensionislow.Anewmethodbasedonvarianceisproposedtosolvethisproblem.Thisapproachcanselectclassinformationwordsinordertomaintaincategorizationaccuracyandimprovetheperformanceofrareclasses.ThispapergivesacomparativeanalysisbetweenthenewmethodandothertraditionalfeatureselectionmethodssuchasDocumentFrequency(DF),InformationGain(IG),MutualInformation(MI),Chi-squareStatistics(CHI),etc.ExperimenttakesRocchioastheevaluationclassifier.ExperimentalresultsonTanCorpV1.0corporashowthatthenewfeatureselectionVarianceFeatureSelectionMethod(VFSM)outperformsthetraditionaloneswhenusingmacro-averaged-measuresF1.【Keywords】textcategorization;featureselection;variance;classinformation;macro-averaged-measuresDOI:10.3969/j.issn.1000-3428.2012.12.0461概述文本分类是根据给定文本的内容,将其判别为事先确定的若干类别中某一类或某几类的过程。文本分类大致包括文本表示、特征选择、分类器、评价4个部分。目前,人们通常采用向量空间模型(VectorSpaceModel,VSM)来描述文本向量,即使少量的文档也可以提取出成千上万的特征,而许多分类器处理高维问题的能力有限,如何有效地提取代表性的文本特征、去除冗余特征项是文本分类技术提高分类精度需要解决的关键问题。文本的特征提取一般分为特征选择和特征抽取两大类,前者是从原有的特征中提取出少量具有代表性的特征,但特征的类型没有变化;后者是在原有特征基础上重构新的特征。虽然特征选择在语义表达方面不如特征抽取具有优势,但由于其计算复杂性低,非常适合大规模语料库的训练,因此在特征降维中得到广泛应用。特征选择算法的基本思想是构造一个评价函数,对特征集的每个特征进行评估。每个特征项都有一个评估值,然后按照评估值的大小进行降序排列,根据阈值或预定数目选取最具代表性的特征作为最终的文本表示。目前常用的特征选择方法有:文献[1]中的文档频率(DocumentFrequency,DF)、信息增益(InformationGain,IG)、卡方统计(Chi-squareStatis-tics,CHI)、互信息(MutualInformation,MI)、期望交叉熵(ECE)等,以及文献[2]中的低损降维法(LLDR)和频率差法(RFD)。这些常用特征选择方法大体存在以下问题:(1)低维时同一分值的特征项可能有许多,从而只能随机删除分值相同但位置靠后的特征,造成信息损失。(2)对于多类别分类问题,类别间样本的分布情况会对特征选择造成影响,如属于某些类的样本过少,导致类间有“大”、“小”之分。文献[3]提出选择特征在全部序列中的最高值或对所有类求平均值作为全局排序。这会使大多数方法此时倾向于选择携带“大”类别信息的特征,造成“小”类别固有的信息不足,致使其分类效果明显较差。(3)常用特征选择函数存在各自的缺点和不足,如DF计算复杂度低,但其容易忽视某一稀有却能很好反映类别的特征;IG的不足在于它考虑了特征未出现的情况,因此倾向于高频词的IG在数据分布不均衡时未能获得好的分类效果[4-5...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?