基于最近邻子空间搜索的两类文本分类方法

基于最近邻子空间搜索的两类文本分类方法#李玉鑑,王影,冷强奎*510152025303540(北京工业大学计算机学院,北京100124)摘要:在文本分类中,最近邻搜索算法具有思想简单、准确率高等优点,但通常在分类过程中的计算量较大。为克服这一不足,本文提出了一种基于最近邻子空间搜索的两类文本分类方法。首先提取每一类样本向量组的特征子空间,并通过映射将子空间变换为高维空间中的点,然后把最近邻子空间搜索转化为最近邻搜索完成分类过程。在Reuters-21578数据集上的实验表明,该方法能够有效提高文本分类的性能,具有较高的准确率、召回率和F1值。关键词:文本分类;最近邻子空间搜索;最近邻搜索中图分类号:TP391Two-classTextCategorizationUsingNearestSubspaceSearchLIYujian,WANGYing,LENGQiangkui(CollegeofComputerScience,BeijingUniversityofTechnology,Beijing100124)Abstract:Thenearestneighborsearchalgorithmisasimplemethodwithhighaccuracyintextcategorization,butusuallyrequiringlargeamountsofcalculationintheclassifyingprocess.Toovercomethisdisadvantage,atwo-classtextcategorizationmethodisproposedbyvirtueofnearestsubspacesearch.Itextractsafeaturesubspacefromsamplesinthesameclass,andmapsittoapointinahigherdimensionalspace,inwhichtheclassifyingprocessiscarriedoutbynearestneighborsearch.ExperimentsonReuters-21578datasetsshowthattheproposedmethodcaneffectivelyimprovetheperformanceofnearestneighborsearchintextcategorization,achievinghigherprecisions,recallrates,andF1values.Keywords:textcategorization;nearestsubspacesearch;nearestneighborsearch0引言文本分类是指用计算机按照一定的标准对文本集自动赋予类别标记,它在信息检索、文本挖掘和舆情分析等领域中具有重要应用,其中涉及文本表示、特征选择、分类模型和评价方法等关键技术[1,2]。目前,比较常用的文本分类器有朴素贝叶斯(NaiveBayes)、支持向量机(SVM)、K最近邻(KNN)[3]等。最近邻方法是KNN的一个特例,基本思想是在训练集中找到测试样本的最近邻样本,然后根据此最近邻样本的类别作出决策。但最近邻方法只根据距离最近原则进行分类,分类精度易受噪声数据的干扰。而且,如果训练集文档数量较大,对新样本分类就需要较大的计算开销,从而导致分类过程较慢。本文利用最近邻子空间搜索[4]的思想可以在一定程度上克服最近邻方法的上述缺点。最近邻子空间搜索是一种新近提出的模式分析方法,已在模式识别、机器视觉和统计学[5,6]关数据的重要信息,再把这组向量映射成高维空间中的点,最后再通过高维空间中的最近邻方法解决所涉及的问题。子空间在计算机视觉和模式识别中是一种常用的信息表示方法。例---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---习等领域获得了成功应用。它的基本思想是选择一组向量构成的子空间来表示同类或相基金项目:国家自然科学基金(NO.61175004);北京市自然科学基金(No.4112009);北京市教委科技发展项目(NO.KZ201210005007);高等学校博士学科专项科研基金(No.20121103110029)作者简介:李玉鑑,(1968-),男,教授,模式识别与机器学习。E-mail:liyujian@bjut.edu.cn-1----本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---如,在计算机视觉领域中,子空间常常用来表示不同光照、视角和空间变化下的物体特征。当一幅(或多幅)给定的查询图像被表示为高维空间中的点(或子空间)时,就可能需要从一个子空间数据库中搜索与其最近的子空间。而解决相关问题的一种有效方法就是最近邻子4550556065空间搜索。本文的目的是将最近邻子空间搜索的思想应用于文本分类领域,大体思路如下:首先用向量表示文本,用子空间表示文本的类别特征信息,然后把类别子空间和查询向量映射为高维空间中的点,最后利用最近邻算法完成分类过程。最近邻子空间搜索的本质是在高维空间中用最近邻点搜索计算与查询向量距离最近的类别子空间。由于实际上只需要计算高维空间中的向量距...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?