基于层次自适应的文本分类技术的研究

基于层次自适应的文本分类技术的研究崔冠宁,白中英**(北京邮电大学计算机学院,北京100876)5101520253035摘要:文本分类技术作为一种有效组织信息、方便信息定位的技术,在近十几年获得了长足发展。本文建立了一个基于层次自适应的分类器,来对多层次类别的数据进行分类。在高层训练时根据每类文本数量的不同数量采用随机选取的方法进行数据均匀化,在底层则按比例取文档数据进行训练,分类时采用决策树的方法对文档进行分类得到最终结果。实验结果证明,层次自适应分类比单纯的层次分类结果要好。关键词:文本分类;层次分类;层次自适应;向量空间模型中图分类号:TP391.1RESRARCHOFTHETEXTCATEGORIZATIONTECHNIQUESBASEDONADAPTIVEHIERARCHICALCUIGuanning,BAIZhongying(SchoolofComputer,BeijingUniversityofPostsandTelecommunications,Beijing100876)Abstract:Asaneffectivetechnologyfororganizingandpositioningofinformation,textcategorygainedrapiddevelopmentinthelastdecade.Thispaperestablishesaclassificationbasedonhierarchicaladaptivetothemulti-levelcategoriesofdataclassification.Athigherlevel,amethodofrandomlyselectionaccordingtothenumberofdifferentcategoryisusedfordatahomogenization.Atthelowerlevel,dataischosenproportionally.DecisionTreesmethodisusedtoclassifythedocumenttogetthefinalresult.Experimentalresultsshowthattheadaptivehierarchicalclassificationperformsbetterthansimplyhierarchicalclassification.Keywords:vertical-Belllaboratorylayeredspace-time;adaptivemodulation;loadingalgorithm;powerconstraint0引言随着Internet的大规模普及,Blog,Forum,Microblog等形式应用已经遍布人们生活的各个方面。对于一个人来说,自己的Blog记录的是生活中的点点滴滴,大大小小各个方面。对于ServiceProvider来说,服务器上充斥着各式各样的blog。从而造成信息杂乱。为了快速、准确、全面地查看我们所需要的信息,文本分类成为了有效组织和管理文本数据的重要方式,在信息检索、信息过滤、搜索引擎、文本数据库、数字化图书馆等领域得到广泛的应用。在分类过程中,常常把文档类别看成是处在同一个平面层次上,互不相交的。实际上,现有的绝大多数文档分类系统也是这样处理的[1]。然而,文档类别并不是平等的,而是存在着一定的包含或者合并关系。比如,体育类包含篮球、足球等类,或者说篮球、足球等类可以合并为体育类。这个时候,平坦的分类方式是无法表现这种类别关系的。1相关知识401.1文本分类文本分类是一种典型的有指导的机器学习方法,它按照预先定义的分类体系(即分类模型),找到文本属性(特征)和文本类别之间的关系模型(分类器),分析待定文本的特征,作者简介:崔冠宁,(1989-),男,硕士,主要研究方向:下一代网络技术,移动计算,可信计算。通信联系人:白中英,男,教授,主要研究方向:计算机系统结构;网络安全。bzy66@sina.com-1-K(xi,xj)exp(⋅xi−xj)K(xi,xj)(xi⋅xjcoef0)degreeK(xi,xj)tanh(xi⋅xjcoef0)并与已知类别中文本所具有的共同特征进行比较,然后将待定文本划归为特征最接近的一类并赋予相应的分类号。常用的分类算法有:基于归纳学习的决策树(DecisionTree)分类算法、基于向量空间模型的K近邻(K-NN,K-NearestNeighbor)分类算法、基于概率模型的Bayes45分类算法、神经网络(NeuralNetwork)分类算法、基于统计学习理论的支持向量机(SupportVectorMachine)分类算法等。1.2支持向量机支持向量机(SupportVectorMachines,简称SVM)首次由Vapnik、Boser、Guyon[2]等首次提出,随后Vapnik[3]对其作了详细的分析。SVM的基本的原理[4]是从训练数据中得50到一个使分类间隔最大化的决策超平面作为决策面对待分类数据进行分类。支持向量机在文本分类中的应用获得了广泛的应用。并且在人脸检测、验证和识别、说话人/语音识别、文字/手写体识别、图像处理以及其他应用研究等方面取得了大量的研究成果。1.3核函数为了将支持向量机推广到非线性分类面的情况,Vap...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?