基于Hadoop的SVM并行化文本分类研究与实现

基于Hadoop的SVM并行化文本分类研究与实现吴泽伦,郑岩**5(北京邮电大学计算机学院,北京100876)摘要:支持向量机(SVM)已成为一种非常流行的分类工具,但支持向量机算法的主要缺点是当它处理的数据集规模很大时需要较大内存和训练时间非常长。为了加快SVM的训练速度,本文提出了一种基于hadoop的并行化SVM训练方法,设计和实现SVM并行化的过10程中最需要考虑的数据集如何划分和如何进行迭代两个问题。并且通过文本分类实验对比了并行化的SVM和单机模式下SVM的分类精度以及SVM训练时间,实验结果表明,这种并行化训练方式可以在不会明显降低SVM分类准确率的前提下有效提高SVM的训练速度。关键词:支持向量机;Hadoop;文本分类中图分类号:TP391.415ResearchandImplementonparallelSVMTextClassificationBasedonHadoopWUZelun1,ZHENGYan2(1.ComputerSchool,BeijingUniversityofPostsandTelecommunications,Beijing100876;20252.ComputerSchool,BeijingUniversity,Beijing100876)Abstract:SupportVectorMachine(SVM)hasbecomeapopularclassificationtoolbutthemaindisadvantagesofSVMalgorithmsaretheirlargememoryrequirementandcomputationtimetodealwithverylargedatasets.TospeeduptheprocessoftrainingSVM,thispaperpresentsaparallelSVMtrainingmethodbasedonhadoop,designsandimplementsmostneedtoconsiderofSVMparallelizationprocess--howtodividethedatasetandhowtoiterate.AndbytextclassifcationexperimentscomparingtheparallelSVMandstand-alonemodeSVMclassificationaccuracyandSVMtrainingtime,theexperimentalresultsshowthatthisparallelismcanimproveSVMtrainingspeedandwillnotsignificantlyreducetheSVMclassificationaccuracy.Keywords:SVM;Hadoop;TextClassifcation300引言随着信息技术的发展,网络信息量迅速增加,文档分类成为处理和组织大量文档数据的关键技术。在数字图书馆中,对数字文本进行准确高效的分类是保证数字资源被全面检索和充分利用的基础。文本分类是文本处理领域的重要研究内容之一,其任务就是在预先给定的3540分类模型下,系统在学习各类的训练文档的基础上,根据文本的内容让计算机自动判断、预测未知类文档的类别。文本分类技术已经应用于信息检索、信息抽取、信息过滤、数据组织、网上信息快速定位等多个领域。常用的文本分类方法有K2近邻(K2NN)方法、朴素贝叶斯(NaiveBayes)方法、支持向量机(SVM)方法和决策树方法(DecisionTree)等。其中支持向量机(SVM)对文本分类的精度最高,但当文本数据规模很大时,SVM需要很大的内存并且训练时间也非常长[1]。为了加快SVM的训练速度,并行化的SVM训练算法被提了出来。作者简介:吴泽伦(1990-),男,学生,数据挖掘通信联系人:郑岩(1970-),女,副教授,数据仓库、数据挖掘、知识发现,智能决策.yanzheng@bupt.edu.cn-1-传统的并行化SVM训练算法都是将原始的训练样本集划分成若干个子训练样本集然后对每个子训练样本集同时训练支持向量,并把各个支持向量机结合起来得到最终分类器[2]。但是这种并行化方式由于数据集划分的随机性容易在训练子训练样本集时漏掉全局的支持455055向量,从而降低了分类精度。本文提出一种横向迭代方式通过不断对原始训练样本进行新的划分,使每次迭代过程中每个子节点上的数据集都与上次不同,这样可以有效避免数据集划分对寻找全局支持向量的影响。1支持向量机支持向量机是在统计学习理论的基础上发展起来的一种机器学习方法,它基于结构风险最小化原理,将原始数据集合压缩到支持向量集合,学习得到分类决策函数。其基本思想是:根据结构风险最小化的原理[3],对一个给定的具有有限数量训练样本的学习任务,如何在高维空间中寻找一个超平面作为两类的分割,以保证最小的错误率。考虑如图1所示的二维线性可分情况,图中实心点和空心点分别表示两类训练样本,SVM的目的就是要找出最优分类线H,使得分别过两类样本中离分类超平面最近的点且平行于分类线的H1,H2之间的距离最大。图1最优超平面示意图设线性可分的样本集(xi,yi),i1,2,...l,xRn,y{...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?