基于商空间粒度理论的大规模SVM分类算法

基于商空间粒度理论的大规模SVM分类算法摘要:利用商空间粒度理论对已有的SVM分类算法进行改进,给出了一种新的SVM分类算法――SVM-G。该算法将SVM分类问题划分成两个或多个子问题,从而降低了SVM分类复杂度。实验表明,改进的算法适用于处理大数据量的样本,能在保持分类精度的情况下有效地提高支持向量机的学习和分类速度。关键词:粒度;商空间;支持向量机;分类;机器学习:TP301.6文献标志码:A:1001-3695(2008)08-2299-03Large-scaleSVMclassificationalgorithmbasedongranularityofientspacetheoryWENGui-hua??a,XIANGJun??b,DINGYue-hua??b(a.SchoolofComputerScienceEngineering,b.ResearchInstituteofComputerApplicationEngineering,SouthChinaUniversityofTechnology,Guangzhou510641,China)Abstract:ThispaperimprovedtheexistingSVMalgorithmwiththegranularityoftheientspacetheory,proposedanewSVMalgorithm(SVM-G).TheimprovedalgorithmdividedSVMclassificationproblemintotwoormoresub-issues,therebyreducingthecomputationcomplexityofSVMclassification.ExperimentalresultsindicatethattheimprovedalgorithmissuitableforprocessinglargenumberofobservationsandcaneffectivelyacceleratethespeedsofSVMlearningandclassifyingwhilekeepingtheclassificationprecision.Keywords:granularity;ientspace;SVM(supportvectormachine);classification;machinelearning粒度计算是信息处理的一种新的概念和计算范式[1]。目前,研究得较多且较成熟的一种粒度计算理论是商空间理论[2]。文献[2]提出了基于商空间的问题求解理论,商空间将问题表述成不同的粒度世界,进而进行相应的粒度计算。粒度计算的优点在于使对问题的解决摆脱了一些繁琐且非关键的过程,抓住问题的关键或本质,从适当的层次(粒度)来研究问题,最终可快速获得问题的精确解或近似解[3~5]。支持向量机(SVM)是由Vapnik[6]于20世纪90年代初提出的一种新的机器学习方法。SVM算法利用凸二次规划(quadraticprogramming,QP)、Mercer核、稀疏解和松弛向量等多项技术,具有结构简单、训练误差低和泛化能力好等优点,因而被广泛地应用于分类学习问题中。但是当样本规模较大时,SVM算法在二次寻优过程中需要存储核矩阵和进行大量矩阵运算,使得运算时间过长。目前,改进算法主要有Vapnik等人[7]提出的选块算法、Osuna等人[8]提出的分解算法、Platt[9]提出的序列最小最优化法(sequentialminimaloptimization,SMO)等。以上几种改进算法,虽然有效地改进了SVM分类速度,但仍是对原始样本集进行处理,也即一直是在较精的粒度上进行运算。基于问题求解的商空间理论用可用空间结构来表示样本的结构。本文依据这个理论,将商空间粒度计算应用于SVM分类,采用距离度量空间的手段来解决大规模样本集的SVM分类问题。据此,提出一种基于商空间理论的SVM分类算法(SVM-G),该算法用空间距离表示信息粒度,采用分层递阶的方法,由粗到精地处理样本点。实验表明,该算法对大样本集的分类能在保持训练精度的同时进一步提高训练和分类的速度,具有降低计算复杂度和空间复杂度、适于处理样本数较多的SVM分类问题等优点。1理论准备1.1商空间理论在实际问题求解过程中,随着求解问题的不同,需要不同粒度的世界描述。有时解决某一问题时,同时需要若干不同粒度的世界。商空间理论用三元组??(X,f,T)??描述一个问题。其中:??x??表示问题的论域;??f(?)??是论域属性;??T??是论域的结构,指论域??X??中各元素的相互关系。分析或求解问题??(X,f,T)??是指对论域??X??及其有关的结构、属性进行分析、研究。可以对??X??的大小粒度进行简化,产生一个新的较大粒度的论域??[X]??,那么把原问题??(X,f,T)??变成新的层次上的问题??([X],[f],[T])??,即从较粗粒度??[X]??去考察问题。1.1.1不同粒度世界的描述定义1设??X、Y??是两个集合,??X×Y??是??X??与??Y??的积集,??R??X×Y????。设????(x,y)∈X×Y??,有??(x,y)∈R??,则称??X??与??Y??有关系??R??,记为??xRy??。称??R??为??X×Y??上的一个关系。定义2????x∈X??,令??[x]={y|x~...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?