基于商空间理论非平衡数据集分类算法

基于商空间理论的非平衡数据集分类算法:1001-9081(2012)01-0210-03doi:10.3724/sp.j.1087.2012.00210摘要:在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即qmsvm算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(svm)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行smote采样,最后把上述得到的两类样本合并进行svm学习,这样来实现学习数据集的再平衡处理,从而得到更加合理的分类超平面。实验结果表明,和其他几种算法相比,所提算法虽在正确分类率上有所降低,但较大改善了g_means值和acc+值,且对非平衡率较大的数据集效果会更好。关键词:非平衡数据集;商空间理论;支持向量机;过采样;qmsvin算法:tp311.13文献标志码:aabstract:theapplicationofdataclassificationisusuallyconfrontedwithaproblemnamedimbalanceddatasetinthemachinelearning,toimprovetheperformanceofimbalanceddatasetclassification,theover-samplingclassificationalgorithmbasedonientspacetheory(qmsvm)wasproposed,thealgorithmpartitionedmajoritydataonclusteringstructure,andcombinedtheresultsandminoritydataforlinearsupportvectormachine(svm)learning,supportvectorsandsampleoffaultofmajoritydatawereobtainedfromthosegranules,ontheotherhand,supportvectorsandsampleoffaultofminoritydatawereobtainedandthesyntheticminorityover-samplingtechnique(smote)wasadopted,thus,twonewkindsofsamplesweremergedforsvmlearning,soastorebalancethetrainingsetandgetamorereasonableclassificationofhyperplanes.theexperimentalresultsshowthat,incomparisonwithseveralotheralgorithms,theaccuracyoftheproposedalgorithmdecreases,butitsignificantlyimprovesthegmeansvalueandclassificationaccuracyofpositivesandtheeffectisbetterontheimbalancerateoflargerdatasets.keywords:imbalanceddataset:ientspacetheory;supportvectormachine(svm);over-sampling;qmsvmalgorithmo引言非平衡数据集的分类问题是机器学习和模式识别领域中新的研究热点,是对传统算法的极大考验,解决它对于完善机器学习体系、提出新的机器学习思想具有很高的理论和应用价值。非平衡数据集是指数据集中某些类的样本比其他类多很多,样本多的类为多数类(即负类),样本少的类为少数类(即正类)[1]。然而,现实世界中非平衡数据集分类问题随处可见,如疾病诊断、医疗图像中肿瘤识别、信用卡欺诈检测等。这些问题中的少数类样本信息比多数类样本信息还要重要得多,但传统分类器往往把少数样本忽略导致重要信息丢失。目前国内外学者对非平衡数据集问题的研究已取得大量成果,提出了不同的处理方法,其主要成果表现在两大方面,那就是算法层面和数据处理层面。算法层面上主要是改进算法提高性能,如文献[2]在支持向量机(supportvectormachine,svin)基础上,通过优化参数改进svm在非平衡数据集上的性能;wu等也对支持向量机方法进行了改进[3];文献[4]在mpm(minimaxprobabilitymachine)模型基础上,提出了bmpm(biasedminimaxprobabilitymachine)模型来处理非平衡数据的问题。数据处理层面上主要是过采样和欠采样,如文献[5]中,采用smote(syntheticminorityover-samplingtechnique)算法人工构造少数类样本来增加正类样本的数量;文献[6]中,通过粒度对多数类样本压缩减少负类样本的数量,从而减少数据失衡程度,这样压缩很容易使富含重要信息数据丢失。本文在基于商空间理论的支撑背景下,对非平衡学习数据集进行再平衡过程,提出一个新的过采样分类算法。商空间理论是张铃教授和张铉院士[7]提出的。商空间理论模型用三元组(x,f,t)描述一个问题,其中:x表示问题的论域;f()表示论域的属性,可用函数f:x—y表示;t为论域结构,指论域x中各元素的相互关系。分析或求解问题(x,f,t)即对论域x及其有关的结构、属性进...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?