基于商空间理论的非平衡数据集分类算法:1001-9081(2012)01-0210-03doi:10.3724/sp.j.1087.2012.00210摘要:在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即qmsvm算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(svm)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行smote采样,最后把上述得到的两类样本合并进行svm学习,这样来实现学习数据集的再平衡处理,从而得到更加合理的分类超平面。实验结果表明,和其他几种算法相比,所提算法虽在正确分类率上有所降低,但较大改善了g_means值和acc+值,且对非平衡率较大的数据集效果会更好。关键词:非平衡数据集;商空间理论;支持向量机;过采样;qmsvin算法:tp311.13文献标志码:aabstract:theapplicationofdataclassificationisusuallyconfrontedwithaproblemnamedimbalanceddatasetinthemachinelearning,toimprovetheperformanceofimbalanceddatasetclassification,theover-samplingclassificationalgorithmbasedonientspacetheory(qmsvm)wasproposed,thealgorithmpartitionedmajoritydataonclusteringstructure,andcombinedtheresultsandminoritydataforlinearsupportvectormachine(svm)learning,supportvectorsandsampleoffaultofmajoritydatawereobtainedfromthosegranules,ontheotherhand,supportvectorsandsampleoffaultofminoritydatawereobtainedandthesyntheticminorityover-samplingtechnique(smote)wasadopted,thus,twonewkindsofsamplesweremergedforsvmlearning,soastorebalancethetrainingsetandgetamorereasonableclassificationofhyperplanes.theexperimentalresultsshowthat,incomparisonwithseveralotheralgorithms,theaccuracyoftheproposedalgorithmdecreases,butitsignificantlyimprovesthegmeansvalueandclassificationaccuracyofpositivesandtheeffectisbetterontheimbalancerateoflargerdatasets.keywords:imbalanceddataset:ientspacetheory;supportvectormachine(svm);over-sampling;qmsvmalgorithmo引言非平衡数据集的分类问题是机器学习和模式识别领域中新的研究热点,是对传统算法的极大考验,解决它对于完善机器学习体系、提出新的机器学习思想具有很高的理论和应用价值。非平衡数据集是指数据集中某些类的样本比其他类多很多,样本多的类为多数类(即负类),样本少的类为少数类(即正类)[1]。然而,现实世界中非平衡数据集分类问题随处可见,如疾病诊断、医疗图像中肿瘤识别、信用卡欺诈检测等。这些问题中的少数类样本信息比多数类样本信息还要重要得多,但传统分类器往往把少数样本忽略导致重要信息丢失。目前国内外学者对非平衡数据集问题的研究已取得大量成果,提出了不同的处理方法,其主要成果表现在两大方面,那就是算法层面和数据处理层面。算法层面上主要是改进算法提高性能,如文献[2]在支持向量机(supportvectormachine,svin)基础上,通过优化参数改进svm在非平衡数据集上的性能;wu等也对支持向量机方法进行了改进[3];文献[4]在mpm(minimaxprobabilitymachine)模型基础上,提出了bmpm(biasedminimaxprobabilitymachine)模型来处理非平衡数据的问题。数据处理层面上主要是过采样和欠采样,如文献[5]中,采用smote(syntheticminorityover-samplingtechnique)算法人工构造少数类样本来增加正类样本的数量;文献[6]中,通过粒度对多数类样本压缩减少负类样本的数量,从而减少数据失衡程度,这样压缩很容易使富含重要信息数据丢失。本文在基于商空间理论的支撑背景下,对非平衡学习数据集进行再平衡过程,提出一个新的过采样分类算法。商空间理论是张铃教授和张铉院士[7]提出的。商空间理论模型用三元组(x,f,t)描述一个问题,其中:x表示问题的论域;f()表示论域的属性,可用函数f:x—y表示;t为论域结构,指论域x中各元素的相互关系。分析或求解问题(x,f,t)即对论域x及其有关的结构、属性进...