不均衡数据分类算法的综述_陶新民

不均衡数据分类算法的综述_陶新民Vol.25No.1第25卷第1期重庆邮电大学学报(自然科学版)2013年2月JournalofChongqingllniversityofPostsandTelecommunications(NaturalScienceEdition)Feb.2013DOI:10.3979/j・issn.1673-825X.2013.01.017不均衡数据分类算法的综述陶新民,郝思媛,张冬雪,徐鹏(哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨150001)摘要:传统的分类方法都是建立在类分布大致平衡这一假设基础上的,然而实际情况中,数据往往都是不均衡的。因此,传统分类器分类性能通常比较冇限。从数据层面和算法层面对国内外分类算法做了详细而系统的概比较了多种不平衡分类算法在6个不同数据集上的分类性能,发现改进的分类算法在整体述。并通过仿真实验,性能上得到不同程度的提高,最后列出了不均衡数据分类发展还需解决的一些问题。关键词:不均衡数据;改进算法;分类性能中图分类号:TP391文献标识码:A825X(2013)01-0101-10文章编号:1673・OverviewofclassificationalgorithmsforunbalanceddataTAOXinmin,HAOSiyuan,ZHANGDongxue,XUPeng(CollegeoflnformationandCommunicationEngineering,HarbinEngineeringUniversity,HarbinlSOOOl,P.R.China)Abstract:Traditionalclassificationmethodsarebasedontheassumptionthatthetrainingsetsarewell-balanced,however,inrealcasethedataisusuallyunbalaneed,andtheclassificationperformanceofthetraditionalclassificationisalwaysre-stricted.Adetailedoverviewofdomesticandforeignclassificationalgorithmsfromthedatalevelandalgorithmlevelispro-videdinthispaper.Andthroughsimulationexperimentstocomparetheclass讦icationperformanceofavarietyofunbal-ancedclassificationalgorithmonsixdifferentdatasets,itisfoundthattheimprovedclassificationalgorithmhasvaryingde-greesofimprovementforovera11performanee.Thepaperconcludeswithalistofproblemswhichneedsolvingforthedevel-opmentofunbalanceddataclassification.Keywords:unbalanceddata;improvedapproaches;class讦icationperformance0引言全事故;把癌症病人误诊为正常,将会延误最佳治疗对病人造成生命威胁;将故障误判为正常,导时机,致故障漏检,有可能引发重大安全事故。因此,在实人们更需要提高少数类样本的分类精度。际应用中,对不均衡样木机器学习的研究已成为目前最热[「2],门的课题之一近年來,一些重要的学术会议都对不均衡样本分类进行了讨论与分析。例如:由美国人工智能协会主办的关于不均衡样本学习的研讨[3]不均衡样本集机器学习的国际会会(AAAI'00),[4]议研讨会(ICML'03),计算机机械专家组主办的[5]知识发现和样本挖掘探索协会(ACMSIGKDD'04)等。这些对不均衡样本学习问题的关注和研讨活动分类问题是数据挖掘领域中重要的研究内容之一。传统的分类方法对平衡数据集分类取得了良好的效果。但实际的数据集往往不平衡,即数据集屮某类的样本数远远大于其他类的样本数冃。对于基于总体分类精度为学习目标的传统分类器而言,这种不均衡势必会导致分类器过多关注多数类样本,从而使少数类样本分类性能下降。而在实际应用中,人们更关心的恰恰是数据集中的少数类,并且错分这些少数类的代价也通常大于多数类,例如,把冇入侵行为判为正常行为,将冇可能造成重大网络安06・07修订日期:2012-10-26收稿日期:2012-基金项冃:国家自然科学基金(61074076);中国博士后科学基金(20090450119);中国博士点新教师基金(2009230412001RFoundationltemsiTheNaturalScienceFoundationofChina^l074076);TheChinaPostdoctoralScienceFoundation(20090405119);TheChinaDoctoralNewTeachersFoundation(200923041200刀•102•重庆邮电大学学报(自然科学版)第25卷促进了该研究领域的快速发展,使得与该领域的有关论文呈明显增长趋势。由于研究该领域的重要性且该领域发展的迅速性,冇必要将该领域近年来的研究成果进行幣理和总结,并对该领域今后的发展提出设想和展望。出了多种改进算法。改进方向主要归纳为以下两另一个是从算法角度O类:一是从数...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?