基于KNN的失衡数据集动态阈值剪枝方法

基于KNN的失衡数据集动态阈值剪枝方法#李鹏,孙渤禹,黄久玲*(哈尔滨理工大学计算机科学与技术学院,哈尔滨150080)510152025摘要:本文提出了基于KNN动态阈值样本剪枝的分类算法来处理支持向量机(SVM)在失衡数据集上的分类问题。由于数据集中复杂性和混叠的现象会影响SVM分类器的分类性能和泛化能力,又因为失衡数据集中正例与反例的失衡比很大,相比反例来说,正例的信息比较重要,因此本文提出基于KNN的失衡数据集动态阈值剪枝算法,根据正例与反例设置不同的阈值来确定分类样本取舍。该算法有效地提高SVM分类器处理失衡数据集的分类效果。关键词:失衡数据集;KNN分类;支持向量机;聚类;剪枝;动态阈值中图分类号:TP391.4ImbalancedDataSetsBasedonKNNDynamicThresholdPruningMethodLIPeng,SUNBoyu,HUANGJiuling(ComputerScienceandTechnologySchool,HarbinUniversityofScienceandTechnology,Harbin150080)Abstract:ThispaperpresentsthepruningclassificationalgorithmbasedontheKNNdynamicthresholdsampletohandlesupportvectormachine(SVM)ontheimbalancedatasetclassificationproblems.BecausethedatasetcomplexityandaliasingphenomenonwillaffecttheclassificationperformanceoftheSVMclassifierandgeneralizationability,butalsobecauseoftheimbalanceinthedatasetpositiveexamplesandnegativeexamplesofimbalanceratio,comparedtothenegativeexamples,positiveexamplesoftheinformationismoreimportant,ThereforeputforwardbasedonKNNdynamicthresholdpruningalgorithmimbalancedatasets,Accordingtothepositiveexamplesandnegativeexamplessetdifferentthresholdstodeterminethetrade-offsoftheclassificationofsamples.ThealgorithmeffectivelyimprovetheSVMclassifierhandlingimbalancedatasetsclassificationresults.Keywords:imbalancedatasets;KNNclassification;supportvectormachine;clustering;pruning;dynamicthreshold300引言随着全球信息科技迅速发展,计算机、数据收集设备和数据存储设备都可以收集到各个领域的大量的数据信息,这些数据信息供人们进行事物管理,信息检索以及数据挖掘任务等。然而在收集的数据信息中往往存在大量失衡数据,如财务预测、地球科学、生物医学、网络3540入侵检测、信用卡欺诈检测和医疗检测等,因此如何利用各类算法对失衡数据进行处理已经成为数据挖掘领域的热点话题。所谓失衡数据是某一数据集中通常有一类的样本数量占据了总体样本的很大一部分,这类数据样本被称为负例样本(负类),而只占总体样本的小部分的样本则被称为正例样本(正类)。失衡数据集普遍地存在人们的工作生活中。例如,医疗诊断、癌症检测,利用检测数据诊断病人是否患有癌症,因为在真实数据中人们健康的人数[1]---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---要比患有癌症的人数多很多。欺诈检测,如,信用卡、保险、电信等,信用卡非法交易监基金项目:教育部高等学校博士点专项基金(20102303120005);黑龙江省研究生创新科研项目(YJSCX2012-126HLJ)作者简介:李鹏(1978-),男,教授,主要研究方向:网络信息处理,机器学习,人工智能.pli@hrbust.edu.cn-1----本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---问题中,得到非法交易记录是目标,但训练数据中包含大量正常的信用卡交易记录,只有很少的一部分是非法交易记录欺诈的非法行为[2]。生物学领域,如蛋白质的检测[3]。企业破产[4]近年来失衡数据集的分类问题成为了数据挖掘和机器学习的热点问题之一。Hadi4550556065SadoghiYazdi和AdelGhazikhani等人提出了基于支持向量数据描述(SupportVectorDataDescriptionSVDD)的改进过采样技术处理数据,过采样的支持向量使用KNN分类器对失衡数据进行分类,通过该方法与其他四个采样方法即SMOTE、边缘SMOTE、随机过采样和分类抽样的方法进行比较,得出此方法的可行性[7]。Gregory采用增量式学习的算法来解决不稳定环境下的类别失衡问题[8]。Claudia则采用贝叶斯向量量化的方法...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?