基于弹性分布数据集的海量空间数据密度聚类

基于弹性分布数据集的海量空间数据密度聚类摘要:为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并分配数据,使得网格内数据量相对均衡,达到平衡运算节点负载的目的;接着,提出一种适用于并行计算的局部密度定义,并改进聚类中心的计算方式,解决了原始算法需要通过绘制决策图判断聚类中心对象的缺陷;最后,通过网格内及网格间聚簇合并等优化策略,实现了大规模空间数据的快速聚类处理.实验结果表明,借助Spark数据处理平台编程实现算法,本方法可以有效实现大规模空间数据的快速聚类,与传统的密度聚类方法相比具有较高的精确度与更好的系统处理性能.关键词:空间数据;聚类算法;弹性分布式数据集;Spark:TP301.6文献标识码:ADensityBasedClusteringonLargeScaleSpatialDataUsingResilientDistributedDatasetLILuming1,2,激ANGXinhua1,3,LIAOLyuchao1,3(1.SchoolofInformationScienceandEngineering,CentralSouthUniv,Changsha,Hunan410075,China;2.HunanKeyLaboratoryforSpecialRoadEnvironment,ChangshaUnivofScienceandTechnology,Changsha,Hunan410004,China;3.Fu激anKeyLaboratoryforAutomotiveElectronicsandElectricDrive,Fu激anUnivofTechnology,Fuzhou,Fu激an350108,China)Abstract:Thispaperproposedadensitybasedparallelclusteringalgorithmtominethefeatureoflargescalespatialdata.TheproposedPClusterdpalgorithmisbasedontheclusterdpalgorithm.First,weintroducedadataobjectcountbasedRDDpartitionalgorithmforbalancingtheworkingloadofeachcomputenodeincomputingcluster.Second,weredefinedthelocaldensityforeachdatapointtosuittheparallelcomputing.Meanwhile,inordertogetridoforiginalalgorithm'sdecisiongraph,weproposedamethodtoautomaticallydeterminethecenterpointforeachcluster.Finally,wediscussedtheclustermergestratagemtocombinethepartiallyclustereddatatogethertogeneratethefinalclusteringresult.WeimplementedourResilientDistributedDataset(RDD)basedalgorithmonSpark.Theexperimentresultshowsthattheproposedalgorithmcanclusterlargescalespatialdataeffectively,andmeanwhile,themethodhasbetterperformancethanthetraditionaldensityclusteringmethodsandcanachievetherapidclusteringofmassivespatialdata.Keywords:spatialdata;clusteringalgorithm;resilientdistributeddataset;Spark作为数据分析的重要手段之一,聚类分析在空间数据挖掘中扮演重要的角色.空间聚类分析将空间数据按其聚集特性分成若干聚簇,使得位于同一聚簇的数据具有较大的相似性,而位于不同聚簇的数据具有较大的差异性[1].根据不同的指导思想,可将聚类算法分为基于划分的聚类[2]、基于层次的聚类[3]、基于密度的聚类[4]、基于网格的聚类[5]以及基于特定模型的聚类[6].经典划分式算法kmeans[7]与其改进算法kmedoids[8],kmeans++[9],通过多次迭代来确定聚簇中心并将数据归类.算法实现简单,但对噪音敏感,对非球形的聚簇的处理效果较差.层次聚类算法BIRCH[10]遵循自顶向下原则,将数据集分层并用树形结构表示.利用CF树作为索引,BIRCH在对数据进行压缩的同时,尽可能保留了数据的聚集特性并减小I/O操作.但CF树的构造策略将较大地影响运算效率,而压缩数据导致BIRCH算法不易发现稀疏数据间的相互关系,无法得到全局最优解.密度聚类算法DBSCAN[11]通过计算数据对象间的距离,获取每个数据对象的邻域内邻居的聚集特性,根据邻域内的对象数目定义核心点、密度可达、密度相连等相关概念.进而,通过密度可达与密度相联过滤数据稀疏的区域,发现稠密点.基于DBSCAN算法的聚类质量较好,可以较好地避免“噪声”数据的干扰,发现任意形状的聚簇.但DBSCAN的效果依赖领域半径与最小核心点数的选择,算法调试困难.OPTICS[12]算法能减...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?