基于弹性分布数据集的海量空间数据密度聚类

下载本文档

ID 691896
格式 docx
大小 33.37 KB
约6页
收藏
点赞(0)
海报
举报

/ 6

下载本文档

文本预览下载提示常见问题

基于弹性分布数据集的海量空间数据密度聚类摘要：为了快速挖掘大规模空间数据的聚集特性，在cluster_dp密度聚类算法基础上，提出了一种基于弹性分布数据集的并行密度聚类方法PClusterdp.首先，设计一种能平衡工作负载弹性分布数据集分区方法，根据数据在空间的分布情况，自动划分网格并分配数据，使得网格内数据量相对均衡，达到平衡运算节点负载的目的；接着，提出一种适用于并行计算的局部密度定义，并改进聚类中心的计算方式，解决了原始算法需要通过绘制决策图判断聚类中心对象的缺陷；最后，通过网格内及网格间聚簇合并等优化策略，实现了大规模空间数据的快速聚类处理.实验结果表明，借助Spark数据处理平台编程实现算法，本方法可以有效实现大规模空间数据的快速聚类，与传统的密度聚类方法相比具有较高的精确度与更好的系统处理性能.关键词：空间数据；聚类算法；弹性分布式数据集；Spark：TP301.6文献标识码：ADensityBasedClusteringonLargeScaleSpatialDataUsingResilientDistributedDatasetLILuming1，2，激ANGXinhua1，3，LIAOLyuchao1，3（1.SchoolofInformationScienceandEngineering，CentralSouthUniv，Changsha，Hunan410075，China；2.HunanKeyLaboratoryforSpecialRoadEnvironment，ChangshaUnivofScienceandTechnology，Changsha，Hunan410004，China；3.Fu激anKeyLaboratoryforAutomotiveElectronicsandElectricDrive，Fu激anUnivofTechnology，Fuzhou，Fu激an350108，China）Abstract：Thispaperproposedadensitybasedparallelclusteringalgorithmtominethefeatureoflargescalespatialdata.TheproposedPClusterdpalgorithmisbasedontheclusterdpalgorithm.First，weintroducedadataobjectcountbasedRDDpartitionalgorithmforbalancingtheworkingloadofeachcomputenodeincomputingcluster.Second，weredefinedthelocaldensityforeachdatapointtosuittheparallelcomputing.Meanwhile，inordertogetridoforiginalalgorithm'sdecisiongraph，weproposedamethodtoautomaticallydeterminethecenterpointforeachcluster.Finally，wediscussedtheclustermergestratagemtocombinethepartiallyclustereddatatogethertogeneratethefinalclusteringresult.WeimplementedourResilientDistributedDataset（RDD）basedalgorithmonSpark.Theexperimentresultshowsthattheproposedalgorithmcanclusterlargescalespatialdataeffectively，andmeanwhile，themethodhasbetterperformancethanthetraditionaldensityclusteringmethodsandcanachievetherapidclusteringofmassivespatialdata.Keywords：spatialdata；clusteringalgorithm；resilientdistributeddataset；Spark作为数据分析的重要手段之一，聚类分析在空间数据挖掘中扮演重要的角色.空间聚类分析将空间数据按其聚集特性分成若干聚簇，使得位于同一聚簇的数据具有较大的相似性，而位于不同聚簇的数据具有较大的差异性[1].根据不同的指导思想，可将聚类算法分为基于划分的聚类[2]、基于层次的聚类[3]、基于密度的聚类[4]、基于网格的聚类[5]以及基于特定模型的聚类[6].经典划分式算法kmeans[7]与其改进算法kmedoids[8]，kmeans++[9]，通过多次迭代来确定聚簇中心并将数据归类.算法实现简单，但对噪音敏感，对非球形的聚簇的处理效果较差.层次聚类算法BIRCH[10]遵循自顶向下原则，将数据集分层并用树形结构表示.利用CF树作为索引，BIRCH在对数据进行压缩的同时，尽可能保留了数据的聚集特性并减小I/O操作.但CF树的构造策略将较大地影响运算效率，而压缩数据导致BIRCH算法不易发现稀疏数据间的相互关系，无法得到全局最优解.密度聚类算法DBSCAN[11]通过计算数据对象间的距离，获取每个数据对象的邻域内邻居的聚集特性，根据邻域内的对象数目定义核心点、密度可达、密度相连等相关概念.进而，通过密度可达与密度相联过滤数据稀疏的区域，发现稠密点.基于DBSCAN算法的聚类质量较好，可以较好地避免“噪声”数据的干扰，发现任意形状的聚簇.但DBSCAN的效果依赖领域半径与最小核心点数的选择，算法调试困难.OPTICS[12]算法能减...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供参考，付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等，请点击“举报”。