基于最大最小距离法的多中心聚类算法

基于最大最小距离法的多中心聚类算法第26卷第6期2006年6月计算机应用ComputerApplicationsVo1.26No.6June2006:1001—9081(2006)06—1425—03基于最大最小距离法的多中心聚类算法周涓,熊忠阳,张玉芳,任芳(重庆大学计算机学院,重庆400030)(zhouzhoucqu@126)摘要:针对k-means算法的缺陷,提出了一种新的多中心聚类算法.运用两阶段最大最小距离法搜索出最佳初始聚类中心,将原始数据集分割成小类后用合并算法形成最终类,即用多个聚类中心联合代表一个延伸状或者较大形状的簇.仿真实验表明:该算法能够智能地确定初始聚类种子个数,对不规则状数据集进行有效聚类,聚类性能显着优于k-means算法.关键词i聚类;最大最小距离法;多中心;抽样:TP311.13文献标识码:AMultiseedclusteringalgorithmbasedonmax-mindistancemeansZHOUJuan,X[ONGZhong—yang,ZHANGYu—fang,RENFang(CollegeofComputer,ChongqingUniversity,Chongqing400030,China)Abstract:Anovelmuhiseedclusteringalgorithmwasproposedaimingatshortcomingsofk-meansalgorithm.Thisalgorithmcouldfindoptimalinitialstartingpointsapplyingiterativemax—mindistancemeansandthencombinedthesmallclustersfromgivendatasetintofinalones,foranelongatedOrlargedustercouldbeconsideredastheunionofafewsmalldistincthyperspheriealclusters.Experimentalresultsdemonstratethattheimprovedalgorithmcanautomaticallyobtainthenumberofinitialclusters,beeffectiveondatasetofirregularshapesandleadtobettersolutionsthank-meansalgorithm.Keywords:clustering;max—mindistancemeans;multiseed;sampling0弓l言k—means算法属于聚类…技术巾一种基本的划分方法,具有简单,快速的优点.然而这种算法对初值的依赖性很强,初值选取的不同往往导致聚类结果相当不稳定.其次,它是基于目标函数的聚类算法,一般都采用梯度法求解极值.由于梯度法的搜索方向总是沿着能量减小的方向进行,因此当初始聚类中心选择不当时,算法极易陷入局部极小点.近几年来人们提出了多种改进和优化的方法.文献[3]考虑了类结构中的多种对称性质,提出了一种改进的基于类对称的距离量度,可以有效发现超球面以外的具有较对称形状的簇.文献[4]采用多次取样数据集两次聚类以获取最优初值的思想,有效地解决了k-means算法对初始值的选择具有较大依赖性的问题.文献[5]采用了多中心代表的思想,将多个种子点分配给一个类,用一棵最小生成树体现了非凸面形状簇的伸长方向.k-means算法的基本思想是由一些初始点或者代表点开始,每个簇均围绕着一个聚类中心分配对象.所有基于中心的聚类方法都存在着两个普遍的问题:一个是如何选择合适的初始聚类种子;另一个是这些方法只适合发现球状簇,面对延伸状的簇或者大小差别很大的簇无能为力本文提出的基于最大最小距离法的多中心聚类算法(MuhiseedClusteringAlgorithm,MCA)将主要解决这两方面的问题,其中心思想是:任何一个延伸状或者较大形状的簇都可以看成是一些独立的超球面簇的结合.因此任何一个延伸状或者较大形状的簇就可以用多个聚类中心来联合代表.该算法采用多次抽样两阶段最大最小距离法的思想,将最大最小距离法和k-means有机结合,暂时将较大的簇或延伸的簇分成若干个小类,最后通过小类合并算法形成最终类.1最大最小距离法的基本思想最大最小距离法是模式识别领域中的一种基于试探的算法,思想是取尽可能离得远的对象做为聚类中心,避免了k-means算法初值选取时可能出现的聚类种子过于邻近的情况,不仅智能地确定初始聚类种子的个数,而且提高了划分初始数据集的效率.1)有J7,r个对象,S={Z,z:,…,z}.2)任取一个对象,例如z.,把z作为第一个类的中心,从集合S中找出到z.距离最大的对象作为z.3)对S中剩余对象z,分别计算到Z.z的距离.令其中较小的那个为D4)计算maxS{.}.若maxS{.}》m×[average(I一zI)],则取z为新的聚类中心.m通常取(可1≤m《1).5)重复同样的处理,直到再找不到符合条件的新的聚类中心.设样本规模为|7\,,每次寻找新的聚类中心时,很明显式3)要进行|7\,次距离计算.若共找到个聚类中心,则算法结束时共进行的计算次数为:一.最大最小距离法的...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?