kmeans聚类算法的研究全解

k-means聚类算法的研究1.k-means算法简介1.1k-means算法描述给定n个对象的数据集D和要生成的簇数目k,划分算法将对象组织划分为k个簇(k<=n),这些簇的形成旨在优化一个目标准则。例如,基于距离的差异性函数,使得根据数据集的属性,在同一个簇中的对象是“相似的”,而不同簇中的对象是“相异的”。划分聚类算法需要预先指定簇数目或簇中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数收敛时,得到最终聚类结果。这类方法分为基于质心的(Centroid-based)划分方法和基于中心的(Medoid-based)划分方法,而基于质心的划分方法是研究最多的算法,其中k-means算法是最具代表和知名的。k-means算法是1967年由MacQueen首次提出的一种经典算法,经常用于数据挖掘和模式识别中,是一种无监督式的学习算法,其使用目的是对几何进行等价类的划分,即对一组具有相同数据结构的记录按某种分类准则进行分类,以获取若干个同类记录集。k-means聚类是近年来数据挖掘学科的一个研究热点和重点,这主要是因为它广泛应用于地球科学、信息技术、决策科学、医学、行为学和商业智能等领域。迄今为止,很多聚类任务都选择该算法。k-means算法是应用最为广泛的聚类算法。该算法以类中各样本的加权均值(成为质心)代表该类,只用于数字属性数据的聚类,算法有很清晰的几何和统计意义,但抗干扰性较差。通常以各种样本与其质心欧几里德距离总和作为目标函数,也可将目标函数修改为各类中任意两点间欧几里德距离总和,这样既考虑了类的分散度也考虑了类的紧致度k-means算法是聚类分析中基于原型的划分聚类的应用算法。如果将目标函数看成分布归一化混合模型的似然率对数,k-means算法就可以看成概率模型算法的推广。k-means算法基本思想:(1)随机的选K个点作为聚类中心;(2)划分剩余的点;(3)迭代过程需要一个收敛准则,此次采用平均误差准则。(4)求质心(作为中心);(5)不断求质心,直到不再发生变化时,就得到最终的聚类结果。k-means聚类算法是一种广泛应用的聚类算法,计算速度快,资源消耗少,但是算法与初始选择有关系,初始聚类中心选择的随机性决定了算法的有效性和聚k-means类的精度,初始选择不一样,结果也不一样。其缺陷是会陷于局部最优。1.2k-means算法实现步骤个对象,每个对象代表一个聚类算法的处理流程如下:首先,随机选择kk-means簇的初始均值或中心;对剩余的每个对象,根据其与各簇中心的距离,将它指派到最近(或最相似)的簇,然后计算每个簇的新均值,得到更新后的簇中心;不断重复,直到准则函数收敛。通常,采用平方误差准则,即对于每个簇中的每个对象,求对象到其中k个结果簇尽可能地紧凑和独立。心距离的平方和,这个准则试图生成的1.2.1k-means聚类算法的形式化描述k-means算法:Dn个数据对象的数据库输入:聚类个数k,以及包含k个聚类输出:满足方差最小标准的处理流程:k个对象作为初始聚类中心;从n个数据对象任意选择Step1根据簇中对象的平均值,将每个对象重新赋给最类似的簇;Step2更新簇的平均值,即计算每个簇中对象的平均值;Step3直到每个聚类不再发生变化为止。Step2到Step3Step4循环聚类算法的具体步骤1.2.2k-means()1)Functionk-means个对象的数据集及簇的数目输入:包含n2)个簇的集合输出:k3),…,{1,2l∈{1,2,…,k},}w,…,w,其中w=i,j∈{w4)初始化k个簇中心,l2k1jn}w中相对应使每一个聚类C与簇中心5)jjrepeat6)do{1,2,…,n}for每一个输入向量i,其中l∈7)l**w所属的聚类C分配给最近的簇中心8)将ijlj*))1,2,…,k∈(—|≦|iw|),j—(即|iwjlljk},…,∈{1,2,其中for每一个聚类Cj9)jw??i|C|中所有样本的中心点,即将簇中心更新为当前的C10)jic?jljjlE计算准则函数11).12)UntilE不再明显地改变或者聚类的成员不再变化1.2.3相关定义(1)两个数据对象间的距离:①明氏距离(MinkowskiDistance)p?1/qq)-x)?(||x,d(xx)(公式1jkikij1?kxx,x,…,x)是两个p维的数据对象并且,…,x)和x=(i≠j。这里的x=(,xjpjij1j2i1ipi2②欧式距离(EuclideanDistance)当明氏距离中q=2时,公式1即欧式距离。p?1/22)||...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?