基于欧式距离的判别分析

基于欧式距离的判别分析唐宇政摘要:分类判别问题在生活中是一个有着重要应用需求的问题。例如根据患者肺部阴影大小,是否低烧以及其它理化指标来判断是否为肺结核患者,或是根据邮件的内容或者发件地址来判断其是否属于垃圾邮件。在现实生活中,我们希望能够准确快速的解决这一类问题,往往需要利用历史数据来建立合理的分类器。因此重点介绍一种常见的基于距离的判别分类方法——欧氏距离判别法。首先在第二部分详细介绍这种分类方法以及将其和另外一种常见的基于马氏距离的判别分类法进行比较。在第三部分,我们将进行实例分析,基于花瓣长度和花瓣宽度利用欧式距离判别法对鸢尾花进行分类。关键词:分类问题;欧式距离;马氏距离:TB:Adoi:10.19311/j.cnki.1672-3198.2019.09.0921背景分类判别是指根据事物的不同点加以区分辨别,确定事物所属的类别,使具有更多相似点的事物归入一类,使之在大量事物中可以根据一定规律快速鉴别各个事物的所属种类。例如国家电网在对居民进行供电时,就可以根据以往的用电量数据对居民的用电情况进行划分,对用电量大的居民相应地收取更多的费用,从而达到促进节约用电的目的。在解决此类问题的过程中需要准确判别个体样本所属的类别,即应该划分的组别。本文中将介绍的是如何通过数学建模来快速准确完成这个分组判别的过程。本文中,我们将使用鸢尾花数据集,对150个鸢尾花数据样本进行分类判别,确定样本属于三种鸢尾花中的哪一种,来实例说明欧式距离判别法在现实生活中的可行性。2分类方法判别分析法,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。常见的判别分析法主要包括基于距离的判别、Fisher判别、Bayes判别。本文主要研究对象是通俗易懂、应用范围广泛的基于距离的判别分析法。2.1基于距离的判别分析距离判别的基本思想是将距离越近的样本分为一类,距离越大的样本分为不同类。这里的距离可以理解为样本之间的相似度,样本间距离越小越相似,反之亦然。在实际操作中,我们可以计算每一个新样本点(类别未知)到历史样本点(类别已知)的距离,然后将新样本的类别预测为于其最相似的历史样本点的类别。亦或者将新样本的类别预测为与其最相似的k(k=1,2,…)个历史样本点中类别最多那一类。通常,在构建模型的过程中,我们仅有大量的历史数据。因此,我们可以随机将历史数据分为训练集和验证集。训练集中的数据相当于历史数据,验证集的数据相当于新的数据。引入训练集、验证集可以在生活中也有一定的应用。例如假如我们需要识别一辆小汽车。那么我们需要有大量的小汽车图片(训练数据),当我们有足够多的数据时,我们就可以对已有的小汽车图片进行分析,找出其共同点。然后我们建立一个模型,说明这些数据都是小汽车的特征数据,从而知道什么是小汽车,具备哪些特征。这时,我们就可以放入已有的其他图片(验证集数据),把这些新图片与原有的模型中的图片进行比对,然后告诉我们哪些是小汽车,哪些不是小汽车。2.2欧式距离判别法本文中,我们以欧式距离作为样本间相似度的度量。欧氏距离是一个通常采用的距离定义,是指在空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维(平面内,用坐标轴来坐标化表示即为x轴、y轴)和三维(立体空间范围内,用坐标轴来坐标化表示即为x轴、y轴和z轴)的范围内欧氏距离就是特定的范围内两个点之间的实际距离。当将样本坐标化放入坐标轴中后,即为两个点之间的连线的长度。例如,样本点包含n个变量,那么第一个样本点A=(x1,x2,…,xn)到第二个样本点B=(y1,y2,…,yn)之间的距离可以表示为:d(x,y):=(x1-y1)2+(x2-y2)2+…+(xn-yn)2=ni=1(xi-yi)2除了欧氏距离,另一种常用的距离是马氏距离。与欧氏距离不同的是,它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的),并且是尺度无关的,即独立于测量尺度。马氏距离的计算需要用到矩阵和协方差矩阵。尽管欧氏距离简单有用,但也有明显的缺点。欧氏距离在代数化过程中忽略了个体的差异,...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?