SIMCA分类法中主成分分析算法的研究

SIMCA分类法中主成分分析算法的研究龙草芳摘要:模式识别是研究用计算机模拟人的识别能力,对不同类型形式的数据进行描述、分类、识别等有关的理论和方法。SIMCA方法是基于主成分分析之上的一种模式识别方法,本文对SIMCA分类法中主成分分析的算法进行了比较研究,并在MATLAB中进行了模拟和结果比较。关键词:模式识别;SIMCA分类法;主成分分析:R965;O6204文献标识码:A:1007-9416(2017)04-0145-021基于主成分分析的SIMCA分类法[1]SIMCA(SoftIndependentModelingClassAnalog)是由瑞典化学家Wold于1976年提出的一种基于主成分分析(PCA,Principalcomponentanalysis)的分类方法。它利用先验分类知识,对每一种类别建立一个PCA模型,然后利用这些建立的模型判断未知样本的归属。SIMCA方法是通过F检验设定分类的置信区间,针对每个类,其F检验的两个维度的自由度分别为:(M-A)和(n-A-1)(M-A),其中M为变量数(变量数对每类应该是一样的),A为该类的有效主成分数,n为该类的样本数。对化学测量来说,一般样本数n都远远小于测量变量数M,为使每个维度的自由度大于0,请注意样本数、变量数和选择的主成分数之间的关系。1.1原理SIMCA方法是一种建立在主成分分析基礎上的模式识别方法,其基本思路是先利用PCA分析建立每个类别的模型,然后计算未知样本与PCA模型的距离,根据距离判别方法判别分析,以确定其属于哪一类或不属于哪一类。1.2计算过程SIMCA方法的计算过程流程图如图1所示,通过图示过程,可以看出SIMCA分类法是多次使用主成分分析方法,首先利用PCA分析得到整个样本的分类,然后,为每一个类建立PCA模型,最后用它们来判别未知样本的类别。从上述讨论可知,在整个SIMCA方法的计算过程中,每一类样本进行了主成分建模,因此主成分分析方法对结果起决定作用。2主成分分析主成分分析(Principalcomponentsanalysia)是由Hotelling于1933年首先提出的。PCA是将多个指标的数据进行降维化为少数几个指标的一种方法,它在尽可能保留原有信息的基础上将样本指标数压缩,使数据矩阵简化,降低维数,由少数几个原始变量线性组合的“有效”特征成分来揭示数据结构特征,提取主要信息。2.1主成分分析基本原理人们在对具体事物进行研究时,为了更详细全面的了解事物的特性,常常会涉及到多指标问题,为获取可靠信息,往往考虑尽可能相关的多个指标去观测,而在实际问题中多指标也增加了问题的复杂度,指标之间总是有一定的相关性及信息重叠,我们希望用较少的指标反映事物的特征。基于此,就产生了主成分分析,主成分分析是通过分析可观测的指标,提取几个较少的综合指标以揭示原来变量绝大多数信息的一种多元统计方法[2,3,4]。综上所述,利用PCA得到的主成分与原始变量的关系可以归结如下:(1)每一个主成分都是原始变量的线形组合(2)主成分的数目明显小于原始变量的数目(3)主成分带有原始变量的大部分信息(4)各主成分之间互不相关。2.2主成分分析算法[5-14]2.2.1特征值分解对数据进行预处理,得到矩阵X,又通过计算得到协方差矩阵Z,最后根据协方差矩阵得到特征值和特征矢量,这种计算过程称为特征值分解方法。计算过程在MATLAB语言环境中,用一个语句[V,D]=eig(X)就可得到特征值对角阵D和满秩正交矢量阵V,且XV=VD。2.2.2奇异值分解奇异值分解是另一种对数据矩阵进行求解的方法,它更稳定用途广泛。利用MATLAB语言对数据矩阵Xnm作奇异值分解,[U,S,V]=svd(X),可得式中,U、S和V的大小分别为n×r、r×r和m×r,且U′U=Ir×r,V′V=Ir×r,X′X=VS2V′,XX′=US2U′。与下节中的X=TP相比,可知T=US,P=V′且λ=S2,即实数矩阵的特征值等于相应奇异值的二次方。由于svd性能优异且表示简洁,已被广泛采用。2.2.3NIPALS法计算主成分的方法还有非线性迭代偏最小二乘法(nonlineariterativepartialleastsquires,NIPALS)。这一方法以所需计算机内存少、易于实现著称。以对m个变量的n次观测值组成一个矩阵为例X=假定Xn×m的秩为r[r<p>这些秩为1的矩阵Zh,可以表示为两个向量的外积[其中向量之一称为得分向量(score),维数为n;另一向量称为载荷向量(loading...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?