基于SAX的时间序列相似性度量方法

的时间序列相似性度量方法*基于SAX李桂玲1a,2,王元珍2,杨林权1b,吴湘宁1a(1.中国地质大学a.计算机学院;b.信息工程学院,武汉430074;2.华中科技大学计算机科学与技术学院,武汉430074)摘要:符号化表示是一种有效的时间序列降维技术,其相似性度量是诸多挖掘任务的基础。基于SAX(sym-bolicaggregateapproximation)的距离MINDIST_PAA_iSAX不满足对称性,在时间序列挖掘中具有局限性,提出了对称的度量Sym_PAA_SAX,且下界于欧拉距离。在真实数据集和合成数据集上的实验说明下界紧密性较好,相似搜索错报率较低。关键词:时间序列;降维;相似性度量;下界A:文献标志码::1001-3695(2012)03-0893-04TP311doi:10.3969/j.issn.1001-3695.2012.03.025ResearchonsimilaritymeasureforeriesbasedonSAXLIGui-ling1a,2,WANGYuan-zhen2,YANGLin-quan1b,WUXiang-ning1a(1.a.SchoolofComputerScience,b.SchoolofInformationEngineering,ChinaUniversityofGeosciences,Wuhan430074,China;2.SchoolofAbstract:Symbolicapproximationisaneffectivedimensionalityreductiontechniqueforeries,itssimilaritymeasureisabasisforvariousminingtasks.MINDIST_PAA_iSAXisadistancefunctionbasedonsymbolicaggregateapproximation(SAX),butitdoesnotsatisfysymmetry,soithaslimitationinminingeries.Thispaperputforwardandprovedasym-metricdistancemeasureSym_PAA_SAXtobelowerboundingtoEuclideandistance.Experimentsonrealandsyntheticdatasetsshowitsbettertightnessoflowerboundingandlowerfalsepositivesrateinsimilaritysearch.序列作降维处理,进行近似表示。代表性的时间序列的近似表0引言示有分段聚集近似(piecewiseaggregateapproximation,PAA)[3]、分段线性近似(piecewiselinearapproximation,PLA)[4]、符号聚时间序列是指随着时间的先后顺序而变化的一系列数据,是一类多维的复杂类型数据,目前广泛地存在于金融、科学、工程、医疗等领域。例如某股票某段时间内的开盘价和收盘价的走势、就医者的心电图数据、网络监控中的网络流量、自然现象观测中的大气、温度、风、地震等数据,均是时间序列。近年来,时间序列数据的挖掘吸引了越来越多研究者的关注,相似性度量是其中的一个重要子问题。所谓相似性度量是指如何衡量时间序列之间的相似性和相似程度,合理的相似性度量是相似搜索、聚类、分类、异常检测、主题发现等诸多挖掘任务的基础。对于原始时间序列,经典的相似性度量有欧拉距离(Eu-clideandistance,ED)[1]和动态时间弯曲(dynamictimewarping,DTW)[2]两种。欧拉距离使用广泛,优点是公式简单、易于快速计算,但对噪声很敏感,不能处理不等长序列,不能捕捉具有伸缩性或弯曲的相似模式。动态时间弯曲可处理不等长序列,允许序列的偏移和扭曲,但计算的时间代价较大。由于时间序列数据具有海量、高维的特性,研究者对时间集近似(SAX)[5]、可索引符号聚集近似(indexableSAX,iSAX)[6]、扩展的符合聚集近似(extendedSAX,ESAX)[7]、分段线性聚集近似(piecewiselinearaggregateapproximation,PLAA)[8]、无限长时间序列的分段线性拟合(infiniteeriespiecewiselinearfitting,ITSPLF)[9]等。基于时间序列的近似表示提出了相应的距离公式。Keogh等人基于PAA表示提出DR[3]和LB_PAA[10],Lin等人[5]基于SAX提出MINDIST,兰妥等人[11]基于ESAX提出ESAX统计向量空间法的相似性度量,Huang等人[8]在PLAA基础上提出基于子段均值和最佳拟合直线的斜率距离公式,Shieh等人[6]基于iSAX提出MINDIST_PAA_iSAX。符号化表示是一种有效的离散化的时间序列降维方法。SAX和iSAX均是允许降维和支持下界的简单高效的符号表示法。研究发现,MINDIST_PAA_iSAX是一种不对称的距离函数,在时间序列的挖掘中具有局限性。本文基于SAX表示,提出一种新的距离度量Sym_PAA_SAX。Sym_PAA_SAX考虑相收稿日期:2011-08-24;修回日期:基金项目:湖北省自然科学基金资助项目(2009CDB226);中央高校基本科研业务费专2011-10-09项资金资助项目(CUGL100243)作者简介:...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?