数据流管理和挖掘技术探析(大庆石油学院计算机与信息技术学院,黑龙江大庆163318)摘要:数据流管理和挖掘技术是数据库领域的新研究方向之一。概述了数据库技术的发展趋势以及数据流的概念、特点、体系结构、应用领域,分析了数据流概要数据结构的构造问题和数据流的连续近似查询技术,最后介绍了数据流挖掘技术。旨在描述数据流管理和挖掘技术的发展概况,为进一步的研究提供有益的借鉴。??关键词:泛数据;数据流;概要数据结构;连续近似查询;数据流挖掘??中图法分类号:TP391文献标识码:A:1001-3695(2006)08-0085-04??TechnologyofDataStreamManagementandMining??MARuimin,WANGXiaolong??(CollegeofComputerInformationTechnology,DaqingPetroleumInstitute,DaqingHeilong激ang163318,China)??Abstract:Theresearchondatastreamisoneofthehottopicsamongthedatabasedomainallovertheworldresently.Firstly,thetrendofdatabasetechnologyissummarized,andconcepts,characteristics,architecture,applicationsofdatastreamareoutlined.Second,somemethodsofconstructingsynopsisdatastructureareanalyzedconcisely,thetechnologyofcontinuousapproximatequeryisanalyzedsummarily.Finally,theresearchondatastreamminingisanalyzed.Theobjectiveofthispaperistocontributetotheoverallunderstandingofthetechnologiesavailableformanagingandminingdatastreams.??Keywords:Pandata;DataStream;SynopsisDataStructure;ContinuousApproximateQuery;DataStreamMining近年来,数据库领域出现了众多的新技术,如数据流管理和挖掘、XML数据管理和分析、对等(P2P)数据管理、Web数据管理和挖掘、网格数据管理、移动数据管理、DBMS自适应管理、数据库用户界面、文本挖掘、空间―时间数据库、微小型数据库、生物信息数据库、数字图书馆、数据安全以及OneHundredYear存储技术等。Dr.激mGray在ACMSIGMOD2004年会的主题发言中提到,数据库体系结构面临着变革,新的应用需求将促进这一变革的实现[1]。特别地,Internet的发展对数据库的研究起到了革命性的推动作用:从深度上,在Internet环境下,传统数据库管理技术的基本假设不再成立,需要对已经比较成熟的传统数据库技术进行变革;从广度上,数据库领域内出现的众多新问题要求研究者不断地创新求解。在Web背景下,有学者提出了泛数据[2]的概念。所谓的泛数据,是指相对于传统的关系数据库系统(RDBMS)等处理的企业业务数据而言的,它包括如下两方面内容:(1)Xdata。XMLData(XMLDatabases),StreamingData(dataStreams,StreamingDatabases),etc.。??(2)Xcomputing。GridData(GridDatabases),SensorData(SensorDatabases),Ubiquitous/PervasiveComputing(Ubiquitous/PervasiveDatabases),P2PComputing(P2PDatabases),etc.。??1数据流和数据流管理系统??最近出现了一些新的、动态的密集数据应用环境,如传感器网络数据流、XML数据流、证券交易数据流、网络入侵监测、普适计算、P2P计算数据管理等。典型的实例[3]包括:航天飞机,每秒大约有20000个传感器数据传送到控制中心;美国的50000余种有价证券,每秒可产生100000笔交易数据。??1.1概念、特点与体系结构??(1)概念。连续的、近似无限的、时变的、有序的且快速流动的数据元素组成的无限序列称为数据流(DataStream)。按照固定的次序,这些数据元素只能被读取一次。若令t表示任一时间戳(tamp),xt表示在t时刻到达的数据元素,则数据流可以表示为无限集合{??…,xt-1,xt,xt+1,…??}。位于用户和操作系统之间,能够完成数据流定义、数据流操作、数据流操纵、数据流维护等功能的系统软件称为数据流管理系统(DataStreamsManagementSystem,DSMS)。处理数据流的系统环境统称为数据流系统(DataStreamsSystem,DSS)。??(2)特点:①有序性、连续性、实时(或随时)性,数据有序地、连续地到达并实时地变化;②无限性,大数据量,甚至是无限的数据量,存储所有数据的代价是极大的;③单遍性,由于内存的限制,只能对数据流进行单遍扫描;④概要性,处理数据流数据时,要求构造概要数据结构...