面向云计算数据管理技术探究摘要:该文首先对云计算的定义及云计算中数据管理技术进行了介绍,之后深度剖析了当前互联网主流云数据管理系统的基本原理,最后指出了云数据管理领域的主要研究方向。并对目前存在的问题与未来研究热点进行了探讨,为进一步的研究提供依据。关键词:云计算;资源管理;云存储;分布式计算中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)13-3209-03DataManagementTechnologyforCloudComputingWANGChengl,ZHAOBi-fang2(1.WellsFargoBank,WestDesMoines,50266,USA;2.ASDIInc,WestDesMoines,50266,USA)Abstract:Firstly,thedefinitionofcloudcomputingandcloudcomputing,datamanagementtechniqueswereintroduced,thedepthofanalysisofcurrentInternetmainstreamcloudthebasicprinciplesofdatamanagementsystems,andconcludedthatthemainresearchdirectionsofthecloudthefieldofdatamanagement・AndtheexistingproblemsandfutureresearchfocusarediscussedtoprovideabasisforComputing)、分布式计算(DistributedComputing)、效用furtherresearch.Keywords:cloudcomputing;resourcemanagement;cloudstorage;distributedcomputing云计算(CloudComputing)是网格计算(Grid计算(UtilityComputing)、并行计算(ParallelComputing)、负载均衡(LoadBalance)、虚拟化(Virtualization)、网络存储(NetworkStorageTechnologies)等传统技术发展融合的产物,是目前比较流行的名词[H2]o广义上的云计算指通过计算机网络以易扩展、按需的方式获得所需服务,主要是指服务的使用与交付模式[4],服务可以是其他服务。通过以上陈述,笔者认为,狭义云计算是指以网络为媒介,通过按需、易扩展的方式从而能获得所需要的资源,即IT基础设施的交付和使用模式[3]o云计算主要包括以下三个层次服务:(1)软件即服务(SaaS);(2)平台即服务(PaaS);(3)基础设施即服务(IaaS)[5]。由于云技术需要有大量的用户参与其中,这就会造成诸多隐私问题。譬如用户参与涉及到收集部分用户数据,势必会引发用户数据安全问题,很多使用者会担心自身的隐私会被云技术收集从而暴露。因此,很多厂商都在加入云计划的同时均会表示尽量避免收集用户的安全隐私,若不慎收集到也不将此泄露甚至使用,给他人造成不便。但在实际情况中仍有不少人质疑厂商的承诺,这是因为仍有不少知名厂商在此期间都被指责有可能泄露用户隐私,且泄露事件也确有其事。1云数据管理研究现状1.1GoogleFileSystem文件系统(GFS)Google有一套自身专属的云计算平台,该平台是为Google提供最重要的搜索应用提供服务,目前已扩展到其他应用程序[6-7]。Google的云计算基础架构模式包括4个相互独立又紧密结合在一起的系统:GoogleF订eSystem分布式文件系统,针对Google应用程序的特点提出的MapReduce编程模式,分布式的锁机制Chubby以及Google开发的模型简化的大规模分布式数据库BigTableo除了性能,可伸缩性、可靠性以及可用性以外,GFS设计还受到Google应用负载和技术环境的影响。图1给出了GoogleFileSystem的系统架构[8]o1.2MapReduce分布式编程环境Google简化分布式系统的编程是通过构造MapReduce编程规范来实现的。程序员只需将注意力放在应用程序本身,由平台来处理关于集群的处理问题(包括可扩展性与可靠性)[9-10]oMapReduce运算基本单元通过"映射”和“化简”来构成,用户只需提供自己的Map函数以及Reduce函数即可并行处理海量数据。图2给出了MapReduce执行过程,该过程分为Map和Reduce两个阶段,在两个阶段之间还有一个中间的分类阶段,即将中间结果包含相同的l<ey的中间结果交给同一个Reduce函数去执行,另外两个阶段都使用了集群中的所有节点[11-12]o图1GoogleFileSystem的系统架构图2MapReduce处理程序的执行过程1.3分布式的大规模数据库管理系统BigTable由于有部分的Google应用程序需要对大量的格式化或半格式的化数据进行有效处理,Google构建了大规模数据库系统Big?Table,该系统有弱一致性要求。BigTable的应用包括Maps,Orkut,SearchHistory,RSS阅读器等。BigTable数据库系统的数据模型如图3[13]。数据模型所有的数据...