第26卷第5期2011年lO月北京信息科技大学学报JournalofBeijingInformationScienceandTechnologyUniversityV01.26No.5Oct.2011文章编号:1674—6864(201105—0019—06基于云计算的分布式数据挖掘平台架构王小妮l’2,高学东2,倪晓明1(1.北京信息科技大学理学院.北京100192;2.北京科技大学经济管理学院,北京100083摘要:针对互联网上数量众多的网站带宽资源长期浪费或突发资源短缺、响应时间长、服务器宕机、网站受到黑客攻击等问题,“”提出了基于云的分布式web安全系统及基于云计算的分布式数据挖掘平台架构,并在此基础上提出了一种新型的分布式数据挖掘模式,利用云计算技术,可以方便地通过网络获取强大的计算能力和存储能力,将消耗大量资源的复杂计算通过网络路由优化和资源约束自适应策略分布到多节点上进行,然后通过组合不同数据站点上的局部数据模型,最终得到全局数据模型。关键词:云计算;数据挖掘;分布式中图分类号:TP399文献标志码:AArchitectureofdistributeddataminingplatformbasedoncloudcomputingWANGXiao—nil2,GAOXue—don92,NIXiao-min91(1.SchoolofAppliedScience,BeijingInformationScienceandTechnologyUniversity,Beijing100192,China;2.SchoolofEconomicandManagement,UniversityofScienceandTechnologyBeijing。Beijing100083,ChinaAbstract:InordertosolvetheproblemswithmanysitesontheInternetincludinglong-termwasteofbandwidthorunexpectedshortageofresources,longresponsetimes,serverdowntimeandhacker’Sattacksacloud—baseddistributedwebsecuritysystemandthearchitectureofdistributeddataminingplatformbasedoncloudcomputingareputforward.Anewdistributeddataminingmodelisthenproposed.Bycloudcomputingtechnology,computingpower,andstoragecapacitycanbeobtainedeasilythroughnetworkand,andcomplexcalculationconsuminglargeamountofresourcesisdistributedtomulti-nodethroughthenetworkroutingoptimizationandself-adaptivestrategy.Finally,throughacombinationoflocaldatamodelondifferentsites,theglobaldatamodelisobtained.Keywords:cloudcomputingplatform;datamining;distributedO引言随着物联网和无线互联网的飞速发展,传统的IT信息管理系统和计算资源就显得越来越捉襟见肘,需要资源更加强大,灵活性、安全性更高,易于部署而且价格便宜的IT支持,这正是云计…算。云计算恰恰满足了这些需求,恰逢其时地出现了。云计算通常的定义是:云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。从这个定义上讲,可把云计算看成是存储云与计算云的有机结合。存储云对第三方用户公开存储接口,用户通过这个接口可以把数据存储到云。计算云通过并行计算和虚拟化技术给用户提供计算力心J。云计算的出现,给各个行业带来了巨大的发展机遇。而当大家正在讨论各个应用领域如何向首先应用云计算的互联网行业学习云计算部署的时候,互联网行业有可能再一次走到云计算应用的前沿。目前,用户访问的网站大多采用网站托管方式。一个典型的网站用户购买一台服务器,托管在一家IDC(IntemetDataCenter,互联网数据中心,然后根据用户的增长情况购买相应的带宽资源。网络托管流程如图1所示。收稿日期:2011-09—13基金项目:北京市教委科技发展计划面上项目(KM201110772018作者简介:王小妮(1977一。女,山东威海人,讲师。博士研究生,主要从事信息系统安全技术、嵌入式系统研究。万方数据北京信息科技大学学报第26卷用户访问Jr网址上DNS域名解析JrIP地址上服务器图1网络托管流程一个典型的IDC可托管几千个上述的典型网站。IDC为网站提供机房、带宽、管理维护众多的公司,是为互联网提供部分或者全部服务的载体,它的发展促成了互联网行业的整体性发展。国内的IDC一般分为3类:一类是运营商级别的,如网通、电信,以及最近的移动;一类是大型的商业IDC;还有一类是数量众多的小型商业IDC。由于IDC的商业模式是以出售机柜和带宽为主,所以,在这种情况下,每个网站用户都会面l临如下许多问题:1多数情...