基于预测的Spark动态资源分配策略

下载本文档

ID 1150591
格式 docx
大小 108.29 KB
约14页
收藏
点赞(0)
海报
举报

/ 14

下载本文档

文本预览下载提示常见问题

基于预测的Spark动态资源分配策略梁毅程石帆常世禄刘飞摘要：分布式内存计算平台Spark是海量数据处理领域的最新技术进展。动态资源分配下Spark可根据应用的负载情况动态地追增、关闭任务执行器。然而，关闭任务执行器会造成缓存数据丢失，导致不必要的重计算开销，该情况在Spark交互式数据查询应用中尤为常见。为尽量减少任务执行器关闭以提升查询效率，设计实现一种基于预测的Spark动态资源分配策略。该策略基于马尔科夫理论构建Spark交互式数据查询应用的非活跃期持续时间预测模型，并依据预测结果确定任务执行器的关闭时机。试验结果表明，相比既有的Spark动态资源分配策略，采用基于预测的资源分配策略可使Spark交互式数据查询效率平均提升59.34%。关键词：分布式计算平台;Spark;大数据处理技术;动态资源分配;数据查询DOIDOI：10.11907/rjdk.181493：TP3-05：A：16727800（2018）012004305PredictionbasedDynamicResourceAllocationStrategyforSparkPlatformLIANGYi，CHENGShifan，CHANGShilu，LIUFei（ComputerAcademy，BeijingUniversityofTechnology，Beijing100124，China）Abstract：ThedistributedinmemorycomputingframeworkSparkisthelatesttechnologicaladvancementinthefieldofmassivedataprocessing.Underdynamicresourceallocation，Sparkcandynamicallyincreaseandcloseexecutorsaccordingtotheworkloadoftheapplication.However，removingexecutorswouldresultinthelossofcacheddataandleadtounnecessaryrecomputingcost.ThissituationisparticularlycommoninSparkinteractivedataqueryapplications.Therefore，itisnecessarytominimizetheclosingoftheexecutorstoimprovethequeryefficiency.ThispaperdesignsandimplementsapredictionbaseddynamicresourceallocationstrategyforSparkplatform.ThisstrategyconstructsanonactivedurationpredictionmodelofSparkinteractivedataqueryapplicationbasedonMarkovtheory，anddeterminestheclosingtimeofexecutorsaccordingtothepredictionresult.TheexperimentalresultsshowthatcomparedwithSparksdynamicresourceallocationstrategy，theefficiencyofSparksinteractivedataquerycanbeimprovedby59.34%.KeyWords：distributedcomutingplatform;Spark;bigdataprocessingtechnology;dynamicresourceallocation;dataquery0引言隨着互联网蓬勃发展，当今社会已进入大数据时代[1]。与传统数据不同，大数据时代的数据具有4个显著特征：规模性、多样性、高速性和价值性。为了应对该新特征，利用多个计算节点协同计算以增强数据处理能力的分布式数据处理技术受到学术界和工业界广泛关注[2]。Spark是继Hadoop之后的下一代大数据核心处理技术，是海量数据处理领域的最新技术进展[3]。Spark平台所有任务均在任务执行器中执行，任务执行器是包含CPU资源和内存资源的载体。为了充分利用平台资源，Spark提供动态资源分配技术。动态资源分配技术可根据Spark应用负载到达强度，追增或关闭任务执行器。如果任务执行器闲置时间超过用户设定的阈值，则会关闭该任务执行器。同样地，在交互式数据查询应用（下称“应用”）下，如果连续两个查询间隔时间超过了用户设定的阈值，也会关闭该应用任务执行器，造成缓存数据丢失。下次查询到来时，如果使用丢失的缓存数据就会带来重计算开销，影响查询的响应时间。因此，优化海量数据处理平台下的动态资源分配方式受到学术界广泛关注。Hadoop平台动态资源分配优化主要是解决Map和Reduce阶段的数据倾斜问题[45]以及任务执行本地化问题[67]，通常依据对任务执行特征和数据分布特征调整不同节点的资源。也有一些动态资源分配研究是关于流式处理平台Storm[8]或SparkStreaming[9]的，主要针对流式处理中数据到达率的不同，对流式处理应用所占用资源进行动态增减[1011]。还有一些针对云环境下的动态资源分配，面向云环境下不同计算框架对计算资源进行追增或减少[1213]。上述既有动态资源策略的优化方法不能平移到既有Spark平台的动态资源分配上。因为Spark以任务执行器作为任务载体，不存在Map和Reduce...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供参考，付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等，请点击“举报”。