基于预测的Spark动态资源分配策略

基于预测的Spark动态资源分配策略梁毅程石帆常世禄刘飞摘要:分布式内存计算平台Spark是海量数据处理领域的最新技术进展。动态资源分配下Spark可根据应用的负载情况动态地追增、关闭任务执行器。然而,关闭任务执行器会造成缓存数据丢失,导致不必要的重计算开销,该情况在Spark交互式数据查询应用中尤为常见。为尽量减少任务执行器关闭以提升查询效率,设计实现一种基于预测的Spark动态资源分配策略。该策略基于马尔科夫理论构建Spark交互式数据查询应用的非活跃期持续时间预测模型,并依据预测结果确定任务执行器的关闭时机。试验结果表明,相比既有的Spark动态资源分配策略,采用基于预测的资源分配策略可使Spark交互式数据查询效率平均提升59.34%。关键词:分布式计算平台;Spark;大数据处理技术;动态资源分配;数据查询DOIDOI:10.11907/rjdk.181493:TP3-05:A:16727800(2018)012004305PredictionbasedDynamicResourceAllocationStrategyforSparkPlatformLIANGYi,CHENGShifan,CHANGShilu,LIUFei(ComputerAcademy,BeijingUniversityofTechnology,Beijing100124,China)Abstract:ThedistributedinmemorycomputingframeworkSparkisthelatesttechnologicaladvancementinthefieldofmassivedataprocessing.Underdynamicresourceallocation,Sparkcandynamicallyincreaseandcloseexecutorsaccordingtotheworkloadoftheapplication.However,removingexecutorswouldresultinthelossofcacheddataandleadtounnecessaryrecomputingcost.ThissituationisparticularlycommoninSparkinteractivedataqueryapplications.Therefore,itisnecessarytominimizetheclosingoftheexecutorstoimprovethequeryefficiency.ThispaperdesignsandimplementsapredictionbaseddynamicresourceallocationstrategyforSparkplatform.ThisstrategyconstructsanonactivedurationpredictionmodelofSparkinteractivedataqueryapplicationbasedonMarkovtheory,anddeterminestheclosingtimeofexecutorsaccordingtothepredictionresult.TheexperimentalresultsshowthatcomparedwithSparksdynamicresourceallocationstrategy,theefficiencyofSparksinteractivedataquerycanbeimprovedby59.34%.KeyWords:distributedcomutingplatform;Spark;bigdataprocessingtechnology;dynamicresourceallocation;dataquery0引言隨着互联网蓬勃发展,当今社会已进入大数据时代[1]。与传统数据不同,大数据时代的数据具有4个显著特征:规模性、多样性、高速性和价值性。为了应对该新特征,利用多个计算节点协同计算以增强数据处理能力的分布式数据处理技术受到学术界和工业界广泛关注[2]。Spark是继Hadoop之后的下一代大数据核心处理技术,是海量数据处理领域的最新技术进展[3]。Spark平台所有任务均在任务执行器中执行,任务执行器是包含CPU资源和内存资源的载体。为了充分利用平台资源,Spark提供动态资源分配技术。动态资源分配技术可根据Spark应用负载到达强度,追增或关闭任务执行器。如果任务执行器闲置时间超过用户设定的阈值,则会关闭该任务执行器。同样地,在交互式数据查询应用(下称“应用”)下,如果连续两个查询间隔时间超过了用户设定的阈值,也会关闭该应用任务执行器,造成缓存数据丢失。下次查询到来时,如果使用丢失的缓存数据就会带来重计算开销,影响查询的响应时间。因此,优化海量数据处理平台下的动态资源分配方式受到学术界广泛关注。Hadoop平台动态资源分配优化主要是解决Map和Reduce阶段的数据倾斜问题[45]以及任务执行本地化问题[67],通常依据对任务执行特征和数据分布特征调整不同节点的资源。也有一些动态资源分配研究是关于流式处理平台Storm[8]或SparkStreaming[9]的,主要针对流式处理中数据到达率的不同,对流式处理应用所占用资源进行动态增减[1011]。还有一些针对云环境下的动态资源分配,面向云环境下不同计算框架对计算资源进行追增或减少[1213]。上述既有动态资源策略的优化方法不能平移到既有Spark平台的动态资源分配上。因为Spark以任务执行器作为任务载体,不存在Map和Reduce...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?