SparkStreaming中参数与资源协同调整策略

SparkStreaming中参数与资源协同调整策略梁毅刘飞常仕禄摘要:SparkStreaming是一种典型的批量流式计算平台,可用于处理持续到达的数据流。流式数据最重要的两个特征是波动性和时效性。利用动态调整系统参数和动态调整资源满足不同数据到达速率的响应延迟,但调整参数的方式具有局限性,其用户成本较大。因此提出一种参数和资源协同调整策略,采用动态邻域粒子群算法找到一种满足SLO目标且使用资源最少的系统方案。实验表明,AdaStreaming与DyBBS相比,延迟性降低了70.1%,在资源使用量上比DRA降低了42.1%。关键词:SparkStreaming;动态邻域粒子群;参数配置;资源分配DOI:10.11907/rjdk.181652:TP301:A:1672-7800(2019)001-0045-03Abstract:SparkStreamingisatypicalbatchedstreamingprocessingsystemthatcanbeusedtoprocesscontinuouslyarrivingdatastreams.Thetwomostimportantcharacteristicsofstreamingdataareitsvolatilityandtimeliness.Themethodofdynamicalparameterconfigurationanddynamicalresourceallocationareproposedtoguaranteetheendtoendlatencywithdifferentdataarrivalrates.However,themethodofdynamicalparameterconfigurationhaslimitationonscopeofapplication,andthemethodofdynamicalresourceallocationwillbringgreatercosttousers.Therefore,thispaperproposesaparameterandresourcecoordinationadjustmentstrategy,usingdynamicneighborhoodpswarmalgorithmtofindasolutionthatcanachieveresourceminimizationonthepremiseofmeetingtheSLOgoal.ExperimentsshowthatAdaStreamingreducedlatencyby59%againstDyBBS,andreducedtheamountofresourcesby34%againstDRA.0引言随着大数据应用场景的多样化,各种行业产生了海量流式数据[1-3]。流式数据最重要的两个特征是波动性和时效性,不同时刻流式数据到达的速率是波动的,且需在一定时间内完成处理[4]。SparkStreaming[5]是一种典型的批量流式计算平台,被工业界和学术界广泛采用。随着云计算的发展,许多流式计算平台被部署到云上,为用户提供灵活的服务[6]。对于这类部署在云上的SparkStreaming平台,满足用户SLO和最小化资源使用以降低用户成本成为最重要的两个目标[7-8]。现有研究主要从3方面进行优化:①数据丢弃[9-11]。但该方法不适用具有“至少执行一次”语义保证的应用;②动态调整参数配置[12-13]。然而,当数据速率激增时,当前资源分配情况下可能出现调整参数无法使延迟满足需求的情况;③动态调整资源。当数据处理落后于数据流入时,会增加分配的资源数量以提升数据处理速率[14]。考虑到云环境按需付费的服务模式,该方法会给用户带来巨大的成本开销。本文通过分析影响SparkStreaming平台性能的一些因素,提出一种参数和资源协同调整策略AdaStreaming。该策略采用一种动态邻域粒子群算法,在满足SLO的前提下,選择一种资源使用量最少的参数和资源调整方案,并以此为依据进行系统调整。实验表明,与动态调整参数的DyBBS方法相比,本文提出的AdaStreaming在延迟上降低了59%,与动态调整资源的DRA方法相比,AdaStreaming在资源使用量上降低了34%。1SparkStreamingSparkStreaming构建于Spark[15]之上,其处理流程如图1所示。流入系统的数据以一定的划分间隔分割成分开的数据块,然后以一定批次的划分间隔划分为独立的批次任务,并按顺序提交到Spark引擎中执行。根据上述处理过程,可以看出数据块划分间隔和批次划分间隔是影响系统性能的两个重要参数。2SparkStreaming中参数与资源协同调整策略2.1动态邻域粒子群算法粒子群优化算法(PSwarmOptimization,PSO)是一种基于迭代的优化算法,易于实现且无较多参数需要调整[16-18]。动态邻域粒子群(DNPSO)算法可在不同阶段考虑不同目标,用于多目标约束优化问题的求解[19-20]。对于两个目标的问题,第一个目标[f1]可确定粒子邻域,第二个目标[f2]作为度量粒子质量的适应度函数。因此邻域函数[f1]找到粒子i的邻域[Ni]后,粒子i在t+1时刻的个体最优位置可由式(1)计算。-全文完-

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?