压缩对Hadoop性能影响研究

压缩对Hadoop性能影响研究向丽辉,缪力**(湖南大学信息科学与工程学院,长沙410086)5101520摘要:压缩是I/O调优的一个重要方法,它能减少I/O的计算负载,从而提高I/O的性能。当今,磁盘I/O的发展速度永远赶不上有着摩尔定律发展的CPU速度,所以I/O常常成为数据处理的瓶颈。在Hadoop中,如何使用压缩来进行I/O调优还未被完全研究。本文通过实验,得出了一个压缩使用策略来帮助Hadoop的使用者来确定何时何地使用压缩以及使用何种压缩。基于这个策略,有些Hadoop应用在合理使用压缩后能提高达65%的效率。关键词:Hadoop;MapReduce;I/O;压缩中图分类号:TP302.7CompressiononHadoop:ACaseStudyofImprovingI/OPerformanceonHadoopXIANGLihui,MIAOLi(ComputerScienceandTechnologySchool,HuNanUniversity,ChangSha410086)Abstract:CompressionisanimportantmethodtooptimizeI/O,itcanreduceI/OloadtoimproveI/Operformance.Now,thedevelopmentofdiskI/OspeednevercatchupwiththatofCPUwithaMoore'slaw,sotheI/Ooftenbecomethebottleneckofdataprocessing.InHadoop,howtousecompressiontooptimizeI/Ohas'tbeenstudiedfully.Inthispaper,acompression-usingpoliciesisworkedouttohelptheHadoopuserstodeterminewhenandwheretousecompressionandusewhichone.Basedthepolicy,someHadoopapplicationswithavalibablecompressioncanimprovetheefficiencyto65%.Keywords:Hadoop;Mapreduce;I/O;Compression250引言随着数据的高速增长,作为海量数据处理的代表性技术,MapReduce[1]思想越来越得到重视。Hadoop作为MapReduce的一个开源实现,具有良好的扩展性和容错性,得到越来越广泛的研究与应用。然而,Hadoop在数据处理性能和效率方面与并行数据库相差甚远:根303540据一项实验表明,在100节点规模上处理简单查询,DBMS-X平均比Hadoop快了3.2倍,Vertica平均比Hadoop快了2.3倍[2]。如果处理复杂的关联查询,数据库的效率比Hadoop高出一个数量级。如何在保持Hadoop高扩展性和高容错性等特点的前提下提升Hadoop性能,已经成为一个广泛关注和研究的问题。现阶段Hadoop优化自顶向下主要包括以下三个方面:第一:优化Hadoop应用程序,如避免不必要的reduce,使用StringBuffer而不是String,通过调试程序发现程序的性能瓶颈等[3]。第二:系统参数调优,相关实验表明:通过对Linux系统,Java虚拟机,map任务和reduce任务等相关参数的调整,能够有效的提升Hadoop的性能。为便于参数配置,自动优化参数配置的方法也得到研究[4]。第三:优化Hadoop作业调度算法,Hadoop默认的FIFO调度算法,虽然简单明了,但忽略了不同作业的需求,不能合理的使用计算机资源。已有研究表明:在原始调度算法改进的计算能力调度算法能够对Hadoop集群的内存资源进行有效管理。例如,由Facebook公司根据自身具体需求提出来的一种公平份额调度算法,其设计思想是尽可能的保证所有的作业都能获得等量的资源份额,能将Hadoop的反应时间和负载作者简介:向丽辉,(1988-),女,硕士研究生,主要研究方向:Hadoop性能优化,软件测试。通信联系人:缪力,男,副教授,软件测试。miaoli2000@163.com-1-能力提高2-10倍[5]。多年来磁盘存储容量得到快速增长,但其磁盘数据读取速度却未能成比例加快。磁盘4550556065I/O的速度赶不上有着摩尔定律发展的CPU速度,所以I/O常常成为数据处理的瓶颈。Hadoop是以数据为中心,且磁盘作为其重要的存储介质,局部优化的I/O都有可能带来Hadoop性能的提升。在Hadoop中,由一组配置参数来控制I/O。如:块大小,复制因子,压缩算法等。这些参数直接影响I/O的性能:块大小和内存分配对Hadoop性能影响并不大[6];减少复制因子能大大减少集群的写[7],从而提高Hadoop性能。而压缩技术是提高文件系统效率的重要手段之一,它能减少I/O的负载,从而提高Hadoop的性能。并行数据库系统比Hadoop性能要好很多的一个重要原因是数据库使用了压缩。Inter内部测试表明:相比未压缩,使用LZO的作业运行时间减少60%[8]。纵观这些参数的影响,压缩是I/O调优的一个重要方法。本文研究压缩对Hadoop性能影响,首先详细...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?