HDFS小文件读写优化策略-

HDFS小文件读写优化策略*朱永强++周珂++李丹++赵亚萌DOI:10.16644/jki33-1094/tp.2016.09.003摘要:HDFS是一种高容错性的分布式系统。它支持的数据集在GB到TB级别,然而对大量小文件存取支持不足。由于在处理大数量级的小文件时,会使得NameNode内存消耗过度,造成文件的存取性能降低。因此提出了一种根据文件类型分类小文件的合并策略。通过建立索引信息服务器来存储存放在用户文件中的小文件的元数据信息,可以达到高效读取小文件的目的。实验结果表明,该优化策略能有效降低NameNode内存消耗,提高HDFS文件系统对大量小文件读取效率。关键词:HDFS;小文件存取;文件类型;用户文件;元数据信息:TP391文献标志码:A:1006-8228(2016)09-09-04HDFSsmallfilereadandwriteoptimizationstrategyZhuYongqiang1,2,ZhouKe1,2,LiDan1,2,ZhaoYameng2(1.SchoolofComputerandInformationEngineeringHenanUniversity,Kaifeng,Henan475004,China;2.InstituteofRemoteSensingandDigitalEarthChineseAcademyofSciences)Abstract:HDFSisakindofdistributedsystemwithhighfaulttolerance.ItsupportsdatasetattheGBtotheTBlevel,butlacksofsupportfortheaccesstoalargenumberofsmallfiles.TheprocessingoflargenumberofsmallfileswillmaketheNameNodememoryconsumptionexcessive,andresultinareductionofthefileaccessperformance.Thispaperpresentsamethodofmergingsmallfilesaccordingtothefiletype.Throughtheestablishmentofanindexinformationservertostorethemetadataofsmallfilesstoredintheuserfiles,thepurposeofreadingsmallfilesefficientlycanbeachieved.ExperimentalresultsshowthattheoptimizationstrategycaneffectivelyreducetheNameNodememoryconsumption,improvethereadingefficiencyofHDFSfilesystemtoalargenumberofsmallfiles.Keywords:HDFS;smallfileaccess;filetype;userfile;Metadatainformation0引言随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长,大约每两年翻一番,根据监测,这个速度在2020年之前会继续保持下去,这意味着人类在最近两年产生的数据量相当于之前产生的数据量总和。资料显示,2011年,全球数据规模为1.8ZB,可以填满575亿个32GB的iPad,这些iPad可以在中国修建两座长城。淘宝网网站每天有超过数千万笔交易,单日产生数据量超过50TB,存储量40PB(1PB等于1000TB)。百度公司存储网页数量接近1万亿页,每天约处理60亿次搜索请求,几十PB数据[1]。云计算[2]已成为当今研究的热门课题,它很好的解决了大数据运算与存储的难题。HDFS是ApacheHadoopCore项目的一部分,现在已成为研究大数据,实现云存储服务的一个很好的模型[3],它是一个不错的分布式文件系统,大部分的HDFS程序对文件操作需要的是一次写多次读的操作模式[4]。它是一个主从结构,一个HDFS集群是由一个名字节点和多个数据节点组成,名字节点是一个管理文件命名空间和调节客户端访问文件的主服务器,数据节点用于存储数据。HDFS采用的是流式读取海量级数据,然而它在文件存储方面也有不足。这是由于HDFS是由单一NameNode多DataNode组成的,在集群运行时NameNode的内存中加载了命名空间的元数据信息,因此大量小文件的使用会造成节点的内存消耗过多从而使系统的性能降低[5]。社交网络、电商平台以及其他大数据领域每天都会产生大量的数据文件。据统计分析,邮件、文本、音乐、视频、互联网档案、网站图片等小于1M的海量小文件会占据整个集群小文件总数的90%以上。根据美国国家能源研究科学计算中心一个关于共享并行文件系统的研究显示,该系统存储的1300万个文件中,99%的文件大小不超过64MB,43%的文件大小不超过64KB[6]。由于HDFS是面向大文件存储与访问而设计的,面对这些大量小文件的存在,NameNode元数据的检索效率就会降低。本文提出了一种根据文件类型分类的小文件的合并策略,通过将不同类型的小文件的元数据信息存放在用户文件的不同位置,从而实现将小文件合并为大文件,很好的解决了HDFS存取海量小文件效率低下的问题。1研究现状以及存...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?