Hadoop环境搭建及实现倒排索引

目录1.应用介绍31.1实验环境介绍31.2应用背景介绍31.3应用的意义与价值42.数据及存储52.1数据来源及数据量52.2数据存储解决方案53.分析处理架构53.1架构设计和处理方法53.2核心处理算法代码74.系统实现95.总结271.应用介绍1.1实验环境介绍本实验是在Hadoop伪分布式处理架构下完成的。我用自己的笔记本在ubuntu14.04操作系统下自己搭建了hadoop2.7.1架构,并配置了伪分布式模式进行数据的处理。1.2应用背景介绍本次云计算大作业实现的是文档检索系统中最常用的数据结构—倒排索引。我通过查阅资料了解了倒排索引的实现过程,借鉴已有的实现程序完成了该算法在hadoop平台上的运行,并处理了相关的数据,得到了相应的处理结果。在关系数据库系统里,索引是检索数据最有效率的方式,。但对于搜索引擎,它并不能满足其特殊要求:1)海量数据:搜索引擎面对的是海量数据,像Google、百度这样大型的商业搜索引擎索引都是亿级甚至百亿级的网页数量,面对如此海量数据,使得数据库系统很难有效的管理。2)数据操作简单:搜索引擎使用的数据操作简单,一般而言,只需要增、删、改、查几个功能,而且数据都有特定的格式,可以针对这些应用设计出简单高效的应用程序。而一般的数据库系统则支持大而全的功能,同时损失了速度和空间。最后,搜索引擎面临大量的用户检索需求,这要求搜索引擎在检索程序的设计上要分秒必争,尽可能的将大运算量的工作在索引建立时完成,使检索运算尽量的少。一般的数据库系统很难承受如此大量的用户请求,而且在检索响应时间和检索并发度上都不及我们专门设计的索引系统。1.3应用的意义与价值倒排索引,也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。现代搜索引擎的索引都是基于倒排索引。相比“签名文件”、“后缀树”等索引结构,“倒排索引”是实现单词到文档映射关系的最佳实现方式和最有效的索引结构。2.数据及存储2.1数据来源及数据量数据的存储格式主要是txt文本文档格式的。数据主要来自于网上的英文原版书籍。我从网上下载了超过千万个英文单词的英文文档,文件大小为百兆级别。2.2数据存储解决方案因为数据主要是一些txt文本文件,所以下载下来后直接存储在本地即可。之后上传到Hdfs下的目录中。3.分析处理架构3.1架构设计和处理方法实现倒排索引只要关注的信息为:单词、文档URL及词频。输入的文档格式为“文件名.txt”格式。1)Map过程首先使用默认的TextInputFormat类对输入文件进行处理,得到文本中每行的偏移量及其内容。显然,Map过程首先必须分析输入的publicstaticclassMapextendsMapper<Object,Text,Text,Text>{privateTextkeyInfo=newText();//存储单词和URL组合privateTextvalueInfo=newText();//存储词频privateFileSplitsplit;//存储Split对象//实现map函数publicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{//获得<key,value>对所属的FileSplit对象split=(FileSplit)context.getInputSplit();StringTokenizeritr=newStringTokenizer(value.toString());while(itr.hasMoreTokens()){//key值由单词和URL组成,如"MapReduce:file1.txt"//获取文件的完整路径//keyInfo.set(itr.nextToken()+":"+split.getPath().toString());//这里为了好看,只获取文件的名称。intsplitIndex=split.getPath().toString().indexOf("file");keyInfo.set(itr.nextToken()+":"+split.getPath().toString().substring(splitIndex));//词频初始化为1valueInfo.set("1");context.write(keyInfo,valueInfo);}}}publicstaticclassCombineextendsReducer<Text,Text,Text,Text>{privateTextinfo=newText();//实现reduce函数publicvoidreduce(Textkey,Iterable<Text>values,Contextcontext)throwsIOException,InterruptedException{//统计词频intsum=0;for(Textvalue:values){sum+=Integer.parseInt(value.toString());}intsplitIndex=key.to...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?