探究云计算下大数据的信息检索技术应用

探究云计算下大数据的信息检索技术应用摘要:近年来,云计算得到了较为快速的发展,更多的企业及个人都会将业务转移至在线运用中去,而在线的移动设备、自动传感系统、社交网络等应用都会产生大数据信息,使得信息呈现出爆炸式的增加。在廉价的计算能力及云存储条件下反而加剧了大数据的产生量,使得解决信息检索及收集问题成为了必然之势。本文主要探讨了云计算基础上如何对大数据信息进行收集以及如何检索信息。关键词:云计算大数据信息信息检索中图分类号:TP391.3文献标识码:A文章编号:1007-9416(2015)07-0000-00云服务在近年来得到了快速的增长,尤其是电子商务及社交网络如视频、图片、音频等,是大数据快速增长的主要因素,这些数据往往只能够通过EB、PB、TB、GB甚至是ZB才进行描述。云计算如何对大数据信息进行正确地处理,如果能够从中获取到我们日常所需的信息则将会对整个人类社会产生巨大的影响。为此,云计算的大数据信息收集与检索将成为社会上科技应用的一个热点。1WEB信息收集及检索信息的价值密度和信息的总量多少成反比,在成千上亿的信息页面之中,能够满足自身的需求信息可能只有几页。例如:一个多小时的视频播放,其有用的信息往往只存在几秒钟,而云计算拥有着超强的计算能力,要快速地获取处理结果需要通过云数据来进行。云计算如何在大量的数据中进行价值的挖掘是目前所需要尽快解决的问题。谷歌和百度等公司在信息检索上处于领先地位,基于云计算大数据信息时代下,其核心思想仍然需要借鉴于这两大公司的核心思想,其中,云计算中的大数据信息检索过程主要分为检索以及网页收录这两个过程。信息检索云中的各个服务器都会对数据信息进行分析和排序,计算出较高“相关度”的服务器排在最前面,同时,对存储服务器上的信息进行分布式的检索,其检索的方式主要有广度优先以及深度优先这两种方式。检索的结果最终会收录在IndexRepository上,而网页收录在搜索引擎的索引中,会由使用者所提出的申请搜索在IndexRepository中进行。然后会把索引词库以及网页内容倒排序在索引之中,其中,网页的标题以及所有的连接数据都会储存在同一个索引里面,优先使用广度优先的方式来进行搜索,而网页内容则储存在另外一个优先的索引之中,便于深度优先方式的搜索。信息检索云上各个主服务器中的数据是进行分析后再整理成的元数据。“相关度”高的服务器会排在最前面,然后再对存储服务器进行分布式的检索,其检索方式也是有广度优先以及深度优先这两种方式,其所检索得来的结果仍然会收录在IndexRepository之中。而网页收录过程中会存在在搜索引擎的索引之中,当使用者提出搜索请求时,实际上是在IndexRepository中进行信息搜索,其页面的内容则是依照PageRank的方法来计算出倒序索引列表,其存在于索引的存储器当中。页面的标题和连接数据也都会被统一储存在一个索引之中,便于广度优先进行搜索,而网页内容也同样是保存在另外一个索引之中,便于深度优先进行搜索。不管是在使用者提出信息检索请求的过程中,还是在收录网页的过程中,相关度的计算方法都会被应用到。使用者在进行信息查询时往往所查询到的结果都会出现缓慢或是不及时的现象,因为搜索引擎中的缓存区基本上都是已经安排好的。尽管搜索引擎不知道使用者会搜索何种关键词,但为了将搜索有效率提升,建立了一个关键词的大词库,方便使用者搜索。2检索过程2.1信息搜索请求分析使用者在引擎上输入关键词并提交搜索请求时,结果会在网页上显示出来,然后搜索引擎就会根据这次的请求进行仔细分析,并进行分词处理。分词处理若是按照请求进行空格分词,则要排除掉重复信息后才能得到所查询的关键词内容。若是进行中文分词会比较复杂,它主要有以下两种分词方式:(1)首先要进行字符串的匹配,字符串的匹配方式有最少切分、逆向最大匹配法和正向最大匹配法,然后分词的方法中,搜索引擎中会模拟人的思维来对句子进行了解并开始分词,句子表达式和词语进行相整合是为了更利于引擎的理解,它的基本思想为:分词时,会先将语句的意思及语法进行歧义的分析和处理,其主要由语义子系统、语法子系统以及分词子系统这...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?