百搜索引擎中文分词与文本粒

百度搜索引擎的目的就是在满足绝大部分用户的需求下提供最精确最丰富的搜索结果对于搜索引擎而言,用户停留时间越短,越说明搜索引擎的高效性和准确性,不管是百度的轻应用、知心搜索,还是谷歌的语义搜索、蜂鸟算法,或是360的我的搜索,都是为了能够帮助人们更方便的找到所求。而对于搜索引擎而言,想要给用户最需求的就需要去判断用户搜索词的意图。而搜索引擎尽管非常高效,数据库非常庞大,但它毕竟不是那么智能,不能直接判断出搜索词的意思,尽管谷歌已公布可以借助更加复杂的搜索请求更好的理解人类语言的概念,而不是一些零散的单词,这样的搜索能提供更加精准的结果,即整句搜索。但这只是一小步,搜索引擎不论是进行索引还是网页排序仍需要对文本进行切分,即中文分词。分词仍然是最基础也是最重要的。而在中文分词过程中文本粒度起到关键性的作用。文本粒度所谓文本粒度,对于搜索引擎而言:粒度是衡量文本所含信息量的大小。文本含信息量越多,粒度就越大,反之就小。有人会说那简单啊,当然词越长含有的信息量就越大,你确定?那木木SEO告诉你一个小玩意:肌联蛋白是目前已知的最大蛋白质,名字足足有189819个字母,是名副其实最大的单词。这个单词的信息量是有多大?闲话不多说,先来看下面几组词中,哪些的粒度大,哪些的粒度小。萝卜、葡萄、乒乓龙井、篮球、红色、橡皮檫踢球、拔河、谈恋爱、登山高清电视机、南非双人游、呼叫中心系统第一组词由两个字组成,但是仅表达一个意思,这些词的粒度是小的。而第二组词虽然也基本由两个字组成,也只有一个意思,但这些词还可以拆分,如篮和球、橡皮和檫、踢和球等,这类词粒度要稍微大一些。而后面的第四组,不要说粒度就更大了。再看看下面一组词:勒布朗.詹姆斯、变形金刚4、北京百度网讯科技有限公司、中华人民共和国这类词尽管很长,但都是专名词,是一类比较特殊的词,只表达一个意思,粒度也都不大。但机构名、人名等属于有内部结构的专名,比电影电视剧名的粒度稍大一些。搜索引擎的原理与分词粒度搜索引擎最简单的实现方式就是通过返回包含关键字的页面,来满足用户的检索需求。在搜索时,不仅允许用户输入关键字,也可以输入一定范围内的文本。那么这个时候就要进行中文分词得到关键词,然后对结果进行倒排索引获得关键词对应的页面。如果不切分,那么所有的数据库不可能存储所有的词,如果随便切分则会得到很多无关页面,肯定不能满足用户需求。所以,我们需要对文本做合适的切分,关于中文分词百度已有几种方法,而粒度是分词中至关重要的一个因素,这也是为什么上面木木seo解释文本粒度的原因。用户体验与粒度搜索引擎需要对文本进行切分,那么为了能够使用户对查询结果满意,搜索引擎需要根据什么样的粒度分词?来看下面:1.搜索:呼叫中心SERP:呼叫中心系统、呼叫中心软件2.搜索:娃哈哈SERP1:哈哈,去哪玩?SERP2:娃哈哈果奶3.搜索:土豆丝SERP:土豆肉丝4.搜索:公交车搜索:车站SERP:公交车站要求:搜索关键词后能得出合适的结果。1.要求SERP(搜索结果页面)能找到呼叫中心系统和呼叫中心软件,就必须对2个词都切出呼叫中心这个词来。2.必须把娃哈哈切为一个词,否则会出现SERP1这样不相关的结果。3.不能把土豆丝切为一个词,否则就不会出现土豆肉丝这个结果。4.必须同时切出公交车和车站这两个重叠的词汇,才能保证2词搜索都能得到公交车站这个词。以上基本上概括了搜索引擎对切分粒度的要求:影响展现和影响相关性。搜索引擎展现与粒度显而易见,粒度越小,展现就越多,建立倒排索引时,索引的长度就越长;粒度的层次越多,索引的数量就越多。一个多,一个长,就对搜索系统的性能构成了极大的考验。搜索引擎并不会对所有小粒度词都建索引,而是选择“更有可能展现相关结果”的小粒度词。所以在一般情况下,切分文本粒度越大,索引越多,相关性越好,但展现越少;切分文本粒度越小,索引越少,相关性越差,但展现越好。那么搜索引擎如果做到折中呢?基本的原则是在系统性能可接受的前提下,尽量多展现有效结果,计算相关性时,将最相关的排在前面。那么如何减少切分文本的粒度呢?这里就要谈到紧密度与重...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?