Solr5.5搜索引擎之分词原理说明

下载本文档

ID 347176
格式 docx
大小 152.94 KB
约12页
收藏
点赞(0)
海报
举报

/ 12

下载本文档

文本预览下载提示常见问题

Solr5.5搜索引擎之分词原理说明1．中文分词1.1概念众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文时以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子Iamastudent，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”，“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。“我是一个学生”的分词结果是：“我是一个学生”。摘自wwwilliamlong.info/archives/3331.2应用目前在自然语言处理技术中，中文处理技术比西文处理技术要落后很大一段距离，很多西文的处理方法对中文不能直接采用，就是因为中文必须有分词这道工序。中文分词是其他中文信息处理的基础，搜索引擎只是中文分词的一个应用。其他的比如机器翻译（MT）、语音合成、自动分类、自动摘要、自动校对等等，都需要用到分词。因为中文需要分词，可能会影响一些研究，但同时也为一些企业带来机会，因为国外的计算机处理技术要想进入中国市场，首先也要解决中文分词问题。分词准确性对搜索引擎来说十分重要，但如果分词速度太慢，即使准确性再高，对于搜索引擎来说也是不可用的，因为搜索引擎需要处理数以亿计的网页，如果分词耗用的时间过长，会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说，分词的准确性和速度，二者都需要达到很高的要求。2．搜索引擎和中文分词2.1搜索引擎的工作原理摘自：blog.csdn/renenglish//details/5847100搜索引擎为什么能快速检索到自己查询的关键字呢？实际上得益于它的数据存储机制“倒排索引”，这里用一个例子来大体说明什么是倒排索引。假设我有10篇文章，它们可能论述了相同或不同的主题。如果我想看看哪篇文章中含有“中文分词”这个词语，我可以循环遍历每篇文章，看看他的内容中有没有含有“中文分词”这个词语，然后把含有目标词语的文章返回。很显然，我需要打开10篇文章，并且从头到尾的遍历每篇文章，看能否匹配到“中文分词”，这样的效率是很低的，对于毫秒级的搜索引擎来说是绝对不能接受的。所以我给每篇文章做个“目录”，事先找到含有“中文分词”的文章，假设文章1,3,5,7含有这个词语，文章2,4,6,7含有“搜索引擎”，我建立一个对应关系表：词语“中文分词”1,3,5,7“搜索引擎”2,4,6,7于是当我要检索“中文分词”这个词语的时候，我不再打开每篇文章去匹配，而是直接在对应关系表看一下“中文分词”对应着文章1,3,5,7。结果是文章1,3,5,7中含有“中文分词”，同样检索“搜索引擎”，直接返回的结果是2,4,6,7。如果我要同时检索“中文分词”和“搜索引擎”，结果是（1,3,5,7）和（2,4,6,7）取交集。结果是文章7同时包含“中文分词”和“搜索引擎”。这个对应关系表就是所谓的倒排索引。当然倒排索引可能包含的信息更为丰富，比如不仅包含词语在哪一篇文章，同时还包含了在这篇文章的哪个位置等。生产环境中需要把所有文章都建立一个倒排索引。创建倒排索引的前提是：搜索引擎怎么认识句子中哪些是词语呢？它不知道“中文分词”是一个词语。这个工作由中文分词器来完成，分词器在创建索引过程和用户查询过程都会被使用到。2.2搜索引擎和数据库区别为什么搜索引擎无法被数据库所替代的原因主要有两点：一个是在数据量比较大的时候，搜索引擎的查询速度快，第二点在于，搜索引擎能做到比数据库更理解用户。第一点好理解，每当数据库的单个表大了，就是一件头疼的事，还有在较大数据量级的情况下，你让数据库去做模糊查询，那也是一件比较吃力的事（当然前缀匹配会好得多），设计上就应当避免。关于第二点，搜索引擎如何理解用户，肯定不是简单的靠匹配，这里面可以加入很多的处理，甚至加入各种自然语言处理的高级技术，而比较通用且基本的方法就是靠分词器来完成，而且这是一种比较简单而且高效的处理方法。3．中文分词类型分词技术现今非常成熟了，分为3中技术3.1基于词典的字符串匹配的分词方法按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功（识...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供参考，付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等，请点击“举报”。