一种基于Lucene的中文全文检索系统

本文档下载自文库下载网,内容可能不完整,您可以点击以下网址继续阅读或下载:http://www.wenkuxiazai.com/doc/213ac42e453610661ed9f41c.html一种基于Lucene的中文全文检索系统在开源全文索引引擎Lucene的基础上,设计了一个中文全文检索系统模型,该模型系统由7个模块组成,索引模块、检索模块是其中的核心部分。论述了模型的整体结构,分析设计了索引及检索模块,通过具体的索引技术和检索技术来提高整个系统的检索效率。该系统增加了加密模块,实现对建立的全文索引进行加密处理,增强了信息的安全性。计算机工程第33卷第23期Vol.33No.23ComputerEngineering··软件技术与数据库文章编号:1000—3428(2007)23—0094—03文献标识码:A2007年12月December2007中图分类号:TP391一种基于Lucene的中文全文检索系统苏潭英1,郭宪勇2,金鑫3(1.解放军信息工程大学电子技术学院,郑州450004;2.北京飞燕技术公司,北京100072;3.解放军通信指挥学院,武汉430010)摘要:在开源全文索引引擎Lucene的基础上,设计了一个中文全文检索系统模型,该模型系统由7个模块组成,索引模块、检索模块是其中的核心部分。论述了模型的整体结构,分析设计了索引及检索模块,通过具体的索引技术和检索技术来提高整个系统的检索效率。该系统增加了加密模块,实现对建立的全文索引进行加密处理,增强了信息的安全性。关键词:全文检索;Lucene;倒排索引ChineseFull-textRetrievalSystemBasedonLuceneSUTan-ying1,GUOXian-yong2,JINXin3(1.InstituteofElectronicTechnology,PLAInformationEngineeringUniversity,Zhengzhou450004;2.TechnologyCompanyofBeijingFeiyan,http://www.wenkuxiazai.com/doc/213ac42e453610661ed9f41c.htmlBeijing100072;3.InstituteofPLACommunicationCommand,Wuhan430010)【Abstract】ThispaperproposesamodelofChinesefull-textretrievalsystembasedonLucenewhichisanopensourcefull-textretrievalengine,andexpatiatesitsframe.Thismodeliscomposedofsevenmodules,amongwhichtheindexmoduleandthesearchmodulearethecoreparts.Itdesignsthemconcretely,andimprovesthesearchefficiencyofthefull-textretrievalsystemwithindextechnologyandsearchtechnology.Thesystemmodelconcludesanencryptionmoduletoencrypttheindexandincreasesthesystemsecurity.【Keywords】full-textretrieval;Lucene;inverseindex1中文全文检索系统全文检索技术是一个最普遍的信息查询应用,人们每天在网上使用Google、百度等搜索引擎查找自己所需的信息,这些搜索引擎的核心技术之一就是全文检索。随着文档处理电子化、无纸化的发展,图书馆、新闻出版、企业甚至个人的电子数据激增,如何建立数据库、管理好自己的数据,是亟待解决的问题,而全文检索是其中一个非常实用的功能。全文检索产品实际上是一个内嵌该项技术的数据库产品[1]。西文的全文检索已有许多成熟的理论与方法,其中,开放源代码的全文检索引擎Lucene是Apache软件基金会Jhttp://www.wenkuxiazai.com/doc/213ac42e453610661ed9f41c.htmlakarta项目组的一个子项目,它的目的是为软件开发人员提供一个简单易用的工具包,方便在目标系统中实现全文检索的功能。很多项目使用了Lucene作为其后台的全文索引引擎,比较著名的有:(1)Jive:Web论坛系统;(2)Cocoon:基于XML的Web发布框架,全文检索部分使用了Lucene;(3)Eclipse:基于Java的开放开发平台,帮助部分的全文索引使用了Lucene。Lucene不支持中文,但可以通过扩充它的语言分析器实现对中文的检索。本文在深入学习研究Lucene的前提下,设计了一个中文的全文检索系统,对其核心的索引模块和检索模块进行了阐释,并添加了加密模块对索引信息加密,增强了系统的安全性。表1Lucene的组成结构模块名org.apache.Lucene.searchorg.apache.Lucene.indexorg.apache.Lucene.analysisorg.apache.Lucene.queryParserorg.apache.Lucene.documentorg.apache.Lucene.storeorg.apache.Lucene.util功能搜索入口索引入口语言分析器查询分析器存储结构底层IO/存储结构一些公用的数据结构本文通过扩充Luce...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?