基于.Net技术图书信息全文检索系统

基于.Net技术图书信息全文检索系统摘要:本文将开源全文检索技术应用到图书信息管理系统,提高了全文检索速度。最后,本文着重讨论了系统实现的关键技术。关键词:全文检索;图书.Net中图分类号:J218.7文献标识码:A文章编号:1007-9599(2010)15-0000-01BookInformationTextRetrievalSystemon.NetTechnologyHuangJianguo(ComputingCenter,StatisticsBureauofYixing,Yixing214200,China)Abstract:Thisarticlewillopenfull-textretrievaltechnologyintolibraryinformationmanagementsystemtoenhancethefull-textretrievalspeed.Finally,thepaperfocusesonthekeytechnologiesofthesystem.Keywords:Full-textretrieval;Books.Net一、引言随着互联网技术的不断发展,信息量的快速膨胀,使万维网已经发展成为一个巨大的海量信息空间。现代的搜索引擎已由收录几千万到现在收录和几百亿个页面。如何有效,快速,准确地在海量的信息中找到我们所需要的内容已成为当前研究的一大热点。因此,信息检索技术在当今的信息社会中将发挥越来越重要的作用。全文检索则是信息检索中一个极重要的部分。人们每天在网上使用的百度,谷歌等搜索引擎来查找所需要的信息。而这些搜索引擎采用的核心技术就包含了全文检索。所谓全文检索是指为需要检索的内容,例如一篇文章的标题和内容,建立索引并指明索引词出现的位置和内容。当用户输入关键字进行查询时,检索引擎根据事先建立的索引进行匹配查找,并将查找的结果反馈给用户的检索方式。然而,目前现有的关系数据库检索是以结构化数据为检索的。数据以记录形式存储。数据类型有结构化和非结构化之分。结构化的数据即具有固定长度的数据,例如整型、字符、日期型等。而非结构化的数据通常是存放内容,文本等,这些数据都是不定长的。然而,对于这些非结构化数据进行检索时,通常是使用关系数据库支持的SQL语句进行匹配查询类似“like%key%”。显然,使用SQL实现的全文检索通常会占用大量的CPU和内容,使数据库处于极繁忙状态。目前主流的数据库例如Oracle,SQLServer等内置的全文检索技术检索效率很低,其速度也相当慢。本文为解决现有数据库实现全文检索的不足,利用微软的.NET技术,借助全文检索系统Lucence[1]的相关接口,实现了一个能提供全文检索的图书信息检索系统,从而大大加快了检索速度,提高检索准确度。二、全文检索系统模型本文实现一个简单的图书搜索引擎,使用开源框架DotLucene来实现搜索引擎系统。DotLucene是一个从Apache的Lucence检索框架移植到.Net上的。Lucene是目前最为流行的基于全文检索的工其包。Lucene检索本质上是索引检索,即采用空间来换取时间,它对需要检索的文件、字符流进行全文索引。在进行检索的时候对索引实行快速检索,从而得到检索的位置。三、系统实现的原理与技术图书全文检索系统的实现原理可分为如下几步:(1)建立图书数据库;(2)对图书库建立索引;(3)在索引数库中实行全文搜索;(4)对搜索结果进行处理和排序。(一)建立图书信息库该步骤是一个长期信息录入过程。如果有新的图书信息需要入库,操作员通过系统提供的图形界面按指定的格式要求进行数据录入。(二)对图书库建立索引该步骤主要目的是使用DotLucene技术对图书信息库建立索引。如果使用传统的方法查询图书内容,例如含有“设计模式”的关键字,则对数据库提交类似如下的SQL语句“like%设计模式%”。这样的执效显然十分低效。本文通过DotLucene技术对需要检索的内容先进行索引,并将这些索引信息存放在磁盘上。在使用DotLucene类库时,首先要在.Net系统工程引入“Lucene.Net.dll”动态类,并引入如下包:usingLucene.Net.Documents;usingLucene.Net.Index;usingLucene.Net.Search;usingLucene.Net.QueryParsers;usingLucene.Net.Analysis.Standard;之后,建立与图书库的链接,并从数据库读取需要建立索引的字段。假定只为图书标题(Title)和图书摘要(Abstract)建立索引。IndexWriterwriter=newIndexWriter("d:\\book\\index",newLucene.Net.Analysis.Cn.ChineseAnalyzer(),true);Documentdoc=newDocument();doc.Add(newField("BookID","...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?