中文信息检索引擎中的分词与检索技术

第24卷第7期2004年7月计算机应用ComputerApplicationsVol.24,No.7July,2004文章编号:1001-9081(2004)07-0128-04中文信息检索引擎中的分词与检索技术吴栋,滕育平(南开大学组合数学研究中心核心数学与组合数学教育部重点实验室,天津300071)(tengyuping@notionsoft.com)要:文中论述了在开发中文信息检索系统中所涉及到的两项关键技术,即中文分词技术和摘检索技术。针对中文分词技术,介绍了一种改进的正向最大匹配切分算法,以及为消除歧义引入的校正策略,并在此基础上结合统计方法处理未登录词。针对检索技术,综述了几种最常用的检索模型的原理,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试,测试结果表明该分词算法准确度和效率能够满足实用的要求。中图分类号:TP317.2文献标识码:AWordSegmentandSearchTechniquesforChineseInformationSearchEnginesAbstract:TwokeytechniquesinthedevelopmentofChineseInformationRetrievalSystemarediscussedinthispaper,i.e.,Chinesewordsegmentationandsearchtechnique.ForChinesewordsegmentation,thepaperpresentsanimprovedMMsegmentationalgorithm,therevisestrategyfordisambiguation,andthestatisticmethodforunknownwordsrecognitionbasedonthepreviousmethods.Forsearchtechnique,thepapersummarizestheprincipleofseveralkindsofsearchmodels,andanalyzestheadvantagesanddisadvantagesofeachmodelsimply.Atlast,thegivensegmentationalgorithmisevaluated,andtheresultsrevealthattheveracityandefficiencyofthealgorithmcansatisfytheappliedrequest.目的,人们开发出了众多的检索引擎,有针对Web进行搜索的Google、百度等,也有针对各行业开发的专题检索系统。目前,国内的每个行业、领域都在飞速发展,这中间产生了大量的中文信息资源,为了能够及时准确的获取最新的信息,中文检索引擎是必然的产物。中文检索引擎与西文检索引擎在实现的0引言随着社会的不断进步,特别是在互联网迅猛发展的今天,人们在不断地接触形形色色的信息,同时也要对这些信息进行过滤,从而提取出对自己真正有用的内容。为了达到这个图1中文信息处理和检索过程收稿日期:2003-12-02;修订日期:2004-06-12作者简介:吴栋(1980-),男,上海人,博士研究生,主要研究方向:组合数学;滕育平(1980-),男,湖北孝感人,硕士研究生,主要研究方向:组合数学、计算机软件.2)逆向最大匹配法(ReverseMaximumMatcingMethod)通常简称为RMM法。RMM法的基本原理与MM法相同,不同的是分词的扫描方向,它是从右至左取子串进行匹配。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245,RMM法在切分的准确率上比MM法有很大提高。3)基于词频的统计方法统计方法一般不依赖于词典,而是将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计,出现的次数越高,成为一个词的可能性也就越大。在频率超过某个预先设定得阈值时,就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。2.3一种改进的MM算法MM法和RMM法的缺点在于对词典的完全性有很强的依赖性,而且无法很好的解决歧义问题,有人提出了双向匹配法,即针对一个字符串,分别从两个方向进行处理,但这种方法只有检错功能,却不能自动进行校正,给出正确结果。由于一个词在不同的文章中出现的次数通常不一样,因此采用统计方法对词的切分准确度并不太高。鉴于以上几种方法的优缺点,人们自然想把这几种方法结合起来,扬长避短。这里,介绍一种改进的MM算法。机制和原理上基本一致,但由于汉语本身的特点,必须引入对于中文语言的处理技术,而中文分词技术就是其中很关键的部分。1中文检索引擎的基本原理常见的中文检索引擎主要完成两方面的任务:1)信息的规范化。将搜集来的信息按照一定的方式进行组织管理,使之成为可以高效检索的信息库。2)信息的检索和表达。以索引好的信息库作为信息基础,利用信息库已被索引的特点,实施快速检索,同时根据用户的需求将检索结果进行输出。信息的规范化包括分词和索引(以及资料的搜集和整理)、更新(维护)两部分;信息的检索包括搜索、结果输出两部分。整个信息...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?