第24卷第7期2004年7月计算机应用ComputerApplicationsVol.24,No.7July,2004文章编号:1001-9081(2004)07-0128-04中文信息检索引擎中的分词与检索技术吴栋,滕育平(南开大学组合数学研究中心核心数学与组合数学教育部重点实验室,天津300071)(tengyuping@notionsoft.com)要:文中论述了在开发中文信息检索系统中所涉及到的两项关键技术,即中文分词技术和摘检索技术。针对中文分词技术,介绍了一种改进的正向最大匹配切分算法,以及为消除歧义引入的校正策略,并在此基础上结合统计方法处理未登录词。针对检索技术,综述了几种最常用的检索模型的原理,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试,测试结果表明该分词算法准确度和效率能够满足实用的要求。中图分类号:TP317.2文献标识码:AWordSegmentandSearchTechniquesforChineseInformationSearchEnginesAbstract:TwokeytechniquesinthedevelopmentofChineseInformationRetrievalSystemarediscussedinthispaper,i.e.,Chinesewordsegmentationandsearchtechnique.ForChinesewordsegmentation,thepaperpresentsanimprovedMMsegmentationalgorithm,therevisestrategyfordisambiguation,andthestatisticmethodforunknownwordsrecognitionbasedonthepreviousmethods.Forsearchtechnique,thepapersummarizestheprincipleofseveralkindsofsearchmodels,andanalyzestheadvantagesanddisadvantagesofeachmodelsimply.Atlast,thegivensegmentationalgorithmisevaluated,andtheresultsrevealthattheveracityandefficiencyofthealgorithmcansatisfytheappliedrequest.目的,人们开发出了众多的检索引擎,有针对Web进行搜索的Google、百度等,也有针对各行业开发的专题检索系统。目前,国内的每个行业、领域都在飞速发展,这中间产生了大量的中文信息资源,为了能够及时准确的获取最新的信息,中文检索引擎是必然的产物。中文检索引擎与西文检索引擎在实现的0引言随着社会的不断进步,特别是在互联网迅猛发展的今天,人们在不断地接触形形色色的信息,同时也要对这些信息进行过滤,从而提取出对自己真正有用的内容。为了达到这个图1中文信息处理和检索过程收稿日期:2003-12-02;修订日期:2004-06-12作者简介:吴栋(1980-),男,上海人,博士研究生,主要研究方向:组合数学;滕育平(1980-),男,湖北孝感人,硕士研究生,主要研究方向:组合数学、计算机软件.2)逆向最大匹配法(ReverseMaximumMatcingMethod)通常简称为RMM法。RMM法的基本原理与MM法相同,不同的是分词的扫描方向,它是从右至左取子串进行匹配。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245,RMM法在切分的准确率上比MM法有很大提高。3)基于词频的统计方法统计方法一般不依赖于词典,而是将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计,出现的次数越高,成为一个词的可能性也就越大。在频率超过某个预先设定得阈值时,就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。2.3一种改进的MM算法MM法和RMM法的缺点在于对词典的完全性有很强的依赖性,而且无法很好的解决歧义问题,有人提出了双向匹配法,即针对一个字符串,分别从两个方向进行处理,但这种方法只有检错功能,却不能自动进行校正,给出正确结果。由于一个词在不同的文章中出现的次数通常不一样,因此采用统计方法对词的切分准确度并不太高。鉴于以上几种方法的优缺点,人们自然想把这几种方法结合起来,扬长避短。这里,介绍一种改进的MM算法。机制和原理上基本一致,但由于汉语本身的特点,必须引入对于中文语言的处理技术,而中文分词技术就是其中很关键的部分。1中文检索引擎的基本原理常见的中文检索引擎主要完成两方面的任务:1)信息的规范化。将搜集来的信息按照一定的方式进行组织管理,使之成为可以高效检索的信息库。2)信息的检索和表达。以索引好的信息库作为信息基础,利用信息库已被索引的特点,实施快速检索,同时根据用户的需求将检索结果进行输出。信息的规范化包括分词和索引(以及资料的搜集和整理)、更新(维护)两部分;信息的检索包括搜索、结果输出两部分。整个信息...