一种基于DNS的分层式网页搜索引擎研究王亮1+,郭一平21(华中科技大学控制系,湖北武汉430074)2(华中科技大学图书馆,湖北武汉430074)StudyofalayeredWebsearchenginebasedonDNSWangLiang1+,GuoYiping21(DepartmentofControlScienceandControlEngineer,HuazhongUniversityofScienceandTechnology,WuHan,430074,China)2(LibraryofHuazhongUniversityofScienceandTechnology,WuHan430074,China)+Correspondingauthor:Phn:+86-27-87553494,Fax+86-27-87544415,E-mail:guoypm@hust.edu.cn,http://dris.hust.edu.cnAbstract:WebsearchenginebasedonDNS,thestandardproposedsolutionofIETFforpublicwebsearchsystem,isintroducedinthispaper.Nownowebsearchenginecancovermorethan60percentofallthepagesonInternet.Theupdateintervalofmostpagesdatabaseisalmostonemonth.Thisconditionhasn'tchangedformanyyears.Convergeandrecencyproblemshavebecomethebottleneckproblemofcurrentwebsearchengine.Tosolvetheseproblems,anewsystem,searchenginebasedonDNSisproposedinthispaper.ThissystemadoptsthehierarchicaldistributedarchitecturelikeDNS,whichisdifferentfromanycurrentcommercialsearchengine.Intheory,thissystemcancoverallthewebpagesonInternet.Itsupdateintervalcouldevenbeoneday.Theoriginalidea,detailedcontentandimplementationofthissystemallareintroducedinthispaper.Keywords:Searchengine;Domainname;Informationretrieval;Distributedsystem;Web-basedservice;Informationnetwork摘要:本文介绍了IETF构建公共网页搜索系统的标准提案“基于DNS的网页搜索引擎”。目前没有一个网页搜索引擎可以覆盖超过60%的互联网上全部网页,而大部分的网页数据库更新周期都在一个月左右。在更新率和覆盖率等关键性能上当前的搜索引擎多年来几乎没有任何明显的改进。为了解决搜索引擎遇到的这些瓶颈性问题,本文提出了一种全新的网页搜索引擎,“基于DNS的网页搜索引擎”。此系统采用了与现有商业化搜索华中科技大学“211”资助项目系统完全不同的分层的分布式结构。从理论上讲,此系统可以覆盖全部的互联网网页,而且其网页数据库可以做到每天更新。此系统基本思路来源,详细内容和具体实施都将在本文中逐一介绍。关键词:搜索引擎;域名;信息检索;分布式系统;基于Web的服务;信息网络中图法分类号:TP391;TP393.4文献标识码:A1介绍由于整个WWW是一个大规模动态的分布式系统,网页更新和增加非常频繁,搜索引擎很难跟踪WWW的每一处的变化,因此很难保证覆盖率和更新率的要求。根据1998年的统计数据[1],几乎所有的网页搜索引擎的数据平均更新周期都达到一个月,而没有一个搜索引擎能够覆盖超过50%的互联网全部网页,而时至今日这些数据依然适用。搜索引擎遇到的这些颈性问题很大程度上是由其集中式结构造成的,一般的搜索引擎都有一个或多个大的数据中心,在此执行全部的网页下载和索引工作。如著名搜索引擎Google就有上万台服务器来并行完成此工作。但由于WWW系统的地域分布式特性以及网络基础条件等方面的限制,随着WWW系统的迅速扩张,这种集中式系统必然会遇到覆盖率和更新率方面的瓶颈问题。整个WWW系统的地域分布式特性和现有搜索引擎的集中式体系结构之间的矛盾是造成搜索引擎两个瓶颈性问题的主要原因,要解决这两个问题必须构建一种地域上分布式的搜索引擎。但近年来的搜索引擎研究主要集中在知识挖掘、个性化检索及网页排序算法的改进等方面,在搜索引擎的基本体系结构方面的研究很少,尽管旨在寻找新型搜索引擎的研究都是基于分布式框架的,但发展非常缓慢。事实上在1994年出现的第一个网页搜索系统Harvest[2]就是一种分布式检索系统,但由于其算法复杂,开销巨大,因此仅停留在理论研究阶段,而没有成为真正的Internet服务。而后兴起的商业化搜索引擎考虑到成本等方面因素都采用了集中式的体系结构,并一直处在主导地位。而此后基于分布式结构的搜索引擎2研究大都停留在理论阶段,典型的如CSE(合作式搜索系统)[3],和其它一些研究一样,它们都是Harvest的改...