网络搜索引擎的比较研究届别2012届系别数学系专业信息与计算科学姓名李小青指导教师王仲华二○一二年五月网络搜索引擎的比较研究学生姓名:李小青指导教师:王仲华摘要:搜索引擎已成为中国互联网用户获取网络信息的主要工具,利用搜索引擎查询网上信息资源已成为解决网络资源利用的有效方式,信息界亦掀起了搜索引擎研究的热潮.文中简单介绍了搜索引擎及其在全球与中国的现状,并以目前国内外排名靠前的搜索引擎Google、百度和雅虎为研究对象,从界面、内容、问答、用户结构、经营等多个角度进行比较,旨在挖掘3者各自的特殊,为搜索引擎的个性化比较研究提供依据.最后作出总结并提出了搜索引擎的未来发展趋势及本文不足之处.关键词:搜索引擎;Google;百度;雅虎;比较研究引言Internet与全球电信的迅猛发展使信息资源的“生产”、“传播”与“消费”出现了新的格局.信息资源如雨后春笋,信息在网络上的传播速度跨数量级的提升,使得上网用户获取真正有用的信息越来越难.如何在网上快速、有效地获取信息资源,已经成为信息查询者的一大难题,因此网络搜索引擎应运而生.搜索引擎已成为中国互联网用户获取网络信息的主要工具,它对迅速筛选所需信息起到很重要的作用.如今世界上的搜索引擎数以万计,因此,选择合适的搜索引擎就成为重中之重.Google、百度和雅虎中国是目前比较有影响力的三种著名的搜索引擎,本文将对其主要的性能指标进行分析比较,以期抛砖引玉,使现有的中文搜索引擎发展得更快更好.1网络搜索引擎的含义及分类网络搜索引擎又称为网络检索引擎,其英文译名为SearchEngine.广义上是指一种基于Internet的信息查询系统,包括信息抓取、信息管理和信息检索;狭义上是指一种为搜集Internet上的网页而设计的检索软件.现有的网络搜索引擎基本上分为3类:(1)独立搜索引擎(Singlesearchengine).其特点是仅在搜索引擎的本身数据库中查询,如我们经常使用的Google、百度、雅虎等.(2)元搜索引擎(Metasearchengine).所谓元搜索引擎是对分布于网络的各种检索工具的全局控制机制,它通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作.其特点是对查询得到的结果进行不同程度的处理,如:删除重复结果、检验连接、结果按相关度排序等.元搜索引擎本身按照其工作方式的不同又分为并行处理引擎和串行处理引擎.(3)网络搜索软件(Netsearchsoftware).其特点是网络用户可将相应的搜索软件下载至本地计算机上安装查询,是一种具有网络查询功能的离线浏览器.2网络搜索引擎的搜索原理网络搜索引擎实际上是个专用的WWW服务器,它存有庞大的索引数据库,收集了全世界上百万甚至上千万个WWW主页的文字信息.为了收集这些信息,有个自动检索程序(Robots)沿着WWW的超文本链经常搜索整个WWW上的主页,然后为这些主页上的每个文字建立索引并送加集中管理的索引数据库.索引信息包括文档的WWW地址、每个文档中单词出现的频率和位置等.使用WWW搜索引擎时,可以根据用户输入的关键词,在自己的数据库中查询相关信息,然后将结果(网址)提供给用户.3三大搜索引擎简介3.1Google(wwgoogle)简介Google是由斯坦福大学计算机科学系LarryPage和SergeyBrine博士于1998年创建.支持30多种语言检索,包括中文简体和繁体,并有中文Google网页.当输入检索词后,Google每次可以检索30多亿个网页,从众多的网页中选取与检索式匹配的链接,检索效率极高.Google富于创新的搜索技术和典雅的用户截面设计,使Google从当今的第一代搜索引擎中脱颖而出.2000年9月,Google开启中文搜索服务,2004年8月在纳斯达克上市,开创了第二代搜索引擎技术.许多权威机构都将其评为最佳搜索引擎.Google利用“蜘蛛程序”在互联网上抓取各个网站的网页,对网页内容进行分词处理,并对抓取到的网络进行超链接分析.Google是一个功能强大、网络信息资源非常丰富的搜索引擎,包括35个国家和地区的语言资源,占有全球搜索市场的80%.Google原意是表示1后面带有100个零的数字,使用这个词代表公司想征服网上无穷无尽资料的雄心.正如其所期望,许多权威机构都将其评为最佳搜索引擎,全世界平均每天上网人次高达1.5亿.Google在中国搜索市场的市场份额突破30%,并且增长速...