基于版权信息新闻网页去重策略探究

基于版权信息新闻网页去重策略探究摘要:随着网络技术的迅速发展和互联网络规模的不断扩大,人们能够获得的新闻信息资源也日益丰富。应用搜索引擎进行检索,经常会得到内容相同或相近的新闻网页,它们不但浪费了存储资源,而且加重了用户检索和阅读的负担。网页去重处理是提高搜索引擎的关键技术之一,因此,发现并去除重复网页信息的研究工作具有重要意义。文中提出了一种基于版权信息的新闻网页去重算法,其主要思想是:应用转载的新闻网页大多会标出其这一特征,并结合网页文本内容进行新闻网页去重。实验结果表明:该方法有效,对新闻网页实现较好的去重,能够得到较高的正确率及召【率,具有很好的应用价值。关键词:网页去重;搜索引擎;版权;新闻网页;模糊匹配:TP311文献标识码:A:1009-3044(2012)26-6211-04DetectionandEliminationofDuplicatedNewsWebpagesBasedonCopyrightGEXiao-bin,LIU激e,CUI激an(DepartmentofInformation,TonglingVocationalCollege,Tongling244000,China)Abstract:AstheWorldWideWebgrowsrapidlytobecomethelargestandthemostpopularsourceofreadilyavailableinforma?tion,itisincreasinglyabundanttoaccesstoinformationsources.Applicationofsearchengines,usersoftengettheredundantnewswebpageswithsamecontentorsimilarnewswebpages,theywillnotonlybeawasteofstorageresources,andincreaseuserstore?trieveandreadtheburden.Weedingoutduplicatednewswebpagesisoneofthekeytechnologiesofsearchengine,Consequent?Iy,todetectandeliminatethosepagesinfacsimileisofgreatsignificance.Inthispaper,amethodbasedoncopyrightinformationisproposedtodetectandeliminatetheduplicatednewswebpages,Thismethodbasicthoughtis:reprintofmostofthenewsweb?pageswillbethesourceofitsmarkedcharacteristics,combinedwiththetextcontentofthepagetore-pagenews.Theexperi?mentalresultindicatesthat,thismethodcancompleteinviewofthenewscontentduplicatednewswebpages,andcanbeahighaccuracyrateandtherateofrecall.Keywords:duplicatedwebpages;searchengine;copyright;newswebpages;fuzzymatching随着互联网技术和规模的空前发展,应用搜索引擎已经成为人们从互联网上获取信息的主要渠道之一。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织及处理,并为用户提供检索服务,从而起到信息导航目的[1]。但是,由于互联网上的信息经常被相互转载,因此检索出的网页大多是具有=1本文以新闻网页为研究对象,提出了基于版权信息的新相同信息的重复网页。根据中国互联网络信息中心2005年7月发布的统计报告显示,用户在回答“检索信息时遇到的最大问题”这一提问时,选择“重复信息太多”选项的占44.6%,排名第1位;据统计,目前Intemet近似镜像网页数的比例约占全部页面的30%~45%[2];清华大学IT可用性实验室对Google、Baidu等中文搜索引擎的研究表明,重复网页占全部网页的比率,Google约占3.4%,Baidu约占2.1%[7]o国际上对转载文档去重方法的研究最初主要是针对大型文件系统,1993年,Arizona大学的Manber提出了一个SIF工具,用基于字符串匹配的方法来度量文件之间的相似性,用于在大规模文件系统中寻找内容相似的文件[8-9]o网页之间的大量转载使得网页冗余非常严重,大量重复网页的存在一方面加重了用户检索和阅读的负担;另一方面,也浪费了大量的存储资源,降低了索引效率,影响了准确率和召回率[3・7]。因此,准确、快速的发现并去除重复网页将是一项具有实际意义的工作。随着文本信息处理技术的发展,人们判断和处理近似网页的方法也日益丰富,如文本分类、聚类技术、特征码检索技术、特征串模糊匹配技术等等。=|闻网页去重策略,该方法应用转载的新闻网页大多会标出其这一特征,并结合网页文本内容进行新闻网页去重,提取主题信息。篇部分重复新闻网页,在PC机器CPU为T5750,2.00GHz,内存为1024M,操作系统为WindowsXP的实验环境下进行实验,应用正确率及召回率对算法进行评价,实验结果如表1所示:表1实验结果图4文本...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?