基于字符统计的新闻网页去重方法研究

基于字符统计的新闻网页去重方法研究#蒋金平1,郭艳卿1,赫然2**(1.大连理工大学电信学院,辽宁大连116024;5101520253035402.中科院自动化所,北京100190)摘要:针对新闻报道网页篇幅较短的特点,提出了一种基于字符统计的新闻网页去重方法。通过字符统计和去停用词处理提取出新闻报道中具有代表性的特征字符,对字符组合形成的4-Gram特征串进行数字指纹计算,通过数字指纹之间匹配的交集大小判断网页之间的相似度,去除相似度高的待测网页。在网络新闻语料库的基础上进行了实验,并与两个网页去重算法进行了对比。实验表明,本文提出的算法去重效果良好,去重的准确率、召回率和F值分别达到了100%、92%和95.83%,比较两个算法F值分别提高了15%和13%。关键词:网页去重;字符统计;指纹计算;4-Gram特征串;数字指纹匹配中图分类号:TP391.1StudyonMethodsofDuplicateNewsSitesRemovingBasedonCharacterStatisticsJiangJinping1,GuoYanqing1,HeRan2(1.DalianUniversityofTechnology,LiaoNingDaLian116024;2.InstituteofAutomation,ChineseAcademyofSciences,Beijing100190)Abstract:Acharacterstatistics-basedduplicatenewssitesremovingmethodwasproposedinthispapertofocusontheshortofnewssites.Weextracttherepresentativecharacterthroughfiguringoutthecharacterandre-movethestop-word.Then4-Gramcharacteristicstringofcharacterswasextractandtheirfingerprintswerecalculated.Thesimilaritybetweenthepageswasjudgedthroughtheintersectionbetweendigitalfingerprintsmatching.Atlast,thenewssitewasremovedwhichissimilarwithoneormorepagesfromthepagecorpus.Theexperimentsweredonebasedonthenewspagescorpusandtworelatedalgorithmswerecomparedwithproposedalgorithm.Theresultsshowedthattheproposedalgorithmhasgoodperformance.Theaccuracy,recallandF-valueswerereached100%,92%and95.83%.F-valuewasincreasedby15%and13%comparingtothetwoalgorithms.Keywords:duplicatesitesremoving;characterstatistics;fingerprintscalculation;4-Gramcharacteristicstring;matchofthedigitalfingerprints0引言随着互联网的高速发展,越来越多的机构和个人通过网络来发布信息,博客微博等新兴网络产物的发展造成了网络转载越来越流行,新闻网站对突发新闻事件的重复报道、相互转载等现象造成了互联网上重复网页或者高度相似网页的大量出现。文献[1]通过建立的搜索引擎用户满意度测评理论模型发现,百度和Google中国返回结果都存在着比较严重的网页重复现象。网络上大量重复网页存在许多弊端:(1)降低用户体验,阅读重复网页浪费读者的宝贵时间,在浏览过程中遇到相互转载等重复网页影响用户体验。(2)造成存储资源的浪费,增加了服务器对重复网页的维护难度。(3)增加了搜索引擎等的索引质量,搜索引擎需要对网页进行索引,大量的重复网页基金项目:国家教育部高等学校博士点学科专项科研基金(20100041120009)---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---作者简介:蒋金平,(1986-),男,山东东营人,大连理工大学信通学院硕士研究生,研究方向为文本挖掘。通信联系人:赫然,(1979-),男,辽宁大连人,博士,中科院自动化所模式识别国家重点实验室,副研究员。rhe@nlpr.ia.ac.cn-1----本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---会造成索引时间复杂度增加并影响搜索引擎的检索质量,最终受影响的是互联网用户。目前,如何从网页结构或内容上对这些重复网页进行快速检测并进行有效消除已成为搜4550556065707580---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---索引擎的关键技术之一。对互联网上出现的重复网页进行检测并消除的技术叫网页去重。本文简单回顾了国内外典型的网页去重方法,然后针对新闻报道网页,提出了基于字符统计的新闻网页去重方法。在新浪、搜狐、网易、新华网和人民网5个新闻网站语料库的基础上,对本文提出的方法进行了验证,并与基于特征码的...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?