用户定制主题聚焦爬虫的设计与实现

用户定制主题聚焦爬虫的设计与实现闵钰麟1,2,黄永峰1,2(1.清华大学电子工程系信息认知与智能系统研究所,北京100084;2.清华大学信息科学与技术国家实验室,北京100084)摘要:传统的聚焦爬虫在主题未知或者缺少相应训练集的情况下无法完成主题爬行。为让聚焦爬虫具有更好的主题适应性,提出基于聚类算法的自适应主题模型,指导聚焦爬虫在只有少量相同主题(主题未知)初始url的情况下完成主题爬行。通过对初始页面聚类得到主题中心向量,寻找相关网页更新主题中心位置;基于best-first策略实现url排序;基于该模型实现用户定制主题聚焦爬虫。通过对比实验验证了使用该模型的爬虫具有较高的收获比(ha-vestrate)。关键词:聚焦爬虫;k-means;best-first策略;自适应主题模型;用户定制主题爬虫中图法分类号:TP311文献标识号:A:1000-7024(2015)01-0017-05doi:10.16208/j.issn1000-7024.2015.01.DesignandimplementationofusercustomizedtopicfocusedcrawlerMINYu-lin1,2,HUANGYong-feng1,2(1.InstituteofInformationCognitionandIntelligenceSystem,DepartmentofElectronicEngineering,TsinghuaUniversity,Beijing100084,China;2.TsinghuaNationalLaboratoryforInformationScienceandTechnology,TsinghuaUniversity,Beijing100084,China)Abstract:Thetraditionalfocusedcrawlercannotworkwithouttrainsetsofcorrespondtopics.Tomakethefocusedcrawleradapttomoretopicsaclustering-basedadaptivetopicmodelwasproposed,whichhelpedthe不依赖于主题训练集,仅在用户提供少量未知主题的种子url(同一主题)的情况下完成主题爬行,得到针对该主题引言0互联网时代用户的个性化需求越来越高,在实际应用场景下,不同用户的需求通常存在差异,他们希望在其特定领域及方向上进行“定制化”的主题爬行。传统的聚焦爬虫在开始工作之前需要对指定主题进行建模和训练,在缺乏相应主题训练集的情况下无法完成任务,不能满足用户“个性化”需求。本文设计并实现的定制主题聚焦爬虫较高的收获率(havestrate)。相关工作分析1聚焦爬虫通过对url的优先级进行计算和排序,优先访问较高概率指向相同主题网页的url,从而得到较高的收获率[1]。目前改进聚焦爬虫的思路主要有4种:第1种是基收稿日期:2014-01-22;修订日期:2014-03-24基金项目:国家863高技术研究发展计划基金项目(2012AA011004);清华大学自主科研基金项目(20111081023);国家基金委前瞻计划基金项目(61161140454)作者简介:闵钰麟(1987-),男,四川成都人,硕士研究生,研究方向为web数据挖掘;黄永峰(1967-),男,湖北赤壁人,博士,教授,CCF会员,研究方向为网络web信息挖掘及应用和网络隐蔽通信与监测。E-mail:min.yulin@foxmail.com计算机工程与设计·18·2015年于网页链接分析的方法,在论文[2]中,Hati定义了链接距离的计算方法并使用其对链接排序,Taylan在其论文中提出了基于朴素贝叶斯分类器的链接评分方法[3]。第2种思路是基于网页文本分析的方法,主要思路是计算网页文本或锚文本与主题的相关度,并使用相关度作为url排序的基准,例如G.Almpan...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?