一种基于主题的网页实时分类模型的研究

一种基于主题的网页实时分类模型的研究马健红,张晨光(河北工业大学计算机科学与软件学院,天津3004(X))摘要:本文首先对一般的分类模型进行了研究,并冃分析了该模型对于网页实时分类的不足之处。在此基础上,为了更适合网页的实时分类,本文提出了基于主题的网页分类模型。首先,通过Ninch构造垂宜搜索引擎的主题爬虫,可以一宜对互联网上的网页进行抓取,保证网页的实时性;然后,通过主题去噪对Nutch的抓取结果进行处理,去除一部分与分类无关的页面;最后,对抓取到的网页进行分类。实验证明,通过此模型,可以在网页分类的速度和准确率上都得到很大提高。对于网页实时分类的大数拥要求,此模型可以冇效优化输入样木,节省计算时间。关键词:计算机应用技术;主题;分类;实时分类中图分类号:TP391」Aresearchofwebpageclassicationonreal-timebasedonthethemeMAJianhong,ZHANGChenguang(HebeiUniversityofTechnology,ComputerScieneeandSoftwareEngineering,TianJin300400)Abstract:Inthispaper,thegeneralclassificationmodelisstudiedfirstly^andanalyzingtheInadequaciesofthegeneralmodelforreal-timeclassificationofthewebpage.Onthisbasis,formoresuitableforreal-timeclassification,thispaperpresentsaclassificationmodelbasedonthetheme.Firstly,constructingthethemeofverticalsearchenginecrawlersthroughNutch,andthewebpagecanbecrawledallthetime,soitcanensurethereal-timeweb.Secondly,removingpartofthepageswitchhasnothingtodowiththeclassificationbyprocessingthecrawlingresultsofNutchthroughthemedenoising.Intheend,thewebpagescrawledcanbeclassfried.Theexperimentshowthatthespeedandaccuracycanbeimprovedwiththemodel.Fortherequirementofbigdataofthewebpageclassificationonreal-time,thismodelcaneffectivelyoptimizetheinputsampleandsavecomputingtime・Keywords:computerapplicationtechnology;theme;classification;real-timeclassificationo引言随着互联网技术的快速发展,网上的信息量剧增,与此同时,网页的数量也呈指数增长。但是,用户对于信息的快速查找、及时获取,反而山于信息的复杂,愈发显得困难。山此,网页分类技术逐步发展起来。网页分类技术可白动、快速对网页进行类别划分,在目前火热的搜索领域以及推荐系统中都有巫要的应用价值和发展前景。网页分类系统主要分为4大模块:网页预处理、特征抽取和权重分配、特征选择、分类器川。目前,国内科研工作者对各模块都进行了细致的研究。网页预处理和特征选择方面,熊忠阳等利用BloomFilter算法对获取的特征指纹进行网页相似度判别,提岀一-种新的大规模网页去垂算法即周奇年等人提出一种基于类别区分词的特征选择方法⑶。实现分类器方面,K■近邻算法(KNN)是目前被证明的最优的网页分类的算法,并忖被进行了深入研究。其中,黄剑华等人考虑样木的分布情况,提出一种局部加权的Citation-KNN算法⑷;吕峰等人提出了一种模糊-证据KNN分类方法⑸。以KNN算法实现的分类模型一般分为训练过程和测试过程。该模型分类精度高,训练时间短,但是也有一定缺陷。当分类数目比较多的时候,山于主题分散,就需要庞大的语料作者简介:马健红,(1965・),女,教授,主要研究方向:人工智能,软件工程。I2l4l86685@qq.com库,计算量巨大,不利于应用于网页实时分类。木文提出一种基于主题的分类模型,通过Nutch构造垂岂搜索引擎的主题爬虫,并H提出主题去噪的预处理方案,优化输入样本,设计了一种更适合于网页实时分类的模型。1网页分类模型1.1一般的分类模型KNN分类模型的基木思路是,首先对部分文件进行预处理,特征提取,文木向量转换,并且进行类别标注,形成训练样木;然后当测试样木到达后,进行与训练样木类似的处理过程;最后通过KNN分类器进行分类。其过程可如卜图所示:图一般的分类模型通过KNN分类模型的过程可知,进行网页分类的时候,每一个测试样木都要与训练样木进行计算。对于大量的样木数据集,由于待分类样木包含类别广泛,如果进行web网页实时分类,会发现计算量巨大...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?