浅谈网页模糊归类的应用摘要:因特网目前是一个巨大、分布广泛、全球性的信息服务中心,但Internet所固冇的开放性、动态性与异构性,使得准确快捷地获取网络信息存在一定难度。针对这一问题,本文提出了模糊归类网页信息提取方法。Abstract:Internetisahuge,widelydistributed,globalinformationservicecenter,buttheInternetisinherentlyopen,dynamicandheterogeneous,makingaccesstonetworkinformationaccuratelyandquicklyacertaindegreeofdifficulty・Tosolvethisproblem,thispaperproposesafuzzyclassificationofWebinformationextraction.关键词:Internet;网页;模糊归类Keywords:Internet;webpage;fuzzyclassification:TP39文献标识码:A:1006-4311(2010)27-0162-010引言冃前,Web上的资源发现主耍集中于文档的搜索和提取,即Web内容的挖掘。网页文本挖掘有两种常有方法,取出基于内容的方法和协同的方法。这两种方法都是基于机器学习的,较广泛地用于Web文档或新闻的挖掘中。但这两种方法在网页信息提取上准确率不够高,本文提出的基于并行模糊归类的网页信---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---息提取方法具有较好的提取效果。1网页模糊归类步骤与算法简单地说,网页自动归类所要完成的任务就是在给定的分类体系下,根据网页的内容自动地确定网页关联的类别。如果从纯数学角度来看,网页分类的过程实际上就是一个多对多的映射过程。依据“贝叶斯假设”的内容,可以假定组成网页的元素在确定网页类别的作用上相互独立。这样,可以使用网页中出现的字或词的集合来代替网页,即用一个向量来表示文本:D(W1,W2,W3……Wn),其中Wi为第i个元素(以下均称为“特征项”)的数值。当然,这将丢失大量关于网页内容的信息,但是这种假设可以使网页的表示和处理形式化,从而让计算机可以处理网页。构成网页中的文本的词汇,数量是相当大的,因此,表示网页的向量空间的维数也相当大,可以达到几万维,所有几万个词汇对网页分类的意义是不同的。首先,需要考虑词语的性质。一些通用的、各个类别都普遍存在的词汇对分类的贡献是很小的,因此特征提取过程需耍去掉对表达网页类别不太重要的词汇。例如“的”、“地”、“得”、“着”、“了”等等。其次,在某特定类中出现比重大而在其他类中出现比重小的词汇对文本分类的贡献大,为了提高分类精度,可以利用词语的互信息量筛选出针对该类的特征项集合。具体操作方法是算出每个词语的互信息量并排序,然后抽取前n个词语作为该类别的特征项,抽取的原则是反复试验使得网页归类效果最优。在归类过程中,采用三级模糊综合评判。一级指标因素集(网页中出现位置)包括:网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML标记。二级指标因素集(词性)包括:名词,动词,形容词,副词,介词,连词,助词,数字,符号。三级指标因素集:待分类网页中所包含的全部词语的频数。评价集确定为V={V1(不属于0),V2(不太可能属于0.25),V3(可能属于0.5),V4(很可能属于0.75),V5(属于1)}o---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---专家随机抽取了300篇网页,对这些网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析、研究,将一级指标因素权重集确定为A={0.128,0.128,0.128,0.104,0.104,0.104,0.06,0.06,0.06,0.06,0.05,0.05};根据语言学专家对各类别中不同词性的词语对标志一个类别(以中图分类法为标准)重要性程度统计和评分,将二级指标因素权重集确定为An二{0.28,0.18,0.24,0.06,0.05,0.04,0.04,0.06,0.05};根据词语的互信息量确定出三级指标因素权重为Anm={Anml,Anm2…Anmx}其中,Anmx即为对应词语的互信息量。下面就要根据多级模糊综合评判的计算方法与步骤将待归类网页与所有类别的平均参照样本进行一遍计算,得出一组表示该网页与各个类别贴近度的数值。然后按照“最大隶属原则”,将网页划到Vn值最大的对应的类别中;或者用“域值法”,事先确定一个不大于1的域值入,若Vn>入则认为网...