基于Web数据挖掘技术研究

基于Web数据挖掘技术研宄摘要:基于Web的数据挖掘是采用数据挖掘技术对网页资源进行挖掘的一个热门研宄方向,此文分析了了网页数据挖掘的概念、分类、挖掘原理以及相关技术。关键词:数据挖掘;Web数据挖掘;分类;挖掘技术中图分类号:TP311文献标识码:A文章编号:1009-3044(2015)09-0016-02Abstract:WebbaseddataminingisahotresearchdirectionofWebpageminingresourcesusingthetechnologyofdatamining,thispaperanalysestheWebpagetheconceptofdatamining,classification,miningprincipleandrelatedtechnologyKeywords:datamining;webdatamining;classification;miningtechnology互联网的不断得到发展,网页中数据量迅速增加,如何从这么多的网页信息中获取有用的数据已经成功数据挖掘領域的一个热门的研究方向,数据挖掘是近几年来迅速发展的进行信息获取的一个重要渠道,尤其大量运用与社会和科学的方方面面。一般来说数据挖掘主要利用计算机和相关的信息技术,把有用的数据从海量的网页数据中挖掘出来,为我们从事其他方面的运用。基于网页的数据挖掘是一门技术的综合研究方向,它的思想是从Internet中提取网页中的大量数据,也就是从网页的数据结构中发现隐含的模式[1]。1数据挖掘的特点1)数据挖掘的特点之一就是半结构化,这个特别算是网页数据挖掘的最大特点[2],因为网页上的数据分布没有规律,非常复杂,没有任何固定的模式能够很好的描述它的特点。因此称它为半结构化。2)数据挖掘的特点之二是网页中的数据比较分散,这些网页数据存在世界各地的很多服务器上,因此是一种数据源分散的结构。3)数据挖掘的特点之三是数据库的结构存在不同,因为互联网上的一个网站可以存为一个数据源,它们的结构互不相关,异构性特点比较强,由它们构成的数据库自然而然也属于一种异构的形式。4)数据挖掘的特点之四是动态性强,网站上的数据资源是不断更新变化的,找不到固定的形式,网站与网站的直接访问的链接是形式变化的。2数据挖掘过程基于Web的数据挖掘与传统的数据仓库相比,网页上的信息是半结构化的或非结构化、不容易识别、变化的,正因为它这些特点,要想在网页上开展直接数据挖掘,可谓很费功夫,就要借助一些方法来预处理数据,才能方便挖掘。通常进行网页数据挖掘可分为的如图1所示的四个步奏。1)数据源的获取,在网站的各个页面中获取数据信息,组成目标数据信息源,再从这些信息源中找到相关有用的数据。这个过程的目的就是从像网页文档、email、网页记录、新闻信息、各种网站数据库中挖掘出有用的数据。2)把获取的数据进行加工处理,网页数据挖掘的好坏直接与数据源的好坏相关,如果获取的数据源有大量的垃圾数据,对数据挖掘过程有很大的影响,因此挖掘之前需要对数据源进行筛选,消除那些杂音数据,保证数据源的纯正,然后将这些已经过滤的数据再次装入数据库中进行下一步的分析。3)对数据经过提纯处理后,进入模式寻找阶段,这需要各种挖掘算法分析、挖掘大量的、隐藏的、潜在的、可被利用的数据模式。在挖掘的过程中,经常会使用到一些相关的方法,例如聚类分析法、关联规则发等挖掘方法。4)在对数据模式发现后,需要对这些模式进行挖掘,也就是知识的转换过程,把提取到的模式再进行信息转化,转化为我们能够理解,识别的知识,为我们的决策需要提供有用的参考源。3数据挖掘分类在进行数据挖掘的时候,针对不同的数据结构,会采用不同的挖掘方法,这样才能有效、合理挖掘到有用的数据,不能笼统采用一种方法,这样挖掘的数据相应的杂音数据就比较多。大体上,我们把数据挖掘分为三种类型,即:网页使用挖掘、网页结构挖掘、网页内容挖[3],如图2所示。4数据挖掘相关技术互联网的发展促进网页数据挖掘得到越来越多的应用,于是针对网页挖掘的各种方法和技术不断出现,就这些相关的技术[4],下面分别一一介绍。4.1网页内容挖掘4.1.1网页文档挖掘网页文档挖掘就是分析网站上存在的数量很多的网页文档采用聚类、分类、关联处理等多种方法进行分析然后根据网页文档进行预测。在Internet的文档数据一般都是以html格式的网页文档出现,要采集这些网...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?