1Web数据挖掘的概念WebMining(Web挖掘是由OrenEtzioni在1996年首先提出的[1],“”因特网的数据挖掘、“Web”“”“知识发现、网络信息挖掘、Web”信息挖掘等也可以认为是Web挖掘的同义词。一般,对Web数据挖掘做如下定义:Web数据挖掘是指Web从文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输出,那么Web挖掘的过程就是从输入到输出的一个映射[2]。Web数据挖掘是一项综合技术,是从WWW资源上抽取信息(或知识的过程,是对Web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。它反复使用多种数据挖掘算法,从观测数据中确定模式或合理模型,也是将数据挖掘技术和理论应用于对WWW资源进行挖掘的一个新兴的研究领域[3]。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。2Web数据挖掘流程Web数据挖掘过程是一个完整的KDD过程,但与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程包括如下四个步骤:2.1查找资源:根据挖掘目的,从Web资源中提取相关数据,构成目标数据集,Web数据挖掘主Web数据挖掘研究综述李森1,2胡学钢1李正吉2(1合肥工业大学计算机与信息学院安徽合肥230009;2山东信息职业技术学院信息工程系山东潍坊261041摘要:随着Internet/Web技术的快速普及和迅猛发展,各种信息可以以非常低的成本在网络上获得,如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。Web数据挖掘旨在发现隐藏在Web数据中潜在的有用知识、提供决策支持,已经成为数据挖掘领域中新兴的研究热点。本文综述了基于Web的数据挖掘概念、流程、主要技术及分类,分析了Web数据挖掘的热点研究方向。关键词:数据挖掘;Web挖掘中图分类号:TP393.09文献标识码:A文章编号:1673-0968(200801-0098-03要从这些数据通信中进行数据提取。其任务是从目标Web文档中得到数据。值得注意的是,有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。2.2信息选择和预处理:从目标数据集中除去明显错误的数据和冗余的数据,进一步精简所选数据的有效部分,并将数据转换成有效形式,以使数据开采算法(包括选取合适的模型和参数寻求感兴趣的模型。其任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告链接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。2.3模式发现:对预处理后的数据进行挖掘,自动进行模式发现,从Web站点间发现普遍的模式和规则。2.4模式分析:对发现的模式进行解释和评估,必要时需返回前面处理中的某些步骤以反复提取,最后将发现的知识以能理解的方式提供给用户。可以是机器自动完成,也可以是与分析人员进行交互来完成。3web数据挖掘中的主要技术Web数据挖掘中常用的技术有Web使用的特有的路径分析技术,数据挖掘领域常用的关联规则、序列模式、分类聚类技术等。3.1路径分析技术2008年第1期(总第143期山东纺织经济计算机应用98用路径分析技术进行Web数据挖掘时,最常用的是图。因为Web可以用一个有向图来表示,G=(V,E,其中:V是页面的集合,E是页面之间的超连接集合,页面定义为图中的顶点,而页面间的超链接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站结构图,从图中确定最频繁的访问路径。3.2关联规则挖掘技术关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期间(Session,从服务器上访问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(Reference关系。最常用的是用APRIOR算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。3.3序列模式挖掘技术序列模式数据挖掘就是要挖掘出交易集之间的有时间序列关系的模式。它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问...