基于动态异构的Web信息集成网页分析方法

基于动态异构的Web信息集成网页分析方法摘要:将动态异构的Web信息资源进行抽取以统一的方式供用户查询和使用,是当前迫切需要解决的问题。介绍了分析相关Web页面的方法和经验,实现了自动提交HTML表单获得所需页面和对页面的信息抽取。最后,实验证明了此方法的有效性。关键词:网页分析;信息抽取;模式匹配:TP391文献标志码:A:1001-3695(2007)12-0204-03随着Internet的快速发展,Web资源已经成为一种人们获取信息的主要。但是对于需要查询的信息,很多网站必须经过注册登录后方可使用提供服务的页面,而且各个网站的信息表示具有很大的异构性,给用户带来很大不便。为了访问Web上大量有用的信息,动态异构的Web信息集成方法就成为了一个研究的热点。由于Web资源具有的海量、异构、动态变化等特性,使信息集成不同于传统信息抽取,设计实现一种Web信息集成方法需要经过一个很复杂的过程,它涉及到很多方面的问题。首先对于动态异构的Web资源,需要分析其网页表单,模拟用户点击行为找到结果页面,这些都是异构数据源在集成应用中的难点问题;此外,Web网站的动态变化对于保持信息抽取的准确性也是一个挑战,有待研究者去解决。因此,信息集成设计者在部署新的系统之前需要确保它能够可行并且具有所期望的执行效率。1信息集成工作流程现在很多网站提供的页面往往并不是可以通过一个简单的URL就可以访问的,而必须经过注册并登录后方可使用提供服务的页面。不同的资源对于登录有不同的限制。由于与Web交互的细节需要人们自己来实现,这就需要人们对访问Web资源的细节进行模拟和描述,得到所需结果页面;然后通过分析页面结构和内容,采用相应的抽取算法,将信息抽取出来存入相应的数据库中;最后以统一的形式显示。信息集成工作流程(图1)由四个部分和相应数据库构成。a)源数据站点分析模拟主要对资源站点的页面结构进行分析,通过分析获取其请求参数用来模拟请求。其分析结果包括如何得到查询结果页面及其规律等。b)网页抓取根据分析模拟将查询得到的结果页面抓取到本地计算机,以供信息提取作进一步分析之用。c)信息抽取通过分析网页结构和内容,总结出其抽取规则,采用相应的抽取算法,将所需信息抽取出来。d)数据入库将抽取出的信息记录存放在相应的信息记录数据库中,以提供给用户查询和使用。网页源数据站点分析与提取技术是实现和Web资源自动交互的基础,也是对所需网页提取数据的基础。一方面,与Web资源的交互过程中,有些参数和数据是通过网页分析与提取获得的;另一方面,得到的所需网页是通过网页分析和提取获得的。2源数据站点分析模拟原理与实现用户通过浏览器来访问Web资源时,浏览器为用户隐藏了与Web资源交互的具体细节,用户看到的只是结果。对于需要查询的信息,一般显示通过Web浏览器登录到一个Web服务器,输入查询条件,提交查询请求,服务器返回查询结果。由于用户与Web资源的交互是以协议为基础进行的,这种交互可以由程序模拟出浏览器向远程Web服务器发送请求的过程。用户每查询一次信息,就是向服务器发送一次请求的过程。协议是基于请求/响应模式的。请求信息由请求行、请求头部域和请求实体三部分组成。请求行中的方法描述指定资源中应该执行的动作。常用方法有get、post和head。请求头部域是关于该次请求的一些附加信息。请求实体则是该次请求所需传递的一些参数信息。响应信息由响应行、响应头部域和响应实体三部分组成。响应行主要显示版本,以及此次响应结果的状态码;响应头部域为该次响应的附加信息;响应实体则为该次响应结果的详细信息。由于可以通过程序模拟发送请求的过程,对于请求信息的获取是模拟成功的关键。有些Web服务程序的设计要求浏览器端通过脚本技术,对检索项进行预处理,在浏览器端生成一个检索表达式,再将此表达式以请求的方式传递给服务器进行检索。在此情况下,需要分析HTML文件中的脚本代码,构造出正确的检索表达式。有些请求信息参数是动态变化的。这需要人工仔细分析,找出其中规律,才能实现实时请求、实时响应,以及对查询页面的翻页等功能。这些参数信息都不能有丝毫差错。可以借助已有的一些网络通信拦截工具...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?