基于HTML树和模板的文献信息提取方法研究

基于HTML树和模板的文献信息提取方法研究第27卷第12期2021年12月计算机应用研究ApplicationResearchofComputersVoL27N12基于HTML树和模板的文献信息提取方法研究冰李文立,王乐超,宋春雷(大连理工大学管理学院系统工程研究所,辽宁大连116024)摘要:教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广阔的应用前景.提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取.实验结果说明该方法在提取网络数据库中文献信息的准确率在94%以上.关键词:网页信息提取;文档对象模型树;模板;文献信息搜集:TP311.13文献标志码:A:1001—3695(2021)12—4615—03—MethodofpaperinformationextractionbasedonHTMLtreeandtemplateLIWen-li,WANGLe-chao,SONGChun—lei(£fⅡofSystemsEngineering,SchoolofManagement,DalianUniversityofTechnology,DalianLiaoning116024,China)Abstract:TheautomaticcollectionoftheteacherresearchpaperinformationiSanimportantmeansofeffectivemanagementofscientificresearch,thereisabroadapplicationprospectstoapplythemethodofWebpageinformationextractiontothepaperinformationcollection.ThispaperproposedamethodofpaperinformationcollectionbasedontheHTMLtreeandtemplate.iSabove94%incollectingthepaperinformationfromtheWebdatabase.Keywords:Webinformationextraction;DOMtree;template:documentinformationextraction0引言随着Internet的迅速开展,Web已经成为一个数据量巨大Web的数据挖掘是人们获取信息的有效途径,如何有效地利用Web上的信息就变得非常重要.因此,从Web上检索和发经常含有与主题无关的信息,如广告信息,导航条和无关链接等,它们通常分布于网页四周,有的甚至嵌入到网页正文中,这息首先面临的问题就是Web数据源的有效识别并通过适当的文献检索数据库,其检索结果的呈现方式大多是HTML页面,信息的获取通常需要人工干预,也不能满足用户的个性化查询性化查询需求成为文献管理中的一项重要工作,将HTML页面信息的抽取机制应用于文献信息的获取与需求匹配有广阔的应用前景.国内外对Web信息提取已经进行了大量的研究工作,微软研究院提出了一种根据网页视觉特征的网页信息提取方法,将页面根据文字大小,颜色等信息划分为视觉块,进而提取网页的主题信息.但是由于视觉特征的复杂性,很难找献[4]提出了利用HTML标记来对网页中的内容进行分块,然后进行信息提取的方法,但这种方法的主要目的是排除网页内容中影响搜索引擎检索精度的干扰信息,并不是为了提取网页中的正文信息.文献[5]的方法将HTML转换为STU.DOM树,并通过引入局部相关度和上下文相关度对STU—DOM树进行节点过滤与剪枝,最后生成只包含主题内容的HTML文件.该方法仅考虑了非链接字数和块内链接语义,有一定的局限性.文献[6]中采用用户输入页面描述文件对层次结构抽取,该描述文件需要用户描述抽取过程的具体变量和编写抽取方法,这种方法只能适用于某些特殊的页面,通用性较差.文献[7~9]提出的基于包装器的方法能根据不同类型的页面生成相应的包装器,从而提取结构相似页面的正文信息,但是这种方法在生成包装器时工作量较大,无法适应于页面结构的动态变化.文献[1O]提出了一种基于树相似度的模板生成方法,并将生成模板用于页面结构信息的提取,其模板生成过程比拟复杂,在提取结构简单页面的信息时往往代价较大,在提取页面特定信息时也很难到达理想效果.本文在总结HTML页面信息提取方法的根底上,将HTML根据实验样本生成页面的HTML树结构,然后根据目标信息—06;修回日期:2021-07—23基金工程:国家自然科学基金资助工程(70572099);辽宁省自然科学基金资助工程(1050349)作者简介:李文立(1969-),男,副院长,教授,博导,主要研究方向为决策支持,信息系统建模,电子商务(wlli@dlut.edu);王乐超(1985-),硕士研究生,主要研究方向为文献信息提取.?4616?计算机应用研究第27卷得到提取页面信息的模板,最后将此模板用于...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?