基于HTML树和模板的文献信息提取方法研究第27卷第12期2021年12月计算机应用研究ApplicationResearchofComputersVoL27N12基于HTML树和模板的文献信息提取方法研究冰李文立,王乐超,宋春雷(大连理工大学管理学院系统工程研究所,辽宁大连116024)摘要:教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广阔的应用前景.提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取.实验结果说明该方法在提取网络数据库中文献信息的准确率在94%以上.关键词:网页信息提取;文档对象模型树;模板;文献信息搜集:TP311.13文献标志码:A:1001—3695(2021)12—4615—03—MethodofpaperinformationextractionbasedonHTMLtreeandtemplateLIWen-li,WANGLe-chao,SONGChun—lei(£fⅡofSystemsEngineering,SchoolofManagement,DalianUniversityofTechnology,DalianLiaoning116024,China)Abstract:TheautomaticcollectionoftheteacherresearchpaperinformationiSanimportantmeansofeffectivemanagementofscientificresearch,thereisabroadapplicationprospectstoapplythemethodofWebpageinformationextractiontothepaperinformationcollection.ThispaperproposedamethodofpaperinformationcollectionbasedontheHTMLtreeandtemplate.iSabove94%incollectingthepaperinformationfromtheWebdatabase.Keywords:Webinformationextraction;DOMtree;template:documentinformationextraction0引言随着Internet的迅速开展,Web已经成为一个数据量巨大Web的数据挖掘是人们获取信息的有效途径,如何有效地利用Web上的信息就变得非常重要.因此,从Web上检索和发经常含有与主题无关的信息,如广告信息,导航条和无关链接等,它们通常分布于网页四周,有的甚至嵌入到网页正文中,这息首先面临的问题就是Web数据源的有效识别并通过适当的文献检索数据库,其检索结果的呈现方式大多是HTML页面,信息的获取通常需要人工干预,也不能满足用户的个性化查询性化查询需求成为文献管理中的一项重要工作,将HTML页面信息的抽取机制应用于文献信息的获取与需求匹配有广阔的应用前景.国内外对Web信息提取已经进行了大量的研究工作,微软研究院提出了一种根据网页视觉特征的网页信息提取方法,将页面根据文字大小,颜色等信息划分为视觉块,进而提取网页的主题信息.但是由于视觉特征的复杂性,很难找献[4]提出了利用HTML标记来对网页中的内容进行分块,然后进行信息提取的方法,但这种方法的主要目的是排除网页内容中影响搜索引擎检索精度的干扰信息,并不是为了提取网页中的正文信息.文献[5]的方法将HTML转换为STU.DOM树,并通过引入局部相关度和上下文相关度对STU—DOM树进行节点过滤与剪枝,最后生成只包含主题内容的HTML文件.该方法仅考虑了非链接字数和块内链接语义,有一定的局限性.文献[6]中采用用户输入页面描述文件对层次结构抽取,该描述文件需要用户描述抽取过程的具体变量和编写抽取方法,这种方法只能适用于某些特殊的页面,通用性较差.文献[7~9]提出的基于包装器的方法能根据不同类型的页面生成相应的包装器,从而提取结构相似页面的正文信息,但是这种方法在生成包装器时工作量较大,无法适应于页面结构的动态变化.文献[1O]提出了一种基于树相似度的模板生成方法,并将生成模板用于页面结构信息的提取,其模板生成过程比拟复杂,在提取结构简单页面的信息时往往代价较大,在提取页面特定信息时也很难到达理想效果.本文在总结HTML页面信息提取方法的根底上,将HTML根据实验样本生成页面的HTML树结构,然后根据目标信息—06;修回日期:2021-07—23基金工程:国家自然科学基金资助工程(70572099);辽宁省自然科学基金资助工程(1050349)作者简介:李文立(1969-),男,副院长,教授,博导,主要研究方向为决策支持,信息系统建模,电子商务(wlli@dlut.edu);王乐超(1985-),硕士研究生,主要研究方向为文献信息提取.?4616?计算机应用研究第27卷得到提取页面信息的模板,最后将此模板用于...