基于本体的信息检索模型研究

基于本体的信息检索模型研究摘要:根据文档处理方式的不同,将基于本体的信息检索系统分为基于知识库的语义检索系统和基于语义网文档的信息检索系统两类。对这两个模型的实现原理和关键步骤进行了阐述;探讨了基于本体的信息检索模型中的关键技术,并指出当前研究中存在的不足;最后对基于本体的信息检索系统的研究热点和方向进行了展望。关键词:本体;信息检索;语义标注;知识库;语义网文档:TP391.3文献标志码:A:1001-3695(2008)08-2241-04Researchonontology-basedinformationretrievalsystemmodelsZHANGYu-ming??1,2??,NANKai??1,MAYong-zheng??1(1puterNetworkInformationCenter,ChineseAcademyofSciences,Bei激ng100080,China;2.GraduateSchool,ChineseAcademyofSciences,Bei激ng100049,China)Abstract:Accordingtomannersinwhichdocumentswereprocessed,dividedthesystemsintotwocategories:knowledge-basedsemanticinformationretrievalmodelandinformationretrievalmodelbasedonsemanticWebdocuments.Then,discussedhowthetwomodelsoperateandrealizeimplementationsandapproaches.Further,studiedthetechnologiesinvolvedinthemodelsandclaimedfourresearchproblems.Intheend,predictedthehotresearchtopicsanddevelopingtrend.Keywords:ontology;informationretrieval;semanticannotation;knowledgebase;semanticWebdocuments(SWD)本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,具有良好的概念层次结构和对逻辑推理的支持。它在计算机领域中的应用使信息检索从基于关键词的层面提高到基于知识(或概念)层面上成为了可能。将本体融合到传统信息检索技术中,不仅可以对文档中的信息进行语义层次上的处理,还可以结合用户的检索条件利用Web上的语义信息进行推理,进而得到较为准确的结果。1基于本体的信息检索系统的分类近年来,美国、欧盟等语义网研究机构和大学实验室相继设计和提出了不少有代表性的基于本体的信息检索系统,如基于语义网检索的Metalog[1];最早基于顶层本体设计的WebKB[2];基于XML表示的Quest[3]、Elixir[4]、XIRQL[5]等。这些系统开发的设计理念和侧重点不尽相同,没有明确的分类方法对这些系统进行界定。虽然不少信息检索系统引入了本体的概念,但是不同的信息处理方式导致研究学者在论述基于本体的信息检索系统时,经常混淆本体在系统中扮演的角色。本文根据对文档处理方式的不同,将基于本体的信息检索系统分为基于知识库的语义检索和基于语义网文档的信息检索两类??。基于知识库的语义检索系统主要利用自然语言处理技术根据领域本体描述将网页或自然语言文本转换为大量信息实体。这种信息实体以某种知识表示语言描述存储在知识库中,搜索引擎可以对知识库进行推理和检索。早期的SHOE项目[6]、欧洲科研信息系统AURIS-MM[7]以及OntoText语义研究实验室开发的KIM[8]平台等都是基于知识库的语义检索系统的代表。基于语义网文档的信息检索系统的处理对象主要包含语义标注语言的网页,由语义网语言书写的语义网文档能被软件代理直接访问。它将语义网文档中的语义信息转换为搜索引擎能够处理的统一格式,存储在一个RDF文件或OWL文件中。这类系统包括Ontobroker[9]、马里兰大学设计和研发的基于语义网搜索引擎原型系统Swoogle以及UMBC大学eBiquity实验室开发的语义网信息检索、推理引擎OWLIR[10]等。从两类系统的划分依据上可以看出,基于知识库的语义检索系统采取了向前兼容的策略。所谓向前兼容是指尽可能维持现有Web内容的形式,利用知识表示技术建立庞大的知识库,在已成熟的互联网搜索技术上进行有益的改进。基于语义网文档的信息检索系统采取向后兼容的策略,即其实验平台是BernersLee等语义网学者推崇的语义网,代表着互联网的发展方向。2基于本体的信息检索模型2.1基于知识库的语义检索模型基于知识库的语义检索模型(图1)首先建立基于领域知识的本体库对文档进行预处理,建立本体库中实例与文档的链接关系。根据用户提交的请求检索知识库,对实例中的隐含信息进行推理,返回符合查询条件的文档集合。检索的结果经过排...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?