基于领域本体知识库的语义检索研究

基于领域本体知识库的语义检索研究杨清琳+钱文标+杨晓雷摘要:通过建立领域本体知识库,改进传统检索系统基于关键词匹配存在的缺陷,将用户输入的自然语言查询经分析推理后上升到语义层面,构建了一个基于领域本体知识库的语义检索模型,提高了检索性能。关键词:本体;知识库;语义检索DOI:10.16640/j.cnki.37-1222/t.2018.04.1960引言传统的搜索引擎技术虽然日趋成熟,但其主要是通过关键词机械式的匹配进行检索,存在如下问题:返回大量与检索主题无关或关联很小的结果,用户还需要二次筛选才能获得所需信息;用户需要的重要信息被漏检;跟检索主题无关的信息却被作为结果检索出来。本文结合领域本体知识库,设计一个面向特定领域的语义检索模型,将用户输入的自然语言查询语句上升到语义层面,把握用户真正的检索意图,提高检索性能。1语义检索的研究现状语义检索技术为访问Web信息提供了有效思路,关于该技术近几年的研究工作,大致有基于本体的语义检索、自然语言处理和基于概念的方法等。Voorhees使用本体中的同义词和概念的子类关系对查询扩展进行探索[1];Fernández利用本体层次结构进行语义相似度的计算,并对文档使用本体概念进行标注后建立索引,实现了增强式的语义检索。国内的相关研究如宋俊峰[2]提出的基于本体的信息检索模型;武成岗在本体技术的基础上建立的多主体信息检索服务器。自然语言处理和基于概念的方法是另外两种常用的语义检索方法。分词、短语识别和词义消歧是自然语言处理中最为主要的技术[3]。2基于领域本体知识库的语义检索研究2.1本体知识库本体作为一种概念建模的手段,能够利用本体节点中概念之间的关系描述出概念语义,而且还能实现逻辑推理。领域本体知识库是通过将特定领域中的概念和关系进行抽象提取,作为一种领域信息资源有效的组织框架。基于本体技术来构建领域知识库,通过逻辑推理可以发掘概念之间不明确的信息和隐含语义关联。将本体知识库引入到信息检索中,使用推理机制来扩展用户查询,实现从语义层面把握用户输入的查询语言,通过推理理解用户真正的检索意图,以排除自然语言表达描述存在的歧义,获得用户真正需要的有用信息,实现信息的智能语义检索。本文采用本体编辑工具Protege手动建立本体。抽取特定领域的概念来设计本体模型,编辑本体中的元素,包括类、属性、实例,其中概念之间的主要关系为“同位”和“下位”。对构建好的领域本体利用Jena进行相应的推理操作。2.2语义检索模型设计本文设计的语义检索模型,主要由四大关键模块组成,分别为:查询自然语言预分析处理、本体知识推理、语料文档前期处理和检索结果排序,本体知识库语义检索模型如图1所示。2.2.1查询自然语言预分析处理查询自然语言预分析处理模块接收用户输入的自然语言,采用ICTCLAS汉语分词系统对用户查询语句请求进行分词,并过滤查询语句中的停用词、特殊字符和无意义的词,将用户查询语句分解为独立的词汇集合。2.2.2本體知识推理具有语义推理能力是基于本体知识库的语义检索系统较基于关键字的检索系统的最大优势,也是语义检索系统模型的核心。推理系统通过将推理规则、策略编写成程序代码,实现语义自动推理。推理系统接收前期经过查询自然语言预分析处理的关键字后,结合本体知识库中的推理策略实现语义推理。在本文的检索模型中,由于所建立概念之间的主要关系为“同位”和“下位”,所以本文检索模型只能实现这两种逻辑关系的推理。原始检索关键字经过推理机进行语义推理后可以将本体知识库中与概念相关的类、对应的实例及关系加入到检索关键词中,扩展原始查询,再提交给检索引擎进行检索。2.2.3语料文档前期处理建立语义索引库是语料文档前期处理的最终目的。本文利用网络爬虫工具Crawler从互联网上收集到近万个Web文档,存入检索信息库中作为测试语料,其处理过程如下:预处理web文档,然后去除HTML标签、停用词等,提取存储文档中的文本信息;对文本信息进行分词,并将特征信息作为特征词提取出来;然后将特征词比较匹配知识库中的概念节点,并将概念的同义词添加到文档概念集中,形成文档概念集;文档概念集的权重利用TF-IDF算法来进行计...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?