基于本体的语义搜索研究综述

第1页共15页基于本体的语义搜索研究综述摘要:基于本体的语义搜索将Web搜索带入一个新时代。它使我们能够在浩瀚的网页中更加快速准确地找到想要的信息。本体具有明确的概念描述,基于本体的搜索能够评测关键词之间的语义差异,从而在文档或者查询中找到更准确的结果。因为所选本体的不同,基于本体的语义搜索方法也会不同。该文总结了多种不同的研究方法,并根据搜索相关技术的分类标准进行了比较。最后通过这些比较,找到今后进一步研究的方向。关键词:本体;语义搜索;概念;关键词:TP311文献标识码:A:1009-3044(2015)02-0153-031引言语义网的目标是扩展现有的Web标准和技术,实现自动化地处理Web语义[1]。传统的搜索引擎使用关键词检索用户需要的信息,第2页共15页实际上在网页搜索过程中,可以使用多种方式来表达查询,将关键词映射要相关主题的语义层。在搜索过程中使用本体能够加强用户与计算机之间的语义沟通,使查询结果更接近用户的需求。目前已经公布的基于本体的搜索引擎有很多。它们的应用领域和具体实现都有所不同,但是它们的目标都是提高搜索的查全率和查准率。基于本体的语义搜索能更加智能地在Web查询过程中使用各种方法或结构。研究人员常用领域本体表达特定领域知识的概念和关系。本文将介绍这些搜索引擎利用领域本体处理查询请求所采用的不同方法。1)相关术语传统的搜索依据的是关键词是否在文档中出现。基于本体的语义搜索定义为利用领域本体的背景知识库进行信息检索的过程。领域本体是具有层次结构的术语集,这些术语是描述此领域知识库的框架[2]。用实体、实例和属性来表示词语之间的关系或槽。基于本体的语义搜索的目的是最大化查准率和查全率。第3页共15页2分类标准本节介绍几种不同的基于本体的搜索的分类标准。分类标准是在搜索过程中的重要步骤,包括:本体技术,语义标注,索引,排序,信息检索模型(IR模型)和性能改进。1)本体技术本体是实现语义Web的基础,相关技术包括推理机,标注工具,基于本体的爬虫(2014届国际智能计算的应用会议中提出)和挖掘工具。在几种不同的本体描述语言里,RDF和OWL得了广泛的认可。Java语言提供了JenaAPI和AJAX技术,可以用来存储和处理RDF数据。2)语义标注概括地说,语义标注是在文本中分配实体,用以链接到它们的语义描述[15]。语义标注分为手动语义标注、半自动语义标注和自动语义标注三种类型。下面是语义标注的先决条件:(1)本体,定义实体类;语义标注中可能涉及到这些类。第4页共15页(2)实体标识,允许区分并链接到它们的语义描述。(3)一个实体描述的知识库。3)索引索引是为了更快的检索信息而进行的信息存储。一个搜索引擎必须保留在抓取过程中获得的所有内容,并以索引的形式存储,以便下次更容易地查找。索引的目的是为了加快匹配过程。索引的分类:(1)转发索引:存储每个文档的单词列表。(2)倒排索引:为每个单词存储所有文档的列表。(3)图索引:给定一个查询图,查找索引并检索答案集,验证哪些图包含查询图,返回查询结果。4)排名排名取决于查询结果的排序过程。搜索引擎会请求匹配和并为查询结果进行排名。匹配是选择元素的子集进行评分。排名是由相关概念的相似度决定的。排名是在句法/语义映射完成后,依据网页第5页共15页的评分进行计算得来的。最后将已经排序好的网页结果进行索引之后返回给网页的使用者。排名模型的类型如下:(1)句法排序模型:是依据查询关键词与搜索引擎数据库相匹配而进行的搜索,从TF-IDF到谷歌PageRank,这些著名的信息检索排名技术丰富了这种搜索的排名方法。(2)语义排序模型:搜索是基于结果的相关性,缩小了语法和语义之间的差距,根据相关性得到的结果集,可以更好的满足用户的需求。5)信息检索模型(IR模型)IR模型的作用是提供一个形式化的信息发现过程。下面是3种IR模型:(1)布尔模型C一方面是基于关键词的查询,另一方面用关键词的组合表示一个文档,用关键词的逻辑描述表示一个查询(2)矢量模型C表示用户查询和文档中的所有关键词形成的空间矢量。第6页共15页(3)概率模型C采用基于概率理论的数学模型。6)性能改进基于本体的...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?