基于本体的语义相似度计算方法研究综述

《现代图书情报技术》版权所有,欢迎F载引用!请注明引用地址:基于本体的语义相似度计算方法研究综述[J,现代图书情报技术.20109(1):51-5G.总第188期2010年第1期基于本体的语义相似度计算方法研究综述孙海霞I钱庆I成颖2【摘要】在对基于本体的词语语义相似度进行界定的基础上,对基于本体的语义相似度研究进行综述,分别阐述基于距离的语义相似度计算、基于内容的语义相似度计算、基于属性的语义相似度计算和混合式语义相似度计算等算法模型,最后从宏观层面指出今后本领域的研究方向。【关键词】语义相似度语义相似度计算本体概念匹配【分类号】TP391ReviwofOntlgy—basdSemantcSiiariyMeasrigSunHaiiiQinQigChengYig[AbsractBasdontegenerldefniinanddisratonfrsmantcsmiartmeasrngofOntlgytipapermakcsarviwofrsarhonteOntlgy-basdsmantcsmiartmeasrsitoducesedgecountngmeasrsifratoncontntmeasrsfatr-basdmeasrsandhybrdmeasrsrsectvel.Atls,ipoitouttediectonofftrworfommacrsopiperpectve・[KeywordsSemantcsmiartSemantcsmiartmeasrng0nt1gyConcept—basdmathig1引言与前些年的信息资源匮乏相比,现在信息用户更加关注的是如何从海量的信息资源屮发掘其所需要的信息。信息资源异构性的存在,尤其是语义异构性的存在,使得采用传统以字符串匹配为基础的信息检索系统难以满足用户对信息和知识的深层次需求,因此,加强基于概念匹配的信息检索系统的研究就显得尤为朿要。简而言Z,概念匹配就是计算词语之间的语义相似度[门。与传统的以词形为切入点、建立在词语字面匹配基础上的检索算法相比,语义相似度计算是对源和H标词语间在概念层面上相似程度的度戢,需要考虑词语所在的语境和语义等信息。本体[2]因其能够准确描述概念含义和概念之间的内在关联,已成为词语语义相似度研究的基础。H前,基于木体的语义相似度计算方法研究已经形成了丰富的研究成果,如表1所示,因此对其进行系统的梳理显得十分必要。收稿日期:2009-11-04/收修改稿日期:2010-01-15(丿'知识组织与知识管理本文系中国医学科学院医学信息研究所基本科研业务专项••基于MeSH的语义相似度以糊究]0目编今09R0i57;角硏略贞柬Fs,X1NDA1TUSHUQ1GBAOJSHU(中国医学科学院医学信息研究所北京100020)(南京大学信息管理系南京210093)oeim1tunxai2a(Intutt©fMediaclIrfoartiorirChienAeademvofMediacScineces,Beijg)100l)20rChha)!DepartmentofhformtonManagementNanjhgUnivriyt,Nanjrig210093,Chha)t,】chaitosctic••1iyuiohsc9,eecooeeii1iyuenriucnmi,eueeueeueiueepiyattn:shriuuekroccsi••«•••«••iiIiy1111yu1oo]表1三个数据库的检索结果楡索笫略主gj=(Ont1gy>AND主题=(SomanLcSiiart)主Jgj=(Ont1gy>AND主鬆=(Siiart)关犍词:相似度AND关健词:本体关键词:语义相似AND关键词:本体关键词:相似踐AND关键词:本体关犍词:语义相似AND关键词:木体数据库结果(篇数)万方7356125592基于木体的语义相似度计算内涵和影响因索2.1基于本体的语义相似度计算内涵(1)语义相似度与语义距离语义相似度和语义距离之间存在着密切的关系[3]:两个词语的语义距离越大,其相似度越低:反之,两个词语的语义距离越小,其相似度越大。对于两个词语W和w,记Si(w,w)为其相似度,Di(w,w)为词语语义距离,贝ijSi(w,w)和Di(w,w)存在下列对应关系:Di(w,w)和Si(w,w)成反向关系,即Di(w,w)越大,贝I」Si(w,w)越小:%当Di(w,w)为0时,Si(w,w)为1,表示两个词语完全相似;%当Di(w,w)为无穷大时,Si(w,w〉为0,表示两个词语完全不相似或不相关。两者之间的对应关系可通过下列公式來揭示:aDi(w>w)+a其屮,(1为调节因子。(2)基于本体的语义相似度计算思想词语语义距离的计算方法基本上可以分为两料库的统计计算方法。基于世界知识计算方法的基本思想是:按照概念间结构层次关系纽织的语义词典所包含的概念之间上下位关系和同位关系来计算词语的相似度。该算法依赖于如下的假设:两个词语具有一定的语义相关性,当且仅当其在概念结构层次网络图中存在一条通路。基Si(w,w)和Di(w,w)uj分别表示为Si(c,c)和Di(c,c),其屮Si(c,c)E[...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?