《现代图书情报技术》版权所有,欢迎F载引用!请注明引用地址:基于本体的语义相似度计算方法研究综述[J,现代图书情报技术.20109(1):51-5G.总第188期2010年第1期基于本体的语义相似度计算方法研究综述孙海霞I钱庆I成颖2【摘要】在对基于本体的词语语义相似度进行界定的基础上,对基于本体的语义相似度研究进行综述,分别阐述基于距离的语义相似度计算、基于内容的语义相似度计算、基于属性的语义相似度计算和混合式语义相似度计算等算法模型,最后从宏观层面指出今后本领域的研究方向。【关键词】语义相似度语义相似度计算本体概念匹配【分类号】TP391ReviwofOntlgy—basdSemantcSiiariyMeasrigSunHaiiiQinQigChengYig[AbsractBasdontegenerldefniinanddisratonfrsmantcsmiartmeasrngofOntlgytipapermakcsarviwofrsarhonteOntlgy-basdsmantcsmiartmeasrsitoducesedgecountngmeasrsifratoncontntmeasrsfatr-basdmeasrsandhybrdmeasrsrsectvel.Atls,ipoitouttediectonofftrworfommacrsopiperpectve・[KeywordsSemantcsmiartSemantcsmiartmeasrng0nt1gyConcept—basdmathig1引言与前些年的信息资源匮乏相比,现在信息用户更加关注的是如何从海量的信息资源屮发掘其所需要的信息。信息资源异构性的存在,尤其是语义异构性的存在,使得采用传统以字符串匹配为基础的信息检索系统难以满足用户对信息和知识的深层次需求,因此,加强基于概念匹配的信息检索系统的研究就显得尤为朿要。简而言Z,概念匹配就是计算词语之间的语义相似度[门。与传统的以词形为切入点、建立在词语字面匹配基础上的检索算法相比,语义相似度计算是对源和H标词语间在概念层面上相似程度的度戢,需要考虑词语所在的语境和语义等信息。本体[2]因其能够准确描述概念含义和概念之间的内在关联,已成为词语语义相似度研究的基础。H前,基于木体的语义相似度计算方法研究已经形成了丰富的研究成果,如表1所示,因此对其进行系统的梳理显得十分必要。收稿日期:2009-11-04/收修改稿日期:2010-01-15(丿'知识组织与知识管理本文系中国医学科学院医学信息研究所基本科研业务专项••基于MeSH的语义相似度以糊究]0目编今09R0i57;角硏略贞柬Fs,X1NDA1TUSHUQ1GBAOJSHU(中国医学科学院医学信息研究所北京100020)(南京大学信息管理系南京210093)oeim1tunxai2a(Intutt©fMediaclIrfoartiorirChienAeademvofMediacScineces,Beijg)100l)20rChha)!DepartmentofhformtonManagementNanjhgUnivriyt,Nanjrig210093,Chha)t,】chaitosctic••1iyuiohsc9,eecooeeii1iyuenriucnmi,eueeueeueiueepiyattn:shriuuekroccsi••«•••«••iiIiy1111yu1oo]表1三个数据库的检索结果楡索笫略主gj=(Ont1gy>AND主题=(SomanLcSiiart)主Jgj=(Ont1gy>AND主鬆=(Siiart)关犍词:相似度AND关健词:本体关键词:语义相似AND关键词:本体关键词:相似踐AND关键词:本体关犍词:语义相似AND关键词:木体数据库结果(篇数)万方7356125592基于木体的语义相似度计算内涵和影响因索2.1基于本体的语义相似度计算内涵(1)语义相似度与语义距离语义相似度和语义距离之间存在着密切的关系[3]:两个词语的语义距离越大,其相似度越低:反之,两个词语的语义距离越小,其相似度越大。对于两个词语W和w,记Si(w,w)为其相似度,Di(w,w)为词语语义距离,贝ijSi(w,w)和Di(w,w)存在下列对应关系:Di(w,w)和Si(w,w)成反向关系,即Di(w,w)越大,贝I」Si(w,w)越小:%当Di(w,w)为0时,Si(w,w)为1,表示两个词语完全相似;%当Di(w,w)为无穷大时,Si(w,w〉为0,表示两个词语完全不相似或不相关。两者之间的对应关系可通过下列公式來揭示:aDi(w>w)+a其屮,(1为调节因子。(2)基于本体的语义相似度计算思想词语语义距离的计算方法基本上可以分为两料库的统计计算方法。基于世界知识计算方法的基本思想是:按照概念间结构层次关系纽织的语义词典所包含的概念之间上下位关系和同位关系来计算词语的相似度。该算法依赖于如下的假设:两个词语具有一定的语义相关性,当且仅当其在概念结构层次网络图中存在一条通路。基Si(w,w)和Di(w,w)uj分别表示为Si(c,c)和Di(c,c),其屮Si(c,c)E[...