一种用于专利实体的实体消歧方法

:XXXX一种用于专利实体的实体消歧方法王琰炎,王裴岩,蔡东风(沈阳航空航天大学知识工程与人机交互研究中心,沈阳,110136)摘要:专利实体是用以表述专利、实用新型或外观设计的具有实际意义的实体,作为专利文本的核心内容,专利实体是专利文本中最值得实体搜索用户关注的焦点。专利实体搜索是专利技术方案信息抽取的第一步,而专利实体消歧是专利实体搜索中最重要的操作,是将具有领域歧义性的专利实体相关词,按照实体不同的领域含义,划分为不同类别的过程。将实体搜索技术应用于中文专利摘要文本,并在实体搜索过程中使用了实体消歧技术,得到用户最关注的实体相关信息。本文在充分分析了专利摘要文本的特点的基础上,提出一种面向专利实体的消歧方法。本文使用基于IPC和向量空间模型的词向量表示法,结合凝聚式层次聚类算法,得到专利实体消歧结果。根据对比实验的结果能够得出结论,本方法能够实现准确的实体消歧,评测结果高达78.9%。关键词:专利实体、实体搜索、实体消歧、IPC、凝聚式层次聚类:TP391.1文献标识码:AAnEntityDisambiguationMethodforPatentEntityWANGYan-yan,WANGPei-yan,CAIDong-feng(KnowledgeEngineeringResearchCenter,ShenyangAerospaceUniversity,Shenyang110136)Abstract:PatentEntityisasignificantentitythatusedtoexpresspatents,utilitymodels,andappearancedesign,asthekernelofpatenttext,patententityistheabsolutefocusofentitysearchusers.PatentEntitySearchisthefirststepofPatentInformationExtraction,andtheentitydisambiguationofpatentisthemostimportantoperationofPatentEntitySearch,whichisdividerelativewordstodifferenttypesaccordingtodifferentdomains.ApplyentitysearchtechnologytotheabstracttextofChinesepatent,makeuseofthetechnologyofentitydisambiguation,whichcangettherelativeinformationthattheuserconcerned.Thispaperproposeadisambiguationmethodonthebasisofanalyzingthefeatureoftheabstracttextofpatentadequately.CombinedwithHAC,thispaperhavegottentheresultofdisambiguationbyusingthewordvectorrepresentationonthebasisofIPCandVectorSpaceModel,combinedwithHAC.Accordingtotheparallelexperiments,wecometotheconclusionthatthemethodcoulddisambiguateaccuratelywiththemeasurevalueof78.9percent.Keywords:PatentEntity,EntitySearch,EntityDisambiguation,IPC,HAC专利文本是集技术情报、法律情报和经济情报于一体的实用知识载体,是极为重要的科技信息[1]。专利实体作为专利文本中的核心对象,研究价值较高。专利实体的消歧是专利实体搜索的核心步骤,目标是解决专利实体搜索中同名实体的歧义问题,帮助用户准确定位目标信息。在专利文本的基础上进行实体消歧,就是将具有领域歧义的实体相关词按照不同的领域含义划分为不同的类别。因此,专利实体上的歧义消解实际上就是目标词的聚类过程,消歧结果的好坏就取决于聚类中目标词向量的原始特征选择。本文尝试了三种不同的特征选取方法,将目标词表示成特征向量,再进行类别划分。经过实验验证,使用基于IPC分类的特征生成目标词向量的方法取得了更好的效果。本文共分为5部分内容,第1部分介绍了国内外的相关研究,第2部分介绍了本文提出的三种相关词特征向量表示方法,第3部分介绍了使用聚类算法进行专利实体消歧的过程,第4部分则是实验和分析,最后一部分是本文得出的结论与展望。1相关研究实体消歧问题是当下比较热点的研究问题,国内外的大多熟研究从两个角度解决实体歧义造成的影响,分别是通过寻求更高质量的特征和引入外部资源辅助消解。在特征选取方面,何正焱[2]利用DNN(深度神经网络)方法,提出了一种文档和实体的相似度为框架的消歧模型;姜丽丽[3]提出了一种基于带权图结构的框架来实现人物实体的消歧工作,并使用实体标签对每个人物实体进行标注;Bagga和Baldwin[4]将不同文档间上下文的相似度作为特征实现实体消歧的;R.Bekkerman和A.McCallum[5]则结合了社交网络的链接信息和聚类两种非监督的框架对社交网络中...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?