基于关系相似度计算实体关系分类探究

基于关系相似度计算实体关系分类探究摘要:实体关系抽取和实体关系分类是信息抽取中重要的研究领域,不仅要识别文本中的实体,还要确定这些实体之间的关系,能够辅助机器对文本语义的理解。提出了一种基于关系相似度计算的实体关系分类模型,并针对7种常见实体关系进行了分类实验。关键词:SVD;关系相似度;实体关系分类:TP392文献标识码:A:16727800(2013)004013002基金项目:河南省教育厅基础与前沿技术研究项目(122300410048)作者简介:郭丽(1984-),女,硕士,中原工学院软件学院助教,研究方向为云计算、数据挖掘、自然语言处理;刘磊(1981-),男,硕士,郑州航空工业管理学院讲师,研究方向为文本挖掘、自然语言处理。0引言在信息抽取中,不但要抽取信息中的实体,还要确定这些实体间的关系。通常,词对限定为由名词及其修饰语组成,而不同应用背景下的词对关系也会有所差别,如ACE评测中的关系有地理位置关系(PHYS)、雇佣关系(EMP0RG)等。假设文本中提到“北京大学校长",其中“校长”和“北京大学”分别为人物实体和组织实体,而它们之间又构成一种雇佣关系(EMPORG),即“校长”受雇于“北京大学”。如果说信息抽取将文本转化为数据表格,实体抽取确定了表格中各个元素的话,实体关系抽取则是确定这些元素在表格中的相对位置。1关系相似度关系相似度最主要的应用是对语义关系分类,通常是辨别一对词语(一般限定为名词及其修饰语)间的关系类别。如:“奥巴马”与“美国”的关系应当是国家领导人与国家的关系。而现实世界的语义类别众多,我们不可能将所有的语义关系都定义出来,而是根据不同的应用领域制定不同的分类标准。Nastase和Szpakowicz(2003)对通用领域的名词一修饰语总结了5大类30种关系,Fillmore和Hearst(2002)将医学领域的名词及形容词分为13种关系,而Turney和Littman(2005)则将名词一修饰语词对关系分为5类。笔者曾对存在较多语义关系词对的中文专利语料(专利中术语较多,而术语往往由修饰词和中心语组成)进行实验,并根据知网中词语间关系的分类体系,将词对间的关系细分为10种,如表lo2实体关系抽取实体是命名实体的简称,常见的实体有地名、人名、组织机构名等。实体关系分类就是按照一定的分类体系,将这些不同的实体对归属到自己的类别当中,如:“华盛顿”、“美国”的关系与“平壤"、"朝鲜”的关系一样,都是首都与国家的关系。本文主要研究新闻语料中的实体关系分类,通过总结实验语料获得的7种常见实体关系,作为本文实验的关系类别,如表2所示。3实验内容KNN算法是机器学习算法中较简单的一个分类算法,整体思想是计算一个点A与其它所有点之间的距离,取出与该点最近的k个点,然后统计k个点里面所属分类比例最大的,则点A属于该分类。作者在2009年提出基于奇异值分解的关系相似度计算方法,是利用同义词词典,将组成词对的每个词进行同义词扩展以组成新的词对,统计词对的上下文并泛化为模板,以其代表词对内词语间的关系,通过计算模板向量间的夹角余弦值来代表词对间的关系相似度。本文使用KNN分类算法对测试词对进行实体关系分类,采用基于奇异值分解的关系相似度算法计算不同词对之间的相似度,作为词对之间的距离。利用基于关系相似度的实体关系分类算法,对NTCIR7语料中识别的实体之间的关系分为七大类(见表2),并对其进行验证和分析。3.1实验语料本文采用NTCIR7的测试语料,共800余兆,表3为本文实验语料具体分布。3.2评价方法信息检索、分类、识别、翻译等领域的两个最基本指标是召回率(RecallRate)和准确率(PrecisionRate),召回率也叫查全率,准确率也叫查准率。本文采取准确率、召回率和F值对分类结果进行评价。4实验结果本文首先为表2中R1〜R7类的每个类别设定20个种子词对,如:R1中的“美国”、“日本”,“美国”、“英国”等;R3中的“吴作栋"、“新加坡”,“温家宝”、“中国”等。选择除种子词对外的35个词对(各类5个测试词对),采用基于关系相似度的实体关系分类算法进行测试。表4和表5分别列出了开放和封闭测试的结果。从表4和表5中可看出,在开放测试中,关系R7的分类结果较差,主要原因是由于选择的种子词对较少,导致开放测试效...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?