基于统计和知识的产品部件信息抽取

基于统计和知识的产品部件信息抽取摘要:随着社会产品的多样变化和大数据时代的发展需求,产品信息抽取有着重要的研究意义。针对抽取过程中过多的人工参与和抽取准确度不高的情况,提出一种基于统计和知识相结合的产品部件信息自动抽取方法。为确保抽取的相关性,采用词频剪枝过滤干扰词,使用双向长短期记忆模型将词进行分布式表示并计算语义相关度;为确保抽取的完整性,引入知网知识库,根据?~语首义原的分类来验证抽取结果是否为部件类概念词。实验在120万篇产品专利摘要上进行词向量训练,分别对运输交通设备、通讯电子设备、仪器仪表和机械器材四类产品进行测试,证明了模型的可行性和算法的有效性。关键词:信息抽取双向长短期记忆模型分布式表示知网:V263文献标识码:A:1003-9082(2018)04-00-03引言我们随着科学技术的蓬勃发展、新产品的不断涌现,使得描述产品部件信息的词汇集合处于不断扩大并更新的状态,因此以往靠人工收集产品部件信息的方式显然已经满足不了人们的需求,利用计算机自动抽取这些信息已成为必然。信息抽取[1]是对文本中包含的信息进行结构化处理,再对其进行存储的过程,在这个信息爆炸的时代,信息抽取能够帮助我们完成对信息的快速整理和分析,提高工作效率。产品部件信息抽取,是信息抽取的一种形式,其是将不同文本对于某一产品的部件信息集中起来,能从不同的角度反映产品的相关组成信息,对产品的部件进行抽取有助于全面地了解这些产品。例如,有关介绍电脑的文本中提到“一种用于电视游戏机的电脑控制器,是利用电脑主机的插头嵌设在游戏机的主体上的插槽中”,在描述中可知,“控制器”和“主机”是电脑的组成部件,如何在文本中,准确高效的获取到产品的组成部件信息,就是本文的主要解决的问题。一、相关研究目前产品部件信息抽取的方法主要分为三种:基于语言规则的方法[2]、基于统计的方法,以及规则和统计相结合的方法。基于语言规则方法具有明显的缺陷,即难以用少量规则覆盖复杂的存在规律,以及当规则数达到一定数量时产生的相互冲突问题。基于统计的方法主要的统计策略有互信息[3,4]、词频、连续指数、左右熵[5]、log-likehood、TF-IDF等。这些统计策略各有优缺点和适用对象,没有一个方法能独立使用即可抽取出各种类型的信息并达到良好的效果,因此融合多统计特征的统计模型是目前比较主流的统计方法。而基于规则和统计相结合的方法则[6-10]可以取长补短,是目前广泛采用的方法。结合的方式通常有两种,即先规则后统计和先统计后规则,采用何种方式需要根据具体应用和算法效果而决定。本文提出了一种基于统计和知识相结合的抽取方法,为了可以全面准确的获取产品部件信息,本文在众多的信息源中,选择专利文献为抽取对象,为获取与产品相关的候选词,采用基于统计的方法,利用词频剪枝和双向长短记忆模型计算语义相关度;为从相关候选词中准确获取产品部件概念词,采用基于知识的方法,引入知网知识库,根据对词语首义原的分析进一步验证抽取结果,两种方法相结合,为产品部件信息的抽取提供一个新的思路。二、基于统计和知识的产品信息抽取方法本文实现一种基于统计和知识相结合的产品部件信息抽取方法,本文第一步是对产品专利摘要进行分词,词性标注和去停用词的预处理;第二步是过滤非名词词性和词长为1的干扰词;第三步是通过词频剪枝,保留词频较高的候选词;第四步是利用双向长短记忆模型方法将词表示成向量形式,计算产品与候选词的余弦值,过滤相关度较低的干扰词;第五步是引入知网知识库,通过验证候选词在知网中首义原的定义,来判断其是否为产品部件概念词,本文方法框架如图1所示。1.基于统计的方法1.1词频剪枝词频剪枝是一种词汇分析研究方法,通过对一定长度文本的词频进行统计、分析,进而描绘出词汇规律。词频从一定程度上可以描述词汇的重要程度,在抽取产品部件概念词过程中,依照词频的排序去除干扰词是很基础但是效果很好的一种方法。词频计算公式如下2-1所示,本文设定了一个词频阈值,高于阈值的候选词,表示是该产品专利的重要词;低于阈值的候选词,表示是该产品专利的非重要词,通过词频剪枝,过滤...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?