利用词嵌入模型实现基于网站访问日志的专利聚类研究

利用词嵌入模型实现基于网站访问日志的专利聚类研究文奕陈文杰张鑫杨宁赵爽〔摘要〕[目的/意义]专利信息是人类科学技术进步的结晶,随着社会的发展,专利信息将为促进科技创新发挥日益重要的作用。利用聚类技术可以将海量专利信息进行自动分类,在实现信息有序归并管理的同时,有助于用户高效而全面的获取相关技术领域中的集成专利信息,具有重要的现实意义,传统聚类研究方法效率与准确度存在不足。[方法/过程]本文通过对专利信息服务网站(中国科学院知识产权网)访问日志数据的清洗与分析,生成专利信息点击序列,基于深度学习词嵌入模型,设计了PatentFreq2Vec模型,计算得出专利关联信息。[结果/结论]利用PatentFreq2Vec模型分析计算访问日志数据,能够得到关联专利信息,实现专利聚类,且聚类准确度高于传统方法。〔关键词〕专利;聚类;深度学习;词嵌入;访问日志DOI:10.3969/j.issn.1008-0821.2018.04.016〔〕G202〔〕A〔〕1008-0821(2018)04-0112-06〔Abstract〕[Purpose/Significance]Patentinformationisthefruitoftheprogressofscienceandtechnology.Withthedevelopmentofsociety,patentinformationwillplayanincreasinglyimportantroleinpromotingscientificandtechnologicalinnovation.Throughpatentclusteringanalysis,itispossibletoaggregateisolatedinformationaccordingtodifferentaggregationdegree,sothattheycanbetransformedfromordinaryinformationtovaluablePatentCompetitiveintelligence.Thetraditionalclusteringmethodshavesomeefficiencyandaccuracyproblems.[Method/Process]Basedoncleaningandanalysisaccesslogdataofthepatentinformationservicewebsite(IntellectualpropertynetworkoftheChineseAcademyofSciences),thesequencedataofpatentclickingweregeneratedandinputintothePatentFreq2Vecmodelbasedonwordembeddingtoobtainepatentrelatedinformationwiththelearningalgorithm.[Result/Conclusion]Thiscouldclusterthepatentsandimproveaccuracyofthepatentclustering.〔Keywords〕patent;clustering;deeplearning;WordEmbedding;accesslog以專利文献为主的专利信息是人类科学技术进步的结晶。随着经济全球化快速发展,知识经济迅猛崛起,尤其是随着我国“双创”活动全面开展,专利信息将为促进科技创新以及社会发展发挥重要作用,世界各国每年发布与出版大量专利文献信息[1],近年来专利信息及其关联资源更呈现爆炸式增长,如何有效的组织管理海量专利信息,帮助用户精准把握专利技术内涵,提高专利技术信息的利用率,是文本信息处理领域的重要研究方向之一[2]。专利聚类是专利文献信息分析的重要方法,但现有方法在准确性与效率方面存在不足。近年来,随着深度学习技术的迅猛发展,诸多算法与工具在专利文献分析中发挥日益重要的作用。1专利聚类1.1专利聚类的重要性专利信息分析的主要目的是通过对数据信息的有效整合管理,利用技术分析手段,将海量分散的信息按照一定的规则进行有序组织、过滤与汇集,对其技术内涵进行挖掘与凸显,将普通的专利文献信息转化为有价值的专利技术情报,根据这些情报可以从技术分布、交叉、演化等角度揭示机构专利布局及所处地位、核心专利权人、合作网络等综合信息,从而研判分析企业、研究所、高校、地区或国家在产业技术领域的重点发展方向,洞察主要竞争对手的技术组合、研发、投资动向,避开专利技术壁垒,制定专利研发战略[3],在专利技术竞争中取得先机。利用聚类技术可以将海量专利信息进行自动分类,在实现信息有序归并管理的同时,处于同一类别中的专利往往在技术上存在高度关联,有助于用户高效而全面的获取相关技术领域中的集成专利信息。这不仅能适应专利信息数据的快速增长,也能显著提高专利分析的效率与准确性,具有重要的现实意义[4]。1.2专利聚类常用方法及存在的不足专利文本聚类的首要问题是文本数据的数学模型表示。常用的聚类方法包括K-Means、LDA等。K-Means首先由MacQueent[5]提出,该算法认为文本聚类是由向量空间上距离相近的文本对象组成的,完美的聚类应该是得...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?