信息资源开发与管理作业

信息资源开发与管理———基于文本挖掘的共词分析---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---1、研究内容本文是对文本挖掘相关文献的研究,选择的论文和期刊于中国知网。通过对文献资源的检索,寻找到相关的文献资源,并对文献资源进行分析,从而能够对文本挖掘这个研究题目进行一定的了解。本次研究具体内容包括:(1)文献资源检索;(2)文献处理;(3)分析我国今年来文本挖掘的发展方向与研究热点;(4)对研究进行总结。2、文献资源检索与数据收集本文的研究采用中国学术期刊网(CNKI)全文数据库并选择网络数据总库,时间是2010-2014年,指定主题为“文本挖掘”,共搜索到1203篇文献信息,选取其中的1200篇。搜索过程如下图所示。3、关键字分列---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---4、关键词确定利用Excel,通过其统计功能,对关键词进行统计。原始关键词有5534个,从中选择词频为8个及8个以上的,共有51个。之后并对以下关键词进行删除:出现频率过高(即比其它关键词高过多),有:文本挖掘。筛选后,得到比较高频的关键词50个。利用Excel的统计功能将所有关键词进行词频统计,获得原始关键词5534个。选择词频不低于7次的关键词,筛选出51个关键词作为高频词。其中,关键词“文本挖掘”词频846次,为最高频次。但鉴于“文本挖掘”与此次研究本研究内容完全重合,在共词分析中难以发挥作用,予以舍弃,得到最终高频关键词50个,筛选如下:---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---表2高频关键词筛选结果(频次≥7)4.建立共词矩阵、相似矩阵、相异矩阵(1)共词矩阵下表中的这些关键词是有关文本挖掘文献中出现频次较高的词,从较大程度上能够代表中国当前文本挖掘研究的热点。为了进一步了解这些关键词之间的联系,在建立的数据表中对这些高频关键词进行两两共词检索,统计它们在1200篇文章中同时出现的频率,建立一个50×50的关键词的共词矩阵。其中,部分共词矩阵数据如下图所示。---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---共词矩阵为对称矩阵,主对角线的数据定义为缺失,非主对角中单元格的数据为两个关键词共同出现的次数。如关键词“数据挖掘”与“文本聚类”的共词频次为7,即表示有7篇论文同时使用了这两个关键词。由于下面运用的多元统计方法对矩阵的数据结构有不同的要求,为了统计分析的方便,因此用系数将共词矩阵转换成相似矩阵,具体方法是将共词矩阵中的每个数字都除以与之相关的两个词的总出现频次的开方的积。(2)相似矩阵由于将要运用的多元统计方法对矩阵的数据结构有不同的要求,为了统计分析的方便,本文将相关矩阵转化为相似矩阵和相异矩阵。具体方法是,用Ochiia系数将共词矩阵转换成相似矩阵,即将共词矩阵中的每个数字都除以与之相关的两个关键字总频次开方的乘积,其计算公式是:A、B两词同时出现的频次❑√A词总出现频次×❑√B词总出现频次利用该公式进行计算,得到相似矩阵。部分相似矩阵如下:---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---相似矩阵中的数字表明其对应两个关键词之间的亲疏关系,数值越大则表明关键词之间的距离越近,相似度越好;反之,数值越小则表明关键词之间的距离越远,相似度越差。在相似矩阵中由于0值过多,统计时误差过大,有可能影响分析结果。为了方便进一步处理,用1与全部相关矩阵上的数据相减,得到表示两词间相异程度的相异矩阵。(3)相异矩阵用1与全部相似矩阵中的数据相减,得到表示两词间相异程度的相异矩阵。部分相异矩阵如下:---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---相异矩阵中的数据表示不相似数据,数值越大则表明关键词之间的距离越远,相似度越差;反之,数值越小则表明关键词之间的距离越近,相似度越高。5、聚类分析聚类分析借助数据挖掘中的聚类分析法,对共词关系网络中的词与词之间的距离进行数学运算分析,将距离较近的主题词聚集起来,形成一个个概念相对独立的类团,使得类团内属性相似性最大,类团间属...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?