基于自组织特征映射的海洋文献聚类分析的研究与实现

软件工程专业毕业论文[精品论文]基于自组织特征映射的海洋文献聚类分析的研究与实现关键词:海洋文献聚类分析自组织特征映射摘要:随着国家海洋战略的实施,与海洋有关的Web文献数迅速增长。对海洋文献进行聚类分析,有助于海洋信息挖掘,这对于海洋科技有重要意义。中文文档聚类分析包括数据库文档抽取、文档中文分词、构建文档集的表示模型、基于文档集模型进行聚类分析等步骤。与英文文档处理不同,中文文档的处理必须先进行分词。常见的分词方法有基于字符串匹配的、基于理解的和基于统计的三种方法。目前的分词方法基本满足了实际需求,关键是选择合适的分词软件。信息获取领域中,一般采用向量空间模型作为文档集的表示模型,从该模型可容易地计算出文档之间的相关度,因而可用于文档聚类分析。聚类算法有很多,如基于划分的、基于层次的、基于密度的等多种算法,算法选择取决于应用目的。为构建基于自组织特征映射神经网络的海洋文献聚类系统,本文分析了中文分词的常用方法,研究了文档集的表示模型以及各种聚类算法,设计并实现了一个基于自组织特征映射神经网络的文档聚类分析系统OCA,主要工作及创新点如下:1.在分析和比较各种聚类算法的基础上,选择自组织特征映射(SOM)神经网络作为海洋文献聚类分析的算法,这里的SOM神经网络采用厨师帽获胜邻域,邻域内神经元调整权值。2.研究了中文分词技术,比较了各种分词方法,选择分词准确率高的软件MMSEG实现对中文海洋文献的分词。3.用向量空间模型表示文档集,用广为接受的TFIDF表示词汇对文档语义的贡献。4.在Eclipse环境下用Java实现了一个基于SOM的海洋文献聚类系统OCA,从CNKI下载若干海洋文献,用OCA系统对其进行处理,实验表明该系统可对海洋文献进行有效的聚类分析。正文内容随着国家海洋战略的实施,与海洋有关的Web文献数迅速增长。对海洋文献进行聚类分析,有助于海洋信息挖掘,这对于海洋科技有重要意义。中文文档聚类分析包括数据库文档抽取、文档中文分词、构建文档集的表示模型、基于文档集模型进行聚类分析等步骤。与英文文档处理不同,中文文档的处理必须先进行分词。常见的分词方法有基于字符串匹配的、基于理解的和基于统计的三种方法。目前的分词方法基本满足了实际需求,关键是选择合适的分词软件。信息获取领域中,一般采用向量空间模型作为文档集的表示模型,从该模型可容易地计算出文档之间的相关度,因而可用于文档聚类分析。聚类算法有很多,如基于划分的、基于层次的、基于密度的等多种算法,算法选择取决于应用目的。为构建基于自组织特征映射神经网络的海洋文献聚类系统,本文分析了中文分词的常用方法,研究了文档集的表示模型以及各种聚类算法,设计并实现了一个基于自组织特征映射神经网络的文档聚类分析系统OCA,主要工作及创新点如下:1.在分析和比较各种聚类算法的基础上,选择自组织特征映射(SOM)神经网络作为海洋文献聚类分析的算法,这里的SOM神经网络采用厨师帽获胜邻域,邻域内神经元调整权值。2.研究了中文分词技术,比较了各种分词方法,选择分词准确率高的软件MMSEG实现对中文海洋文献的分词。3.用向量空间模型表示文档集,用广为接受的TFIDF表示词汇对文档语义的贡献。4.在Eclipse环境下用Java实现了一个基于SOM的海洋文献聚类系统OCA,从CNKI下载若干海洋文献,用OCA系统对其进行处理,实验表明该系统可对海洋文献进行有效的聚类分析。随着国家海洋战略的实施,与海洋有关的Web文献数迅速增长。对海洋文献进行聚类分析,有助于海洋信息挖掘,这对于海洋科技有重要意义。中文文档聚类分析包括数据库文档抽取、文档中文分词、构建文档集的表示模型、基于文档集模型进行聚类分析等步骤。与英文文档处理不同,中文文档的处理必须先进行分词。常见的分词方法有基于字符串匹配的、基于理解的和基于统计的三种方法。目前的分词方法基本满足了实际需求,关键是选择合适的分词软件。信息获取领域中,一般采用向量空间模型作为文档集的表示模型,从该模型可容易地计算出文档之间的相关度,因而可用于文档聚类分析。聚类算法有很多,如基于划分的、基于层次的、基于密度的等多种算法,算...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?