基于hadoop的数据挖掘算法并行化研究与实现1.1

基于HADOOP的数据挖掘算法并行化研究与实现摘要随着互联网技术的发展和云计算技术的流行,提供网络服务的互联网公司每天生成和需要处理的数据呈爆炸式增长,海量数据已经逐渐将我们包围。数据的不断增长给人们带来了巨大价值,同时也给人们带来了巨大的挑战。如何分析和挖掘这些数据背后隐藏的有价值的信息,已经成为很多大型企业所关注的焦点。大规模文档信息资源的自动化处理是海量数据处理中较受关注的一个领域,企业通过对文本数据进行分类,不仅可以对数字资源进行有效的整理,而且保证数字资源被全面检索和充分利用,满足用户对信息咨询服务的需求。但同时互联网企业产生的文本数据又具有海量,复杂等特点,面对现在飞速增长的文本数据,传统采用单机来处理的方式已经逐渐满足不了人们的需求,如何高效率的对海量文本进行分类整理并且挖掘出有价值的信息,这是本文的一个关注的问题。Hadoop是目前最流行的用于处理海量数据的开源分布式框架。Hadoop主要的组件包括HDFS和MapReduce。HDFS是Hadoop集群提供的分布式文件系统,而MapReduce是一种分布式框架,通过这两者的结合,可以对海量的文本数据进行有效的处理。本文研究了Hadoop进行分布式处理的步骤和原理,在其基础上设计并实现了基于Hadoop的分布式文本分类系统,通过与单机系统处理结果的对比,论证了Hadoop系统在进行文本分类时的效率要高于单机,并且取得良好的分类效果。目录---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---第一章绪论1.1课题研究背景我们处在一个数据爆炸的时代,随着互联网技术的发展和云计算技术的流行,互联网正以海量的数据资源和咨询信息丰富着人们的日常生活,网络数据规模正以几何式增长!仅仅以互联网技术的发展为例,各种微博,论坛,社交网站等网站如雨后春笋般层出不穷。据统计,目前全球的Web站点已经达到数亿个,而且还在飞速增长中。网络上各种电子书籍、门户新闻、信息咨询等服务内容在满足人们网络服务需求的同时,也给对海量的数据处理带来了巨大的挑战。在海量数据处理问题中,文档自动分类成为处理和组织大量文档数据的关注焦点。在数字图书馆中,对数字文本进行准确高效的分类是保证数字资源被全面检索和充分利用的基础。在门户网站中,对实时新闻的准确快速分类是满足人们获得良好的咨询服务的关键。文本分类是文本处理领域的重要研究内容之一,其任务就是在预先给定的分类模型下,系统在学习各类的训练文档的基础上,根据文本的内容让计算机自动判断、预测未知类文档的类别。文本分类技术已经应用于信息检索、信息抽取、数字化图书馆、新闻门户、网上信息快速定位等多个领域。文本自动分类是通过分析被分类文档的特征,并与其他各类文档所具有的共同特征进行比较,将被分类文档归于特征最接近的一类并赋予相应类别。常用的文本分类方法有K近邻(KNN)方法、朴素贝叶斯(NaiveBayes)方法、神经网络方法(NeuralNet)、支持向量机(SVM)方法和决策树方法(DecisionTree)等。其中朴素贝叶斯分类方法是一种简单有效的概率分类方法,在某些领域表现出很好的性能。就目前网络上的海量文本数据而言,传统的文本分类方法具有以下两点局限:一是分类效率低,互联网上动辄几十TB的文本数据如果使用传统单机的分类方式需要大量的时间;二是分类准确率不高,没有充分考虑特征权重对分类效果的影响。本文将主要针对基于Hadoop的文本分类并行化方法进行研究,着力提高海量文本数据下的文本分类效率和准确率。1.2研究现状---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---1.2.1Hadoop研究现状Hadoop是Apache基金会的一个开源项目由DougCuttingApacheLucene的创始人所带领的团队幵发实现了Google的GFS和MapReduce思想。目前Hadoop的最新版本是2012年12月1日发布的Hadoopl.1.1并还在不断完善发展之中。其为开发者提供了一个分布式系统的基础架构用户可以在不了解分布式系统的底层细节的情况下来开发分布式应用充分利用集群的强大功能实现高速运算和存储。由于Hadoop优势突出不论在国内还是国外基于Hadoop的应用已经遍地开花尤其是在互联网...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?