“基于Hadoop的大数据分析”课程规划与设计摘要:大数据时代社会各行业对大数据方向人才的需求凸显,为顺应产业发展需要,我校改革课程设置,建设以开源分布式框架Hadoop为技术基础的大数据分析课程。文章从目标内容设置、师资团队建设、实践中心配备、授课方式特色,以及考核制度革新多个方面展开对课程规划与设计的详细论述,藉此为国家和社会培养具有工程意识和创新思维的高素质精英人才,也为其他高校同类课程的开设提供一...
基于Hadoop的民航日志分析系统及应用李建+曾新励摘要摘要:民航信息系统日志包含大量信息,但由于日志数据非结构化,不易被读取且数据量巨大,难以通过人工分析得出有价值信息。Hadoop分布式计算技术恰好可以很好地解决这个问题。设计了基于Hadoop的民航日志分析系统,系统结合数据挖掘领域经典的KNN分类算法,对算法进行了并行化改进,给出算法在Hadoop平台的MapReduce编程模型上的执行流程。对系统进行单机和集群测试,集群系...
Hadoop分布式框架下石油行业非结构化数据管理实现策略探究撰写时间:202X年XX月XX日孙晓萍摘要当前,社会已经步入了大数据时代,互联网技术的应用非常广泛。随着数据技术的快速进步,数据的产生速度也在以指数级增长。传统的油田开发作业中,对数据的记录方式以关系型数据库技术为主要的数据记录和更新方式。但随着信息技术的发展,新数据中出现了非结构化数据,这些数据的格式不确定,记录起来非常困难。文章以非结构化数据为...
基于Hadoop的MOOC学习分析系统的构建夏晓峰---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---DOI:10.16644/j.cnki.cn33-1094/tp.2016.07.013摘要:从学习分析系统角度研究MOOC教育中低通过率与有效学习的问题。通过分析学习者学习活动情况,在MOOC社区取样大量原始数据,生成平台学习数据,采用一个基于Hadoop的MOOC学习分析系统对数据进行分析和挖掘,促进学习者进行有效学习。为了评估该...
摘要:随着信息和数据爆炸式增长,Hadoop等关于Hadoop集群作业调度算法探析海量数据处理平台日益重要,作业调度算法是Hadoop集群的核心,本文对Hadoop集群默认的三种作业调度算法以及异构集群环境下的作业调度算法进行了系统的研究和对比,并提出了今后相关科研工作的重点。Abstract:Withtheexplosivegrowthofinformationanddata,massdataprocessingplatformsuchasHadoopismoreandmoreimportarit.Job-schedulingalgorithmisthec...
Hadoop任务分配策略的改进摘要:HadoopT泛应用于大数据的并行处理,其现有的任务分配策略多面向同构环境,或者没有充分利用集群的全局信息,或者在异构环境下无法兼顾执行效率与算法复杂度。针对这些问题,提出异构环境下的任务分配算法入Flow算法,将原先一次完成的任务分配过程划分成多轮,每轮基于当前集群状态,以及上轮任务的执行情况,动态进行任务分配,直至全部任务分配结束,以期达到最优执行效率。通过与...
解决方案Solution基于Hadoop的医疗云平台构建研究刘晶①左秀然①王鑫②杨国良*摘要随着云计算技术的快速发展,云平台的应用越来越广泛,具有整合资源、数据安全、节约存储等优势。基于医疗数据的特点与医院信息化建设中的问题,利用Hadoop技术,设计了一款高效、可靠、稳定的医疗云平台。首先指明了Hadoop技术的优点与云平台搭建的基础环境,然后提出了医疗云平台分五部分建设的思路,最后介绍了应用医疗云平台的...
基于Hadoop的数据挖掘算法并行化研究与实现摘要随着互联网技术的发展和云计算技术的流行,提供网络服务的互联网公司每天生成和需要处理的数据呈爆炸式增长,海量数据已经逐渐将我们包围。数据的不断增长给人们带来了巨大价值,同时也给人们带来了巨大的挑战。如何分析和挖掘这些数据背后隐藏的有价值的信息,已经成为很多大型企业所关注的焦点。大规模文档信息资源的自动化处理是海量数据处理中较受关注的一个领域...
目录1.应用介绍31.1实验环境介绍31.2应用背景介绍31.3应用的意义与价值42.数据及存储52.1数据来源及数据量52.2数据存储解决方案53.分析处理架构53.1架构设计和处理方法53.2核心处理算法代码74.系统实现95.总结271.应用介绍1.1实验环境介绍本实验是在Hadoop伪分布式处理架构下完成的。我用自己的笔记本在ubuntu14.04操作系统下自己搭建了Hadoop2.7.1架构,并配置了伪分布式模式进行数据的处理。1.2应用背景介绍本次云计算大作业...
一:课程简介:作为云计算实现规范和实施标准的Hadoop恰逢其时的应运而生,使用Hadoop用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的、高效,的、可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择。本课程会助你深入浅出的掌握Hadoop开发(包括HDFS、MapReduce、HBase、Hiv...
基于Hadoop的SVM并行化文本分类研究与实现吴泽伦,郑岩**5(北京邮电大学计算机学院,北京100876)摘要:支持向量机(SVM)已成为一种非常流行的分类工具,但支持向量机算法的主要缺点是当它处理的数据集规模很大时需要较大内存和训练时间非常长。为了加快SVM的训练速度,本文提出了一种基于Hadoop的并行化SVM训练方法,设计和实现SVM并行化的过10程中最需要考虑的数据集如何划分和如何进行迭代两个问题。并且通过文本分类实验...
压缩对Hadoop性能影响研究向丽辉,缪力**(湖南大学信息科学与工程学院,长沙410086)5101520摘要:压缩是I/O调优的一个重要方法,它能减少I/O的计算负载,从而提高I/O的性能。当今,磁盘I/O的发展速度永远赶不上有着摩尔定律发展的CPU速度,所以I/O常常成为数据处理的瓶颈。在Hadoop中,如何使用压缩来进行I/O调优还未被完全研究。本文通过实验,得出了一个压缩使用策略来帮助Hadoop的使用者来确定何时何地使用压缩以及使用何...