大数据技术及其在信息系统中的应用

第1页共7页大数据技术及其在信息系统中的应用摘要:大数据是继物联网、云计算技术后世界又一热议的信息技术,发展迅速。截至2011年年底,全球互联网总数据存储量已达100亿TB以上,并且以59%以上的年增长率递增。关键词:大数据;信息;大数据安全:TP311.13麦肯锡公司在2011年的报告(Bigdata:theNextFrontierforInnovation)中,对这种密集型数据爆炸的现象称为“大数据”时代的到来。大数据领域出现的许多新技术,是大数据采集、存储、处理和呈现的有力武器。1大数据概念大数据概念的前身是海量数据,但两者有很大的区别。海量数据主要强调了数据量的规模,对其特性并没有特别关注。而大数据第2页共7页对传播速率、体积、特征等数据的各种特性进行了描述。目前对大数据最广泛的定义是:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。大数据的特点一般用“4V”概括,即:Volume:数据量大,目前大数据的最小单位一般被认为是10~20TB的量级;Variety:数据类型多,包括了结构化、非结构化和半结构化数据;value:数据的价值密度很低;velocity:数据产生和处理的速度非常快。2大数据相关技术2.1大数据处理通用技术架构。大数据的基本处理流程与传统数据处理流程的主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用并行处理。目前,MapReduce等分布式处理方式已经成为大数据处理各环节的通用处理方法。MapReduce分布式方法最先由谷歌设计并实现,包括分布式文件系统GFS、MapReduce分布式编程环境以及分布式大规模数据库第3页共7页管理系统Bigrable。MapReduce是一套软件框架,包括Map和Reduce两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。MapReduce的工作原理是先分后合的数据处理方式。Map即“分解”,把海量数据分割成若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作,以得到最终结果。用户只需要提供自己的Map函数以及Reduce函数就可以在集群上进行大规模的分布式数据处理。MapReduce将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。2.2大数据采集。大数据的采集是指利用数据库等方式接收发自客户端(Web、App或者传感器形式等)的数据。大数据采集的主要特点是并发访问量大,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站的并发访问量在峰值时达到上百万,这时传统的数据采集工具很容易失效。大数据采集方法主要包括:系统日志采集、网络数据采集、数据库采集、其他数据采集第4页共7页等四种。2.3大数据分享。目前数据分享主要通过数据集市和开放数据平台等方法实现。开放数据平台可以提供涵盖本地服务、娱乐、教育和医疗等方方面面的数据集合,用户不但可以通过API访问,还可以很方便地通过SDK集成到移动应用当中。在线数据集市除了提供下载数据的功能外,还为用户提供上传和交流数据的场所。数据平台和数据集市不但吸引有数据需求用户,还能够吸引很多数据开发者在平台上进行开发。2.4大数据预处理。数据预处理就是对采集的数据进行清洗、填补、平滑、合并、规格化以及检查一致性等处理,并对数据的多种属性进行初步组织,从而为数据的存储、分析和挖掘做好准备。通常数据预处理包含三个部分:数据清理、数据集成和变换和数据规约。2.5大数据存储及管理。大数据需要行之有效的存储和管理,否则人们不能处理和利用数据,更不能从数据中得到有用的信息。第5页共7页目前,大数据的存储和管理技术主要分三类:分布式文件系统、数据仓库和非关系型数据库(NoSOL)。2.6大数据分析及挖掘。大数据的分析和挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、数据挖掘、统计学、数据库等技术,高度自动化地分析大数据,做出归纳性的推理,从中挖掘出潜在的模式,从而在大数据中提取有用信息。大数据的分析和挖掘与传统的数据挖掘比较有两个特点:一是通常采用并行处理的方式;二是大数据分析对实时处理的要求很高,流处理等实时处理技术受到人们欢迎。常用的方法有...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?