数据抽取层研发文档

目录2.3数据抽取层研发.................................................................................................................12.3.1分布式ETL研发......................................................................................................12.3.1.1ETL数据仓库概述........................................................................................12.3.1.2分布式数据仓库系统...................................................................................22.3.1.3ETL.................................................................................................................22.3.1.4分布式ETL....................................................................................................42.3.1.5分布式ETL的体系结构和特点....................................................................42.3.2兼容大数据处理架构的ETL研发...........................................................................42.3.2.1kettle.............................................................................................................52.3.2.2Hadoop..........................................................................................................62.3.2.3将ETL数据输入hadoop..............................................................................62.3.2.4将hadoop数据输入ETL..............................................................................72.3.2.5直接将数据输入hadoop..............................................................................82.3.2.6基于mapreduce的ETL处理........................................................................92.3数据抽取层研发2.3.1分布式ETL研发2.3.1.1ETL数据仓库概述数据仓库之父比尔·恩门(BillInmon)在1991年出版的“BuildingtheDataWarehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。数据采集(ETL),即数据抽取(Extract)、转换(Transform)、清洗(Cleaning)、装载(Loading)的过程,是构建数据仓库的重要环节。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。具体来讲,数据抽取:是数据源接口,包括原始数据接口和外部数据接口,源数据接口从业务系统中抽取数据,为数据仓库输入数据。数据转换:数据转化包含对来自多个生产系统的数据源的处理,保证数据按照要求装入数据仓库。数据清洗:一个确保数据集中的所有数值是一致的和被正确记录的处理过程。数据装载:数据装载部件负责将数据按照物理模型定义的表结构装入数据仓库。这些步骤包括清空数据域、填充空格、有效性检查等。2.3.1.2分布式数据仓库系统分布式数据仓库系统(DDWS,DistributedDataWarehouseSystem)是物理上分散的数据仓库系统,是为了联系分析处理的需求,使用计算机网络将多个逻辑单位联接起来,共同组成一个逻辑上统一的数据仓库系统。分布式数据仓库的体系结构,W.H.Inmon在《数据仓库》中一书中论述了分布式数据仓库,并提供了以后总典型的分布式数据仓库的体系结构,如图2-1所示:图2-1分布式数据仓库体系结构分布式数据仓库室友局部数据仓库和全局数据仓库组成。2.3.1.3ETL在数据集成领域,基于企业应用的需求,出现了一种轻量级的数据集成中间件-ETL工具,利用它能够灵活地完成绝大部分的数据集成工作。RTL负责将分布、异构数据源中的数据如关系数据库、文本数据库、HTML、XML数据等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库,成为决策支持如OLAP、数据挖掘、可视化报表的基础。1.ETL...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?