一种元数据驱动数据仓库设计和应用

一种元数据驱动数据仓库设计和应用摘要:数据仓库技术广泛服务于业界信息系统建设之需求,大数据分布式架构的兴起也促进了数据仓库技术带的发展。文章结合一个应用项目的需求,设计开源技术方案,实施多种异构数据整合、元数据驱动、主题标签及Extjs架构的图形显示。实现了一套可视化的数据仓库系统,用以解决复杂的异构数据以及数据的展示,也为后续的决策支持系统构建和数据挖掘工作提供基础。关键词:元数据;ETL;异构数据;数据仓库1引言随着联入互联网络的发展,主机数、用户数和信息源节点数的爆炸性增长,使数据形式也出现了多样化,不光有结构性的数据,还有许许多多例如TXT文件或者图片视频等非结构性数据类型,但这些分散的数据使人们在信息检索和网络资源管理等方面面临着许多难题。关系型数据库具有极强的管理能力,数据的安全性高,和可靠的并发机制,一直是结构化数据存储的主流。但各种数据库系统之间的差异,已经所依赖操作系统之间的异构型,严重影响了信息共享和数据交换。随着应用的不断进步发展,企业已经不能光靠联机事务处理OLAP去应对压力取得行业领先水平,这是他们需要对自身业务的运作及整个市场行业相关的趋势进行分析,做出有利的决策。这时对以往大量的历史数据的使用和存贮就成了势在必行。但实际企业与企业之间,企业内部各部门之间业务、目标以及操作系统、存储方式的不同必然造成数据上的差异,不能提供有效的信息共享,形成数据孤岛,不能满足管理人员决策分析的需求。传统关系数据库依然不能满足以上需求,这时就需要一种能够适应决策分析的数据环境数据仓库(DataWarehouse,DW)O在本文中建立一套数据仓库系统,完成了多种异构数据的整合,简单的BI分析并用图表显示。第二部分讲述数据仓库整体架构思路,第三部分为本套以元数据为驱动系统的具体实施,第四部分文章总结。2技术背景数据仓库是数据分析和决策支持系统(DecisionSupportingSystem,DSS)在当代海量数据背景下产生的技术。是一个面向主题的、集成的、相对稳定的、反映历史变化的结构化数据集合[1]。数据仓库的建设更像一个过程而不是工程,以现有企业大量历史的数据作为积累,进行归纳重组,运算分析,把计策信息及时地交给企业管理层,这才是数据仓库的根本任务。经典架构见图1。图1经典数据仓库DWETL(Extract-Transform-Load),即从各种异构数据源中抽取数据,并按照预先设计好的规则进行转化清洗,处理一些冗余、歧义、残缺、违反业务逻辑的数据,统一数据粒度,最后加载到目标数据仓库中,是建立数据仓库的必要基础。ETL设计和开发占整个数据仓库系统开发量的60%〜80%[2],一般有两种工具方案供选择:一种使用数据仓库引擎厂商提供的ETL工具进行数据的加载;通过ETL工具提供的编程API进行数据的加载。前一种更加简便快捷,后一种更加灵活,性能也有一定的提升。此外最主要的问题就是如何建立有针对性的ETL过程模型,研究组织对早期建立ETL过程模型也给出了很多建议[5]。还有国外著名数据仓库软件厂商,如Informatica的powercenter,IBM的infoSphereDataStage,Oracle的OracleDataIntegration,Microsoft的SSIS都是优秀的数据仓库工具,其中也有源工具RepositoryExplorer,Beeload,Kettie,DataSpider集成整套的DW和BI功能。ETL过程的设计需要对数据结构,不同的主题也需要设计专门的ETL的过程。所以当需要转变商业规则或数据结构,就需要重新设计ETL过程,重用性很低。为了解决以上问题,设计一种新的ETL应对方案,解决的了过程核心的重复编写,提供了重用性,采用了ETL工具和API接口相结合的架构方式,能够满足大部分的数据源和多样的处理过程,在保证数据加载性能的同时更灵活方便,以元数据为驱动,实施了一整套数据仓库系统并研究分析。3系统设计本系统主要以意大利Pavia大学IRMA项目为背景,实现一套交互性的城市助手系统,建立数据仓库,提供分析图表,帮助行政人员更好的管理城市基础设施。市民也可以使用手机APP主动的加入到城市的监控,对公共设施出现的问题可以立即拍照上传,并根据位置信息显示在地图上,不同用户间可以相互评论。城市管理人员在web端监视到出现的问题,就会派...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?