教学管理数据仓库中ETL的实现

教学管理数据仓库中ETL的实现作者:占小忆:《科技创新导报》2011年第16期摘要:ETL工具从异构数据源抽取数据,并将数据清洗,规范化后装载到数据仓库。文章从前期的数据理解阶段入手,分别讨论了数据的抽取、清洗转换、装载等不同阶段需要考虑的设计问题及相应的解决方案。提出了以数据理解为根基,以清洗转换为中心的设计思想,并给出成绩管理模块的具体实施步骤。关键词:ETL数据仓库数据抽取数据转换数据加载:TP311.13文献标识码:A:1674-098X(2011)06(a)-0017-021ETL的具体实现ETL具有以下两个主要特点:①数据同步;②数据的成批操作。数据仓库中的数据于教师、学生资料、学生考试成绩等等,其中一些数据存储在SQLServer、Foxpro等数据库中,还有一些以文本、word和excel方式存储于文件中,这些数据是异构数据,需要进一步处理后,才能加载到数据仓库中。本系统运用SQLServer2000提供的DTS(数据转换服务)工具,实现从不同的数据源中转换数据以创建数据仓库。1.1数据抽取源数据库的所有细节数据对于数据仓库的主题域并不是都有用的,必须根据已确定主题的需要,从原有操作型数据库中抽取相关数据到数据仓库。一般在设计数据抽取时要考虑以下几个方面:源数据库和目标数据库各自的数据库格式是否一致?从源数据库中要访问哪些文件和表?从源数据库中可以提取哪些字段,抽取记录的条件是什么?目标数据库中的表结构是什么?应当按照什么时间间隔来重复抽取表,定期更新数据仓库等?大型数据抽取工作可有专门的数据处理工具来完成。如果有少量数据格式,也可有专业人员编写抽取程序来完成数据抽取工作。1.2数据转换该数据仓库中的数据来自一个或多个异构的数据库系统,这些数据源之间往往存在着不一致的问题,如不一致的字段长度、不一致的赋值等。数据不一致会严重影响数据仓库的数据质量。数据转换就是处理这些不一致性的过程。(1)统一数据名称及格式。由于不同数据源数据明明及定义没有统一的标准,因此在源数据载入数据仓库之前必须对各个数据源的数据名称及格式进行统一。要处理的内容如下:大小写字母和文本全部转换为统一格式;从定点的十进制数据到浮点式二进制数据的格式数值数据均须转换为一致类型;统一书写格式。如常见的日期格式(DD/MM/YY,MM/DD/YY,YY/MM/DD等)必须被转换为同样的形式。(2)创建新的数据逻辑视图。数据仓库中存在着源数据库可能不存在的数据,比如学生成绩的平均分,通过人数等,因此还需要进行一下转换:把一个字段的各个部分隔成两个或多个字段;把一个记录的两个或多个字段组合成一个字段;把来自多个记录的字段结合成一个记录;增加一个新字段用来存储汇总记录;为了多维分析的方便,在导入数据时也常通过Case语句和Convert函数来进行简单的数据转换。其他设计复杂的转换需要单独编写转换函数来实现。1.3数据清洗数据清洗的任务实际上就是过滤不符合要求的数据,将过滤的结果交给业务主管部门,由业务单位确认应该过滤掉或是修正之后再进行抽取。不符合要求的数据主要是有以下几种:数据源中丢失数据、数据源中有错误数据、两个或多个数据源中的数据不一致或发生冲突。(1)对于数据的遗漏值和不规范值的处理,例如如生源地区,学生在网上自主录入的字段,有些学生不遵守录入规则,导致该字段出现空值和不规则值。对于这一类数据,可以利用系统的数据筛选功能将空值和不规则的值筛选出来加以手工修正。(2)对于数据杂质和不一致的数据应视情况区别对待,不能一律删除。例如学期成绩,应当查询该生当前学期每门课程的成绩,从而来计算学期平均成绩,如果该生当前学期有部分课程成绩为空,则认定该生缺考以零值计算这些课程;如果全部课程成绩都为空的话,则认定该学生学业发生变更,直接删除这些数据。(3)实现数据一致性,如:汇总后的学生信息表和学生成绩表中学生人数不同,即一张表中的学生记录在另一张表中没有对应学生的数据,这将对日后的数据分析产生相当大的影响。为了两张表所描述的学生统一起来,查询并删除这些记录。1.4数据汇总源数据库中的细节数据进入数据仓库后,还需要将这些数据在各种层次结构上进行汇总。例如,教学管理数据仓库中存储的细节数据时每个学生每门课考试的考试成绩,由于时间维为学...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?