大数据中数据的质量问题探析

大数据中数据的质量问题探析撰写时间:202X年XX月XX日刘妍东摘要:随着云时代的来历,大数据技术也越来越引起人们的关注。大数据带来的巨大的技术和商业机遇使众多的企业趋之若鹜。大数据分析挖掘和利用将为企业带来巨大的商业价值,但随着数据规模的急剧剧增,数据体量巨大、数据类型繁多,数据的价值参差不齐,在数据分析时将导致分析偏差。所以在大数据时代,数据的质量问题也是重中之重。通过分析,数据的质量问题主要存在这六大方面的问题:准确性、完整性、一致性、相关性、时效性、可信性和可解释性。关键词:大数据;质量问题中图分类号:TB文献标识码:Adoi:10.19311/j.cnki.1672-3198.2021.04.202121从采集的角度划分质量问题1.1准确性准确性是指数据是否正确的,数据存储在数据库中的值是否对应于真实世界的值。例如,某用户在使用支付宝绑定银行卡时,网站要求验证用户的真实姓名和身份证号码。如果用户提供的证件号码与实际号码一致,那么该号码存储在数据库中的值就是正确的。数据的不准确由如下原因造成:一是在收集数据时,设备出现故障,导致数据存储的值出现乱码。二是在数据输入时,人为的输入不准确的信息,或者计算機内部出错导致录入的信息有误,比如我们上网注册一些信息时,出于隐私考虑,用户会故意输入不正确的信息,包括年龄、地址、手机号等。三是在数据传输的过程中出现错误。比如,超出了传输缓冲区的大小,数据会出现截断等现象。最后一种是命名约定、数据代码、输入字段的格式不一致导致出错。其中,最常见的是:不按格式输入导致出错,例如输入字段为日期时,多个用户输入日期的格式不一致。1.2完整性完整性是指信息具有一个实体描述的所有必需的部分。在传统关系型数据库中,完整性通常与空值(NULL)有关。空值是指缺失或不知道具体的值,可能是一条记录中的某个属性缺失,也可能是整条记录都丢失。不完整的数据对数据分析会产生影响,比如考虑构造一个预测交通事故发生率的模型。如果忽略了驾驶员的年龄和性别信息,那么除非这些信息可以间接地通过其他属性得到,否则模型的精度可能是有限的。这种情况下,我们就需要尽量采集全面的数据信息。1.3一致性数据一致性是指在数据库中,不同表中存储和使用的同一数据应当是等价的,表示数据有相等的值和相同的含义。比如表1描述学生的基本信息,包括学号、姓名、性别、出生日期和所在专业,而所在专业必须从专业信息表获取。表2描述了专业的基本信息。从这两个表可以看到,表1中的学生李想所在的专业号并没有出现在表2中,说明该条记录的专业号有误,必须修改正确,才能保证两张表对应字段的正确性,这是数据的逻辑不一致。数据不一致还体现在记录的不规范上,比如两个表中对日期的格式记录不一致,如20210405和2021年4月5日这两种格式,会导致在数据集成中造成数据冲突。另外在数据出现冗余的情况下,数据内容由于各种原因比如并发控制不当,或程序故障导致前后数据不一样也是造成数据不一致的原因。2从应用的角度划分质量问题2.1相关性数据的相关性是指数据与特定的应用和领域有关。与数据相关的应用场景一般有,比如进行数据挖掘或构造模型预测时,需要采集相关的数据。例如考虑构造一个模型,预测交通事故发生率。如果忽略了驾驶员的年龄和性别信息,那么除非这些信息可以间接地通过其他属性得到,否则模型的精度可能是有限的。这种情况下,我们就需要尽量采集全面的相关的数据信息。另外一个相关性的质量问题表现在相同的数据,在不同的应用领域中,相关性也是不一样的。例如,对于某个公司的大型客户数据库,由于时间和统计的原因,顾客地址列表的正确性为80%,其他地址可能过时或不正确。当市场分析人员访问公司的数据库,获取顾客地址列表时,基于目标市场营销考虑,市场分析人员对于该数据库的准确性满意度较高。而当销售经理访问该数据库时,由于地址的缺失和过时,对该数据库的满意度较低。2.2时效性数据的时效性是指有些数据会随时间而变化的,这些数据收集后就开始老化,使用老化后的数据进行数据分析、数据挖掘,将会产生不同的分析结果。如商品推荐。顾客的当时购买行为或Web浏览行...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?