含缺失属性值的问题数据检测与修复研究精品

所属栏目:计算机理论与算法含缺失属性值的问题数据检测与修复研究高科I,刁兴春2,曹建军2(1.解放军理工大学指挥信息系统学院,江苏南京210007;2.总参第六十三研究所,江苏南京210007)摘要:为了更加准确地对问题数据进行检测以及修复,尤其是针对存在属性值缺失的情况,提出了综合利用数据质董规则与Fcllegi・Holt方法进行数据质董检查的箋略。针对不同的检测需求,分别设计了以问題数据定位和问题数据修复为目标的检测算法,同时提出了相应的算法以解决问题数据的修复以及缺失数据的填充问题。分别利用实例数据与生成数据进行实验,实验结果表明:该方法对问题数据进行检测的召回率和准确率都有明显优势,两种检测褰略在进行问题数据检测时的效率问题也有较大差异。关键词:属性缺失;数据规则;FelIegi・Holt;数据修复;数据填充中图分类号:TP311文献标志码:A文童编号:(作者可不填)ErrorDataDetectionandrepairinginConditionofFieldValueMissingBasedonFellegi-HoltMethodGAOKe*,DIAOXing<chun2,CAOJian-jun2(1.CollegeofCoimnandInformationSystems,PLAUniversityofScienceandTechnology,Nanjing210007,China;2.The63rdResearchInstituteofPLAGeneralStaffHeadquarters,Nanjing210007,China)Abstract:Tocarryoutthedetectionoferrordataonconditionoffieldvaluemissingmoreexactly,ThispaperputforwardanerrordatadetectionmethodbasedonFellegi-Holtmethodanddataqualityrules.Tomeetdifferentrequirements,twoalgorithmsaredesignedtosolvetheerrordatalocationandrepairingproblems.Algorithmsarealsoputfbru?ardtosolvetheerrordatarepairingandmissingdatafillingproblems.Experimentswereconductedwithbothreal-lifeandsyntheticdatatoexaminethealgorithms,theresultshowsthatthereisagreatimprovementintherecallandaccuracyrateoferrordatadetection.andtheefficiencyoftwoalgorithmsdiffersalot.Keywords:fieldvaluemissing;datarules;Fellegi-Holt;datarepairing;datafilling0引言随着信息技术的不断发展,各行业的信息化程度不断推进,信息系统在企业资源管理配置小起到趣來越匝要的作用。数据作为信息系统屮最宝贵的资源.成为决策分析的基础。因此数据质昴的好坏对于潇业决策至关重要。为了获得更高质量的数据,解决数据屮存在的各种各样的问题,众多数据质最检测以及清洗算法不断被提出,旨在更好地挖掘数据本身的价值,科学地辅助决策。当前,人们广泛利用数据依赖关系(如完整性约朿、一致性约朿等)结合专家领域知识氷检测并修复问题数据川,也有学者提出了名为fixingrules的自动可靠数据修复模型叫然而当数据集中的属性值存在缺失时,这些方法的实际效果往往会大打折扌口0在各种实用的数据库屮,属性值缺失的情况经常发生誤至能不可避免的,这使得信息系统在大多数情况卜•是不完备的,据统计数据显示:美国医疗数据库屮有13・6%・81%的关键数据存在不完整情况叫引起数据缺失的可能原因有很多,例如:1)部分信息暂时无法获取:2)信息遗漏;3)有些对象特定属性不可用;4)实时性要求达不到等等在众多数据采集系统屮,数据的各个属性值之间通常存在很强的逻辑约束关系•而Fellegi-Holl方法在解决这一类数据的检测修复方面具有很好的效果。本文立足于属性值之间具有相互约束关系特点的关系羽数据,主要解决在部分属性取值存在缺失的情况下.如何更好的利用现令的数据质最规则进一步提髙问题数据检测的准确性问题,从而为问题数据的修复提供更加准确的参考依据。即通过采用Fellegi-Holt算法对数据质最规则进行逻辑检查与预处理.在4:成的规则闭集基础上进行问题数据检测,同时提出一种代价最低的问题数据修正策略。1研究基础基于规则的数据质杲检查过程是对于数据库中的数据,逐条记录进行检测是否满足给定的规则约束⑸。数据修正则是找出一条与原记录对应的记录.使其满足所令的规则约束并且尽可能与原记录的相关信息保持一致。下面我们通过一个例子,从现有的问题数据检测修复方法入手,进一步介绍如何利用Fellegi-Holt算法进行改进.获得更好地处理...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?