医疗诊断系统中的数据预处理2005年1月第12卷第1期控制工程ContmlEngineeringofChinaJan.2005Vol.l2.No.r文章编号:1671—7848(2005)01—0033—04医疗诊断系统中的数据预处理张思奇,周淑文,巩志国,董名垂(1.澳fl大学科技学院,澳门3001;2.东北大学机械工程与自动化学院,辽宁沈阳110oo4)摘要:针对长期积累的病历数据不仅数量庞大,记录方式,内容千差万别,而且噪声,缺省值人量存在的问题,提出了智能医疗诊断系统,利用以往的病历数据经过数据挖掘等技术来产生决策规则,以期为潜在的患者及早发现病情,获得早期诊治:总结了病历文本的记录内容和特点,对每一类的特点和形成原因进行了分析研究,并结合医疗诊断分别提岀了针对它们的预处理方法,为下一步数据挖掘做好了准备.关键词:数据挖掘;哄疗数据;数据预处理中图分类号:TP274文献标识码:ADataPreprocessinMedicalDiagnosisSystemZHANGSi-qi,ZHOUShu-welt,GONGZhi-guo,DONGMing-chui(1.FacultyofScienceandTechnology,MacauUniversity,Macau3001,China;2.CollieofMechanicalEngineeringandAutomation,NoaheastemUniversity,Shenyangl10004,China)Abstract:Intelligentheahhcaresystemdataprepmcesspmblemisdiscussed.Itistohelpprospectivepatientfindhisconditionassoonaspossiblewithdecisionrulesproducedbasedonmedicalcasesbyusingdataminingtechnology.Medicalcasesarenotonlyhugeinamount,butalsodifferentfromeachotherinreco〜stylesandcontents.Thecontentandcharacteristicofmedicalcasesissummarized.CombiningwithmedicaldiagnosisJtaimsateachkindtobringforwardtheideaofdatapreproce〜fordataminingrespectively.ThepropOsedmethodmakesgoodpreproce〜fordatamining.Keywords:datamining;medicaldata;datapreprocess1引言数据挖掘(DataMining,DM)是随着数据库技术和人工智能的发展而迅速兴起的边缘学科,它通过对海量历史数据的智能处理,可以揭示出反映事物内在规律和预测发展趋势的规则或模式.DM在许多领域有着极其重要的作用,智能医疗诊断就是其中之一.长期积累的病历文本的医疗数据是相当庞大的,对这些数据可以集中运用各种数据挖掘技术,了解各种疾病的典型症状,各种疾病的共性,各种疾病的发展规律等,为医疗诊断提供新的思路•此项工作对疾病的诊断,治疗和医学研究都是非常有价值的.利用DM技术对医学相关的研究很多,包括对心脏SPECT图像的数据挖掘…,医学数据库中疾病模式的发现],可视化数据挖掘13等方面的研究.数据挖掘的各种技术和方法在医学领域都有广泛的应用,在今后的几年里,医学领域内的数据挖掘技术水平会更高,应用会更广.2在线智能医疗诊断系统简介在线智能医疗诊断系统,是澳门大学科研委员会资助项目"Network.based,Intelligent,HomeHeM〜eareSystem”.设计者尝试用数据挖掘对一些实际的医疗数据进行分析•从珠海某医院病案室保存的冠状动脉粥样硬化性心脏病(简称冠心病)病历中选取了一些数据作为挖掘的数据源•之所以选择冠心病作为研究对象是因为该病种与其他心脏病病种相比发病率较高,约占80%.该项目的目的是通过对这些病历数据的分析,得到一些有价值的诊断规则,帮助潜在的患者及早发现病情,以便获得最佳治病时机•在线智能医疗诊断系统如图1所示.收稿日期:2004・08.10;收修定稿日期:2004-09.18基金项H:澳门大学科研委员会资助项0(RG049/02-03S/VM1/FST)作者简介:张思奇(1978・),女,辽宁沈阳人,硕士研究生,主要研究方向为数据挖掘,数据仓库的理论与应用.34?控制工程第12卷图1在线智能医疗诊断系统了锯3数据预处理的定义一”・)噪声数据由于病历是由医生手工记录的数据预处理包括实施数据挖掘算法前的所有工这就会存在记录错误,它们多由笔误造成.而数据作:它实际上是一个转换,将现实世界中的原始库录入人员为非医学专业人员,对于一些屈性值的数据向量转换为一系列新的数据向量,,由明显出入不能及时发现,同时录入时偶尔也会将原式(1)求得:木正确的数据输错,使得数据具有噪声•带噪声的y:(,)(l)数据如果不处理则会影响知识发现的准确性.式中,=1,2,…,n,n为对象数目;=1,2...