面向高维微阵列数据的集成特征选择算法孙刚张靖2(1.阜阳师范学院计算机与信息工程学院,阜阳市,2360372.合肥工业大学计算机与信息学院合肥230009)摘要:特征选择算法是微阵列数据分析的重要工具,特征选择算法的分类性能和稳定性对微阵列数据分析至关重要。为了提高特征选择算法的分类性能和稳定性,本文提出一种面向高维微阵列数据的集成特征选择算法来弥补单个基因子集信息量的不足,提高基因特征选择算法的分类性能和稳定性。该算法首先采用信噪比方法选择若干区分基因,然后对每个区分基因利用条件信息相关系数评估候选基因与区分基因的相关性,生成多个相关基因子集,最后,通过集成学习技术整合多个相似基因子集。实验结果表明本文提出的集成特征选择算法的分类性能以及稳定性在多数情况下均优于只选择单个基因子集的方法。关键词:微阵列数据,信噪比,条件相关系数,特征选择中图分类号:TP3文献标识码:AEnsembleFeatureSelectionAlgorithmforHighDimensionalMicroarrayDataSUNGang,1,2ZHANGJing2(1.SchoolofComputerandInfonnationEngineering,FuyangTeachersCollege,Fuyang,2360372.SchoolofComputerandInformation,HefeiUniversityofTechnology,Hefei,230009)Abstract:Featureselectionalgorithmisanimportanttoolformicroarraydataanalysis,classificationabilityandstabilityoffeatureselectionalgorithmformicroarraydataanalysisisessential.Inordertoimproveclassificationabilityandstabilityoffeatureselectionalgorithm,aensemblefeatureselectionalgorithmforhighdimensionalmicroarraydataisproposedinthispapertocompensateforthelackofinformationofasinglegenesubsetandimprovetheclassificationabilityandstabilityofgenefeatureselectionalgorithm.TheproposedalgorithmfirstlyusesSignalNoiseRatiomethodtoselectdiscriminativegenes,andthengeneratesrelatedgenesubsetsthroughevaluatingthecoiTelationbetweenthecandidategeneanddiscriminativegeneusingconditionalcorrelationcoefficientforeachdiscriminativegene,andfinallyintegratesrcscmblantgenesubsetsthroughensemblelearningtcchnology.Experimentalresultsshowtheclassificationabilityandstabilityofensemblefeatureselectionalgorithmissuperiortoselectonlyasinglegenesubsetinmostcases・Keywords:microarraydata,signalnoiseratio,conditionalcoiTelationcoefficient,featureselect基金支持:国家口然科学基金项冃(51174257/F030504);中央高校基本科研业务费专项资金项冃(2013BHZX0040);安徽省级科研机构委托专项重点项目(2013WLGII01ZD)资助作者简介:孙刚(1978-),男,博士后,研究方向:数据挖掘.人工智能和模式识别1引言随着基因芯片技术的发展,基因表达实验获得了大量的微阵列相关数据,为人类疾病研究提供了一种全新的手段。微阵列数据中单个样本的基因维数往往是数以万计,而真正和疾病有关的基因维数不多,我们把和疾病有关的基因称之为信息基因,因此,开发一个有效的、稳定的方法从高维微阵列数据中提取信息基因子集,是微阵列数据分析中一个极具挑战性且十分重要的问题。特征选择技术能够通过剔除无关属性、冗余属性和噪声属性来选择相关属性的子集,它已经广泛地应用在模式识别、统计分析、数据挖掘和机器学习等领域[1],已经成为微阵列数据分析和应用的重要工具[2]。目前大多数基因特征选择算法都是根据分类能力选择单个基因子集作为特征选择结果,学习算法在此单个基因子集上进行训练,产生分类模型,但是,单个基因子集在微阵列数据分析中具有很多不足。首先,单个基因子集所包含的信息量有限,因此,对于生物领域专家来说,单个基因子集是不可靠的,不能全面地表示整个原始基因数据,从而使生物领域专家对基因选择的结果产生怀疑。另外,当训练样本发生变化时,单个基因子集也会随之发生变化,这将导致基因特征选择算法的不稳定,降低模型的泛化能力。为了得到最小的基因子集,许多基因特征选择算法在进行基因选择时会剔除大量的冗余基因,但是,一些冗余基因...