煤炭企业信息系统集成的系统架构研究

面向高维微阵列数据的集成特征选择算法孙刚张靖2(1.阜阳师范学院计算机与信息工程学院,阜阳市,2360372.合肥工业大学计算机与信息学院合肥230009)摘要:特征选择算法是微阵列数据分析的重要工具,特征选择算法的分类性能和稳定性对微阵列数据分析至关重要。为了提高特征选择算法的分类性能和稳定性,本文提出一种面向高维微阵列数据的集成特征选择算法来弥补单个基因子集信息量的不足,提高基因特征选择算法的分类性能和稳定性。该算法首先采用信噪比方法选择若干区分基因,然后对每个区分基因利用条件信息相关系数评估候选基因与区分基因的相关性,生成多个相关基因子集,最后,通过集成学习技术整合多个相似基因子集。实验结果表明本文提出的集成特征选择算法的分类性能以及稳定性在多数情况下均优于只选择单个基因子集的方法。关键词:微阵列数据,信噪比,条件相关系数,特征选择中图分类号:TP3文献标识码:AEnsembleFeatureSelectionAlgorithmforHighDimensionalMicroarrayDataSUNGang,1,2ZHANGJing2(1.SchoolofComputerandInfonnationEngineering,FuyangTeachersCollege,Fuyang,2360372.SchoolofComputerandInformation,HefeiUniversityofTechnology,Hefei,230009)Abstract:Featureselectionalgorithmisanimportanttoolformicroarraydataanalysis,classificationabilityandstabilityoffeatureselectionalgorithmformicroarraydataanalysisisessential.Inordertoimproveclassificationabilityandstabilityoffeatureselectionalgorithm,aensemblefeatureselectionalgorithmforhighdimensionalmicroarraydataisproposedinthispapertocompensateforthelackofinformationofasinglegenesubsetandimprovetheclassificationabilityandstabilityofgenefeatureselectionalgorithm.TheproposedalgorithmfirstlyusesSignalNoiseRatiomethodtoselectdiscriminativegenes,andthengeneratesrelatedgenesubsetsthroughevaluatingthecoiTelationbetweenthecandidategeneanddiscriminativegeneusingconditionalcorrelationcoefficientforeachdiscriminativegene,andfinallyintegratesrcscmblantgenesubsetsthroughensemblelearningtcchnology.Experimentalresultsshowtheclassificationabilityandstabilityofensemblefeatureselectionalgorithmissuperiortoselectonlyasinglegenesubsetinmostcases・Keywords:microarraydata,signalnoiseratio,conditionalcoiTelationcoefficient,featureselect基金支持:国家口然科学基金项冃(51174257/F030504);中央高校基本科研业务费专项资金项冃(2013BHZX0040);安徽省级科研机构委托专项重点项目(2013WLGII01ZD)资助作者简介:孙刚(1978-),男,博士后,研究方向:数据挖掘.人工智能和模式识别1引言随着基因芯片技术的发展,基因表达实验获得了大量的微阵列相关数据,为人类疾病研究提供了一种全新的手段。微阵列数据中单个样本的基因维数往往是数以万计,而真正和疾病有关的基因维数不多,我们把和疾病有关的基因称之为信息基因,因此,开发一个有效的、稳定的方法从高维微阵列数据中提取信息基因子集,是微阵列数据分析中一个极具挑战性且十分重要的问题。特征选择技术能够通过剔除无关属性、冗余属性和噪声属性来选择相关属性的子集,它已经广泛地应用在模式识别、统计分析、数据挖掘和机器学习等领域[1],已经成为微阵列数据分析和应用的重要工具[2]。目前大多数基因特征选择算法都是根据分类能力选择单个基因子集作为特征选择结果,学习算法在此单个基因子集上进行训练,产生分类模型,但是,单个基因子集在微阵列数据分析中具有很多不足。首先,单个基因子集所包含的信息量有限,因此,对于生物领域专家来说,单个基因子集是不可靠的,不能全面地表示整个原始基因数据,从而使生物领域专家对基因选择的结果产生怀疑。另外,当训练样本发生变化时,单个基因子集也会随之发生变化,这将导致基因特征选择算法的不稳定,降低模型的泛化能力。为了得到最小的基因子集,许多基因特征选择算法在进行基因选择时会剔除大量的冗余基因,但是,一些冗余基因...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?