基于直推学习的蛋白质亚细胞定位预测预处理方法

基于直推学习的蛋白质亚细胞定位预测预处理方法#曹隽喆,顾宏**510152025303540(大连理工大学控制科学与工程学院,大连116023)摘要:本文提出一种新的蛋白质亚细胞定位预测预处理方法,用于预先鉴定待测蛋白质具有单定位点还是多定位点。基于直推学习技术,该方法同时利用待测蛋白质和已知蛋白质的信息来估计每个待测蛋白质的亚细胞位置数量,从而识别并区分单定位点和多定位点蛋白质,并且利用相应的单标签或多标签分类器来处理各个待测蛋白质以取得高精度的预测结果。该方法的性能在三组蛋白质序列数据集上经行了测试,仿真实验表明本文的方法能有效鉴别出单定位点与多定位点蛋白质,且能有效提高蛋白质亚细胞定位预测的整体精度。关键词:控制理论与控制工程;生物信息学;蛋白质亚细胞定位;单定位点蛋白质;多定位点蛋白质;直推学习中图分类号:TP3-05PretreatmentMethodBasedonTransductiveLlearningforProteinSubcellularLocalizationPredictionCAOJunzhe,GUHong(SchoolofControlScienceandEngineering,DalianUniversityofTechnology,Dalian116023)Abstract:Inthispaper,anewpretreatmentmethodisproposedtoidentifywhetheraqueryproteinissingleplexormultiplexinadvanceforimprovingthequalityofproteinsubcellularlocalizationprediction.Basedonthetransductivelearningtechnique,thisapproachutilizestheinformationfromthebothqueryproteinsandknownproteinstoestimatethesubcellularlocationnumberofeveryqueryproteinsothatthesingleplexandmultiplexproteinscanberecognizedanddistinguished,andtheneachqueryproteinisdealtwithbyatargetedsingle-labelormulti-labelpredictortoachieveahigh-accuracypredictionresult.Theperformanceoftheproposedapproachisassessedbyapplyingittothreegroupsofproteinsequencesdatasets.Simulationexperimentsshowthattheproposedapproachcaneffectivelyidentifythesingleplexandmultiplexproteins,andthereliablyofthismethodforimprovingtheoverallaccuracyofpredictingproteinsubcellularlocalizationcanalsobeverified.Keywords:controltheoryandcontrolengineering;bioinformatics;proteinsubcellularlocalization;singleplexprotein;multiplexprotein;transductivelearning0引言蛋白质亚细胞定位预测是目前生物信息学中一个重要的研究课题,基于计算技术和蛋白质序列信息,人们提出了许多方法用于预测蛋白质亚细胞位置[1]。目前绝大部分相关研究都是建立在“每个蛋白质只存在于一个亚细胞位置中”这样一个传统的生物学观点基础之上,这样的蛋白质也称为单定位点蛋白质(SingleplexProteins)。但最近的研究表明[2],有很多具有特殊的生物功能的蛋白质能够同时存在于多个亚细胞位置中,这类蛋白质被称为多定位点蛋白质(MultiplexProteins)。由于多定位点蛋白质具有多个亚细胞位置,传统的只针对单定位点蛋白质的预测方法无法完整预测出多定位点蛋白质全部的亚细胞位置,因此发展出---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---基金项目:高等学校博士学科点专项科研基金资助课题(20120041110008)作者简介:曹隽喆(1984-),男,博士,主要研究方向:生物信息学、机器学习通信联系人:顾宏(1961-),男,教授,机器学习,数据挖掘,生物信息学.guhong@dlut.edu.cn-1----本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---一种方法能同时对单定位点和多定位点蛋白质的亚细胞位置进行预测,成为了目前该领域的一个新挑战。455055602007年,Chou和Shen基于多标签学习算法开发了一个名为Euk-mPLoc[3]的预测器,首次可以对真核多定位点蛋白质的亚细胞位置进行预测。在2010年,他们进一步发布了一个网络服务器Cell-PLoc2.0[4],包含了6个针对不同物种蛋白质的在线预测器。最近,一些基于多标签学习算法的具有更先进功能的新预测器[5-7]也被发布,能够用于同时处理单定位点和多定位点蛋白质。然而在实际应用中,由于在设计算法时需要同时考虑上述两类蛋白质的...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?