系统发育研究中多重序列比对常见问题分析_姜自锋ActaZootaxonomicaSinica,31(1):81-87(Jan.,2022)动物分类学报ISSN1000-0739国家自然科学基金资助项目(30330090,NSFC-J0030092).*通讯作者,电话:62559639,E-mail:huangdw@http://www.sodocs.net/doc/0d18c34376c66137ef061932.html收稿日期:2022O04O19,修订日期:2022O09O22.81系统发育研究中多重序列比对常见问题分析姜自锋1,2窦向梅1,2黄大卫1,3*11中国科学院动物研究所北京10008021中国科学院研究生院北京10003931山东农业大学植物保护学院泰安271018摘要在简单介绍序列比对原理的基础上,结合自己的经验,对经常出现的问题进行总结分析,以期在将来的序列比对工作中避免此类问题的发生。关键词序列比对,系统发育,分子系统学,生物信息.中图分类号Q960近年来,随着测序技术的自动化和测序成本的降低,核苷酸序列已经成为分子系统学研究的主要数据来源(Caterinoetal.,2000)。根据测序图对测序结果进行初步校正后,需要进行序列比对(sequencealignment)才能进行系统发育分析、分子地理系统发生分析或分子进化等研究。由于分子系统学是基于位点同源假设之上,序列比对分析结果的好坏直接影响系统发育分析结果,而且这种影响远大于应用不同的系统发育分析方法造成的影响(Swoffordetal.,1996)。很明显,序列比对是系统发育分析中的一个基础步骤和关键环节。此外,序列比对还可以应用于引物设计,同源基因的克隆扩增,同源结构域寻找,二级结构高级结构预测等工作,为分子遗传学研究、药物学研究提供技术支持。利用基因序列进行生物类群的系统发育研究,已经成为生物系统学的热点。多重序列比对不仅是生物信息学中的核心问题之一,也是系统发育分析中的一个基础步骤和关键环节。序列比对结果直接影响系统发育分析结论。目前有多种软件可以完成比对工作,但软件分析结果并不是完美,盲目的相信或过多的依赖软件分析结果会使研究者得出错误的结论甚至难以开展后续的工作。在简单介绍序列比对原理的基础上,结合作者经验,对序列比对中经常出现的问题进行总结分析,以期在将来的工作中避免此类问题的发生。由于双重序列比对仅是多重序列比对的一种简单情况,多重序列比对出现的问题也同样适用于双重序列比对,本文仅以多重序列比对为例。此外,需要注意的是,序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的,而序列是否同源需要有进化事实的验证,二者之间并没有明确的量化关系。为了便于描述,本文中把相似程度高的序列暂称为同源序列。1序列比对的原理序列比对是将同源序列位点上匹配位点(相同或相似残基)与不匹配位点(不相似的残基)按照一定的记分规则转化成序列间相似性或差异性数值进行比较,相似值最大时的比对结果具有最多的匹配位点,从数学角度讲,应该是最优的比对结果。比对结果反映了数学模型或算法在多大程度上反映序列之间的相似性关系以及它们的生物学特征(唐玉荣,2022)。记分规则是由取代矩阵(substitutionmatrix)的选择和空位罚分(gappenalty)的参数设置决定,规则的核心是奖励匹配位点,惩罚不匹配位点及具有空位的位点。针对不同的研究目标和对象应该构建适宜的取代矩阵。国际上常用的氨基酸序列的取代矩阵有PAM和BLOSUM等,它们来源于不同的构建方法和不同的参数选择,包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。对于不同的对象可以采用不同的取代矩阵以获得更多信息,例如对同源性较高的序列可以采用BLOSUM90矩阵,而对同源性较低的序列可采用BLOSUM30矩阵。空位的引入是为了补偿插入(insertion)和缺失(deletion)对序列相似性的影响以求得最佳的序列比对结果。序列的缺失或插入(缩写为indels)是相对而言的,一条序列插入一定长度的序列,另一条序列就相应地缺失同样长度的序列。任何两条序列在自由引入空位(没有罚分)后最终可使所具有的匹配位点都匹配,但这样的匹配没有任何意义,因此在一定程度上限制空位的数目以产生有生物学意义的比对结果。因此,对空位的罚分数值应该比较高。由于没有什么合适的理论模型能很好地描述空位问题,因此空位罚分缺乏理论依据而带有较多的主观色彩。一般的处理方法是用两个罚分值,对插入的第1个空位(gapopenin...