一种基于宏基因组模拟数据的生物标志物筛选方法

一种基于宏基因组模拟数据的生物标志物筛选方法王晓君++滕琳摘要:鉴于生物圈中微生物资源的巨大开发潜力以及测序技术不断发展,宏基因组学研究的不断深入,微生物群落已经被看作一个整体来进行分析并且已经得到广泛应用。然而由于微生物的多样性以及微生物菌群的复杂性,使得精确确定和定量宏基因组数据中的分类单元成为宏基因组数据分析的难点。已有的宏基因组数据标记分析工具无法解决微生物群落预测结果重现的稳健性、准确性以及处理非冗余标记物方面遇到的问题。笔者提出了一个新的基于宏基因组自助抽样(metagenomicbootstrap)的生物标志物选择方法,它结合了mRMR(minimalredundancymaximalrelevance)和自助抽样方法(bootstrapping),可以更加稳健、准确而有效地通过对宏基因组数据的挖掘实现非冗余标记物的筛选。基于模拟数据集,通过其与2种自上而下的方法(metastats、LEfSe)以及自下而上的方法(Wilcoxon秩和检验)进行对比,表明本方法可以在较高准确率的基础上更加稳健地选择更多的非冗余生物标志物。关键词:宏基因组;生物标志物;mRMR;自助抽样法:Q789文献标志码:A:1002-1302(2016)05-0056-04微生物一直被人们视为巨大的生物资源,尤其是其庞大的基因组数据包含有大量不为人知的新功能基因,将对人类的生产、生活做出卓越贡献[1]。然而,微生物资源中九成以上的微生物是不可培养的,也就意味着在新基因探索的道路上,人类面临着不小的困难。新一代测序技术的出现将帮助人们揭示不可(或难)培养微生物的基因组信息,从而发现新的微生物或新的功能基因。随着微生物基因组数据库的不断壮大,人们普遍意识到宏基因组数据分析的难点,宏基因组数据中生物标志物的鉴定以及应用非常重要。但宏基因组数据分析并不简单,研究显示,微生物群落展现出了非同一般的主体间可变性,更不可思议的是,此可变性竟然出现在人类和环境菌群中[2-3]。目前,人们已知的宏基因组生物标志物的鉴定方法有2种:一种是自下而上的方法,主要包括Wilcoxon秩和检验[4],测试每个分类单元,选择群体间具有差异的元素作为标志物;另外一种是自上而下的方法,主要包括metastats、LEfSe。虽然这2种方法都可以用来统计评估宏基因组数据的差异,对生物标志物进行鉴定,但这些方法很难解决数据分析结果重现的稳健性、冗余性等问题。笔者提出一个自上而下的结合mRMR[5]和自助抽样法从微生物宏基因组样本中筛选生物标志物的方法,此方法首先分析微生物群落的整体分布,然后进行生物标志物筛选,不同于传统生物标志物筛选的是,它结合了mRMR,能更为有效地避免了生物冗余标志物这一难题。1材料与方法1.1模拟数据集的产生S1模拟数据集:根据文献,微生物群落的分类分布都遵循正态分布,故而基于正态分布,产生模拟数据集S1(S1未列出,仅说明特性,其具体的结构类似于下面即将产生的数据集S3,只是在生成数据时产生的是正态分布的数据,不同分类之间的差异指的是均值差异。)。S1中共有1000个变量和120个样本,包含2个分类(每个分类包含3个亚类,每个亚类包含20个样本)。对于每一个样本来说,都包含10个真标志物组(10个变量/组)和1个假标志物组(900个变量/假标志物)。数据集S1的特性是真标志物中的2个分类组均值差异较大,在每个分类内部,亚类之间的差异很小(在每个标志物组内,虽然生成数据时没有差异,但是由于随机函数的缘故,差异在所难免)。S2模拟数据集:笔者分析以前本实验室口腔微生物宏基因组数据[6]发现,微生物群落的宏基因组数据的分布不单是正态分布这么简单,往往会有10%的变量符合正态分布和伽玛分布2种混合分布模式,因此基于正态和伽玛混合分布产生模拟数据集S2(表1)。数据集S2有2个重要特性:第一,对于真标志物,2个分类组参数shape(伽玛分布中的1个重要参数)或者均值差异较大,每个分类内部亚类之间的差异较小;第二,对于假标志物,它们在分类、亚类之间均值没有差异(每个标志物组内随机差异如S1所述)。此外,处在相同标志物组内的变量被认为是冗余的变量。S3模拟数据集:根据之前口腔样本数据发现,超过40%的变量仅符合伽玛分布,因此基于伽玛分布产生模拟...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?