大规模InfiniBand网络自学习的故障诊断方法

大规模InfiniBand网络自学习的故障诊断方法摘要:针对大规模数据中心网络中如何冇效监控网络异常事件、发现网络性能瓶颈和潜在故障点等问题,在深入分析InfiniBand(TB)网络的特性,引入了特征选取策略和增量学习策略的基础上,提出了一种面向大规模IB网络增量学习的故障诊断方法IL_Bayes,该方法以贝叶斯分类方法为基础,加入增量学习机制,能够有效提高故障分类精度。在天河2真实的网络环境下,对算法的诊断精度和误诊率进行了验证,结果表明IL_Bayes算法具有较高的故障分类精度和较低的误诊率。关键词:数据中心;InfiniBand;故障诊断;贝叶斯分类;增量学习中图分类号:TP393.070引言数据中心是Internet的重要基础设施,是为用户提供数据存储、计算和传输的核心。随着互联网的飞速发展,特别是大数据时代的到来,数据中心在Web服务、搜索引擎、电子商务、社交网络、网络游戏及大规模集群计算等领域中的关键作用日益显现[1]。H前数据中心的网络规模日益庞大,互联的计算节点数量能达到100000以上的量级,而交换节点的数量也接近10000量级。数据中心性能需求表现为高带宽、低延迟、低主机开销和低存储开销等特点[2]oInfiniBand(以下简称IB)是目前数据中心互联的主流网络o2013年11月公布的T0P500高性能计算机排名中,InfiniBand是最常用的互连技术,在TOP100名单中占48%,T0P200占48.5%,---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---T0P300占44%而在T0P400系统中则占42.5%。2010年,Oracle通过在英数据仓库和数据处理平台Exadata中使用IB交换,处理性能提升10倍⑶。2010年,Google在其研究工作中釆用IB和蝶形网络拓扑构建数据中心,网络功耗节约85%[4]。2011年,Microsoft基于IB组建高性能数据中心支持其BingMaps应用,与传统基于以太网的架构相比节约80%的功耗和50%的成本[5]oStanford课题组通过IB互联分布式DRAM实现了高性能数据中心存储系统[6]o在大规模数据中心网络中,网络的故障率呈指数增加,长期的实践[7]表明,故障率随着网络中节点数快速增加,例如,从服务节点故障的角度看,服务单点可靠性为99.99%,按照10000级的规模计算则网络故障率为63%,若单点可靠性为99.9%,则网络故障率几乎达到100%。大规模数据中心网络运行的应用通常対网络性能要求严格,需要管理者能更加实时、精确地掌握全网态势和端到端的通信性能,在网络性能下降之后及时发现和定位故障和网络拥塞,TB网络在人规模数据中心网络中的应用越来越广泛,研究面向大规模IB网络的故障诊断方法,保持和提高IB网络运行的健壮性,提高网络的修复能力,保障网络上关键任务的成功完成非常重要。1相关研究近年来针对网络故障的诊断方法已经进行了大量的研究。出现了以贝叶斯网络方法、数据挖掘方法等为主的故障诊断方法。文献[8]提出了一种基于拉格朗口和次梯度法的网络故障诊断方法(novellocationapproachbasedonLagrangianRelaxationandSubgradientMethod,LRSM),该方法对现在的二分图故障传播模型进行改进,加入虚假故障因素,在改进二分图模型的基础上提出了故障定位问题的01最优化描述,并利用拉格朗日松弛法和次梯度法对问题进行求解,冇效提高了分类检测精度和---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---减少了诊断时间。文献[9]提出了一种基于谱图理论的故障诊断算法(AlarmCorrelationAlgorithmbasedonSpectralGraphtheory,ACASG),建立了时序告警关联数据模型,将告警数据看作一个高维空间,具有相关特性的告警是隐含在该空间中的局部结构,通过谱图理论发现高维数据空间中潜在的低维映射结构,通过分析低维空间中点结构之间的相似性,实现告警数据的可视化显示,该方法不仅可以发现告警的相关性,而且还可以通过分析谱图的变化预测定位网络中发生的故障。文献[10]针对网络层和数据链路层,为简化故障决策算法、降低误报率,提出了一种基于粗糙神经网络的故障诊断算法(RoughArtificialNeuralNetwork,RANN)和分层故障诊断思想,通过神经网络来逼近故障诊断这种映射关系,实现对故障的分类,利用正域的概念,去除兀余属性,求...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?