一种全面高效的HPCS监控体系

一种全面高效的HPCS监控体系摘要:分析了以超级计算中心联想深腾6800为主的HPCS监控需求,比较了大量的监控实现技术,给出监控系统评估特征和指标,提出了一种集系统、性能、应用程序、进程监控于一体的改进策略,讨论了利用信息流水、过滤、双重传输模式减少监控数据传输量,减轻监控资源消耗,提高综合监控的性能和效率。关键词:HPCS;监控;Clumon+;过滤;双重传输模式:TP311.5文献标志码:A:1001-3695(2007)07-0024-040引言??关于HPCS(HighPerformanceComputingSystems)的监控,国内外有许多研究机构和商业团体提出了许多有效的监控实现技术,如??N??层监控树、RRD(RoundRobinDatabase)等;产生了不少优秀的监控软件,如早期的CARD[1],Java和C/S技术实现的Parmon[2],树型结构能够监控集群簇的Supermon[3],世界范围内广泛应用的分布式监控软件Ganglia[4,5],国内的Ganglia+[6,7](在Ganglia的基础上达到了更高的可靠性和安全性),以及著名商业化异种集群分布式监控软件BigBrother,Berkeley大学系统管理工具Now,使用接近/proc实现的Dproc,同批处理系统紧密结合的Clumon(+OpenPBS)[8]、NWPerf[9]、PerfMiner(+Easy)[10],其他如MonALISA、IMPuLSE、HiFi、Astrolabe、Lemon等。??基于上述监控软件的分析发现,大部分工具只具备单一的功能,未能把多个监控领域综合起来实现。如系统监控软件Swatch只探测可能发生的系统事件,通知管理员以及完成部分管理功能如重新启动进程或者加载文件系统等;常见的Ganglia等均属于性能监控范畴;应用程序监控只有少量研究简单涉及(如Clumon),通常还局限于特定的批处理系统;进程监控较少体现在实际工具中,却非常必要;国内的研究更是处于起步阶段,还有很多工作有待于进一步开展。??为此,需要建立一种集性能、应用程序、系统、进程监控于一体的全面的监控体系,它不仅应该诊断硬件、内核、服务等系统不同层次的状态(包括:①各节点的CPU负载信息,CPU使用率;②各节点内存使用率,Cache、Buffer、Swap信息等;③各节点的磁盘输入/输出状况,即硬盘用量和空间;④网络状况,负载和利用率等,用于系统管理员查看和分析,从而调整优化系统的性能和资源分配(即性能监控)),还应该能收集到应用程序、作业等运行信息,利于查看批处理系统实际应用性能、工作负载和吞吐量等(即应用程序监控);同时,也可以相当于一个虚拟的系统操作员,监视一切体现潜在的系统故障的事件,且以邮件或者信息的方式通知系统管理员,并自动采取一些应对管理措施,保证其计算环境的可靠性(即系统监控);且能扫描运行在系统平台上的进程,对外来的可疑进程或占有系统资源较多的“霸道”进程等有一定的判别能力,如硬盘利用率超过95%,CPU平均负载过高,某些重要进程僵死,一些特殊的IP地址连接不上,以及某些服务关闭等,然后由管理员采取一定措施(如清除一些僵死的进程,重启或者扼杀一些混乱的进程等)以保障系统的安全(即进程监控)。??但是,因为将几方面的监控整合于一体,系统占用的计算、存储等资源也必然随之增加。系统监控可能一个小时运行几次,性能消耗还不算太大,性能监控一分钟运行多次,将要占用惊人的系统资源,故其本身更要采用高性能的设计。因此,也要改进现有监控软件实现的模式,利用信息流水、过滤、双重传输等技术等加快数据收集的速度,减少传输数据量,提高数据表示、传送的效率,减轻监控系统本身的资源损耗,从而获得更高的监控性能。??1监控系统特性??对于运行于HPC以及HPCS上的监控系统而言,必须具备以下八个特性:??(1)全面性――主要体现在两个方面,一是监控对象的全面性,即应该能够监控到HPCS的各个部分,如上面提到的系统、性能、应用程序和进程一体化;二是监控信息的全面性,即对每个部分的监控信息都要全面。??(2)低延迟――即实时性,监控数据尽可能反映系统当前状态和短时间内的变化。??(3)可扩展――监控消耗的CPU等系统资源数量和节点数之间要大大低于线性关系。??(4)健壮性――在不同的节点或网络故障的情况下,监控仍能正常进行,且尽可能准确。??(5)可延伸――系统能以便利的方式,如...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?