云平台集群智能监控软件

云平台集群智能监控软件

    云平台集群智能监控软件 V4.2宝德高性能计算管理平台是宝德自主研发的高性能集群软件,可将松散堆叠的服务器变成一整套HPC集群系统,实现集群资源统一部署、管理、监控、调度和报表等,可大幅提高集群效率,简化集群管理。

1.1 云平台集群智能监控软件 V4.2简介

    云平台集群智能监控软件 V4.2由CUI(Clustertech User Interface宝德用户界面)、集群管理模块、作业调度模块、集群监控模块、集群部署模块、集群报表模块组成。CUI是Web Portal基本模块,其他各个功能模块可以根据用户需求自由组合。选用云平台集群智能监控软件及其相关服务,可以帮助用户部署操作系统,安装和调试集群软件、应用环境和应用软件,也就是提供从硬件设备之上,直到集群应用能运行起来的一整套软件和服务。

云平台集群智能监控软件 V4.2新版特性主要有:

  • 独立的模块化设计,可根据用户需求自由组合;
  • 可单独设置各个模块的用户访问权限;
  • 支持HA,避免单点故障带来的时间以及经济上不可逆转的损失;
  • 调度、监控模块支持移动终端;
  • 通过WEB界面,连接节点的SSH和VNC界面;
  • 丰富的报警信息,支持阈值自定义设置;
  • 强大的文件管理功能;
  • 支持LDAP和NIS用户认证系统;
  • 自定义应用模板;
  • 丰富的报表信息,可输出PDF,EXCEL等格式。

1.2 云平台集群智能监控软件 V4.2架构

    高性能集群一般可以分为硬件层、系统软件层、集群软件层、应用环境层和应用层,云平台集群智能监控软件及其相关服务涵盖了硬件层以上、应用层以下的三层,即系统软件层、集群软件层和应用环境层,这是保证HPC应用能在集群硬件设备上运行的基本条件,如下图所示:

    在集群软件层,云平台集群智能监控软件提供了集群部署、集群管理、集群监控、作业调度、作业调度管理、集群报表等功能模块,同时提供Web Portal实现界面交互操作,另外支持HA功能,避免产生单点故障,影响集群系统运行。这些功能集中管理和监控Cluster系统中所有节点的资源,实现了整个集群系统的单一系统映像,使用户感觉只是在使用一台高性能计算机。

    在应用环境层,云平台集群智能监控软件的安装过程可选的HPC工具集包含并行命令、调试调优工具、消息传递库、数学库和编译器,具体内容如下表所示:

功能

工具

并行命令

dvt,dsh,pcp,distcc

调试、调优工具

Intel Vtune ,Intel Trace Collector/Analyser, Total View

消息传递库

MPICH,MPICH2,MVAPICH,OpenMPI等

数学库

Intel MKL,Lapack,Scalapack,Goto,Blas…

编译器

GNU编译器, Intel 编译器

注:Intel编译器、Intel MKL、Intel Vtune、Intel Trace Collector/Analyser和Total View为商业软件。

1.3 云平台集群智能监控软件 V4.2功能介绍

1.3.1  云平台集群智能监控软件 V4.2系统部署

    在大规模的集群系统中,操作系统和软件的部署一直都是令系统管理员十分苦恼的问题:工作单调重复,但工作量很大。云平台集群智能监控软件中所集成的快速部署系统可以帮助系统管理员快速、简便地完成集群节点的操作系统和软件的部署。在标准环境下,云平台集群智能监控软件可在60分钟内完成128个节点的系统安装与配置。

    云平台集群智能监控软件的部署系统在软件和硬件相结合的基础上,通过集群中一台预先安装好操作系统的控制台节点,自动完成对整个集群或者单个节点的操作系统安装、应用软件安装以及整个集群的统一网络配置和服务配置。

    云平台集群智能监控软件的系统部署可根据用户的需求灵活配置,比如以下内容:

  •   操作系统的版本选择、安装内容、安装顺序
  •   硬盘的磁盘分区和大小、文件系统类型
  •   网络的IP地址设置、网卡绑定
  •   主机名解析方式灵活,命名规则可以是符合规范的任意字母、特定符号和任意数字的组合

1.3.2  云平台集群智能监控软件 Web Portal

    云平台集群智能监控软件 Web Portal是云平台集群智能监控软件的用户交互操作界面,是通过CUI (Clustertech User Interface宝德用户统一登陆平台)将集群管理、集群监控、作业调度、作业调度管理、集群报表等各个功能模块的界面统一起来,实现了宝德自主研发软件的统一登陆,提供用户管理、服务器管理和权限管理功能,管理员可以给用户设置各个模块的访问权限。

1.3.2.1 用户管理

    云平台集群智能监控软件集群系统通过CUI (Clustertech User Interface宝德用户统一登陆平台)新建、编辑用户(),设置个人家目录,确认用户隶属于的组别。

服务管理

    服务管理是针对云平台集群智能监控软件的所有服务进程关闭或重启等管理操作。若服务出现异常可通过服务管理页面进行重启或启动。

1.3.2.2 权限设定

    云平台集群智能监控软件集群系统通过CUI (Clustertech User Interface宝德用户统一登陆平台)设置用户权限,分配用户可用的功能模块,系统管理员可严格控制用户权限。

1.3.3  云平台集群智能监控软件集群管理

    云平台集群智能监控软件的集群管理通过浏览器(IE 10以上, Google Chrome ,Firefox等)实现现场和远程的集群管理和使用,包括节点管理、共享管理、镜像管理和日志管理等功能。

1.3.3.1 节点管理

    云平台集群智能监控软件把节点分为管理、存储、计算和登录四种角色来管理,每种角色的节点可以根据角色的实际需要,启动相应的服务。用户通过Web界面可以查看节点的基本信息,包括节点ID、主机名、MAC地址、IP地址、节点状态、节点是否可提交作业状态和节点类型等信息。

    用户也可以通过Web界面对指定节点或所有节点做基本操作,包括开机、关机、设置镜像、恢复镜像、并行命令、拒绝作业、允许提交作业等操作。

    用户可以直接从WEB界面上打开节点的VNC和SSH进行操作,无需其他第三方的登陆工具。

1.3.3.2 共享管理

    通过云平台集群智能监控软件集群管理可实现共享管理功能,用户可通过Web 界面创建共享目录,编辑挂载点、删除共享目录等功能,无需后台命令实现共享目录管理,如下图所示:

1.3.3.3 镜像管理

    云平台集群智能监控软件可以通过Web界面创建集群节点(登陆节点/存储节点/计算节点)镜像,实现节点系统的备份和恢复功能。同时,系统可以同时保持多个不同或相同的镜像版本,从而实现多个镜像的切换。


1.3.3.4 日志管理

    云平台集群智能监控软件集群日志管理功能对并行命令、开关机情况、镜像操作进行记录,帮助系统管理员更加充分了解集群的使用情况。

    并行命令记录:查看用户使用并行命令的输出结果;

    开关机记录:查看用户对某个节点的开机、关机操作的时间、处理状态和处理结果;

    镜像操作记录:查看用户创建镜像操作类型、时间、以及创建节点。

1.3.4  云平台集群智能监控软件作业调度

1.3.4.1 作业调度管理

    云平台集群智能监控软件的资源管理和作业调度系统能合理、高效地管理系统中的所有软硬件资源和用户提交的作业,最大化的提升集群系统的吞吐率和利用率。云平台集群智能监控软件调度管理功能的Web的界面功能(只有管理员用户才可操作)包括:

  •    作业列表、队列列表和节点状态查询;
  •   调整任务调度和资源配置策略;
  •   查看和修改服务器设置、队列设置和节点设置;
  •   管理用户提交的作业(杀掉作业、挂起作业和释放作业);
  •   配置调度策略,作业优先级、资源分配优化配置等;
  •   用户/用户组策略设置;
  •   资源预留配置。

    系统管理员具有作业调度管理功能,通过云平台集群智能监控软件作业调度管理功能系统管理员可积极的调度策略优化资源的利用和减少作业的响应时间,系统管理员可清晰查看到每个节点CPU的使用情况,并且通过配置资源管理器以及调度策略对集群系统进行优化管理。系统管理员通过云平台集群智能监控软件集群管理系统还可进行队列的设置,节点设置,用户(组)优先级设置以及资源管理,使得复杂的集群资源调度管理变得简单、统一、高效。

1.3.4.2 作业提交

    系统管理员为普通用户分配提交作业权限,普通用户即可通过web图形界面提交作业。云平台集群智能监控软件管理系统支持各种串行、并行应用程序以及应用程序自带的资源管理和调度。下图为云平台集群智能监控软件的作业提交界面:

    普通用户在提交作业时还可设置多种策略,指定节点提交作业,设置作业输出文件格式,设置作业运行时间以及作业开始、完成或退出时的提示警等信息。用户将作业提交时的策略可保存为模板,以后提交作业时相同的设置可直接调用模板,为用户提交作业提供极大的便利性。

    云平台集群智能监控软件作业提交功页面下能为普通用户提供文件管理功能,用户可通过云平台集群智能监控软件文件管理功能,直接管理系统上的文件,对文件进行新建、编辑、上传、下载、复制、剪切,粘贴,压缩、解压缩等功能,如下图所示:

1.3.4.3 作业调度策略

    云平台集群智能监控软件的作业调度系统支持任务间相关、自动文件传送(File Staging)、多个任务队列、多种系统分组、多种任务优先级策略和配置、多资源管理和任务高级预约、QOS Quality of Service,包括服务对象和资源,以及功能访问控制)、可配置的节点分配策略、多种可配置的回填策略(backfill policies)、详尽的系统诊断(system diagnostic)以及各种资源使用情况的跟踪和统计。具体调度策略的配置有:

1) 队列设置:系统里面设置有不同的队列,一旦作业从调度系统进入相应的队列,将会被赋上该队列的配置属性(如作业需要的时间,内存等)。同时队列还可以控制某个用户可以提交到某个队列,或者某个队列只能使用某些节点资源等;

2) 节点属性配置:用户可以根据节点自身的特性为节点配置不同的属性,在混合异构的集群中(新老不同配置的机器共存或机器之间使用不同互联网),可以把节点划分到不同的节点池中;

3) 作业优先级影响因子:包括作业来源(用户、组、队列、QoS)、公平共享(用户、组、队列、QoS的资源使用历史记录)、作业申请资源(节点数、CORE个数、内存等)、服务级别(作业已经在队列系统中排队的时间、作业排队的时间和作业所需时间的比值、因作业回填而比该作业先运行的优先级更低的作业的个数)、目标服务级别(到目标排队时间所剩的时间等);

4) 用户和用户组的属性配置:可以为不同的用户和用户组配置不同的优先级、不同的最大使用资源限制和所使用的QoS

5) 作业回填:根据作业的各种属性,云平台集群智能监控软件可以计算出系统中作业的起始和结束时间,有些高优先级的作业在某个起始时间之前无法获取所有资源而无法运行,而在这个时间之前有可能会有某些计算节点处于空闲状态。采用回填策略,可以在不影响高优先级作业运行的前提下,将某些低优先级的作业回填到这些空闲节点,从而提高系统的使用效率。回填的策略包括:

a)  Firstfit:扫描处于排队状态的作业,执行第一个能放入回填窗口的作业;

b)  Bestfit:扫描处于排队状态的作业,选取能够最大程度填满回填窗口的作业。当可用节点数量较充足的时候,尽量执行节点需求较多的作业;

c)  greedy:这是一种较激进的回填策略,这种策略忽略之前有预约的作业,所以可能会影响到带预约的作业的起始执行时间;

6) 公平共享:当某个用户或者用户组在过去的某一段时间内(比如一周)使用了很多系统资源,在接下来的时间里,如果有其他用户向系统提交作业,这些用户作业的fareshare优先级因子会比该用户(之前使用过多资源的用户)的fareshare优先级因子高;

7) 资源预留:管理员可以在系统中设定一个时间值,从这个时间开始,某些计算节点在此时间段内将被预留给某些用户使用;

8) 作业抢占:内容包括取消当前某运行作业、暂停当前某运行作业、将当前某运行中作业Checkpoint(需要操作系统支持)、取消当前运行作业并将作业重新放入队列系统进行排队,抢占方式有:

a)  人工干预;

b)  通过QoS的策略;

c)  基于抢占、保证优先级的回填。默认情况下,回填只有在不影响高优先级作业运行的情况下才会发生,但是经统计发现,很多作业申请的walltime时间大于实际运行的walltime时间,也就是说,作业会提前完成执行。在基于抢占、保证优先级的回填的情况下,系统在回填窗口不足够运行低优先级作业的情况下允许作业回填,一旦发现回填的作业将会影响到高优先级的作业的执行,系统将该作业资源抢占,保证高优先级作业的执行。

1.3.4.4 应用集成

    云平台集群智能监控软件支持应用软件的作业通过WEB界面提交,用户可以把常用的应用软件集成到图形界面中。用户点击界面上相应的应用软件名称,将会显示该应用软件的特殊参数,点击【作业提交】按钮即可提交该应用软件的作业。用户还可在集群管理中直接打开VNC界面进行操作,以及应用程序的使用和作业提交。

1.3.5  云平台集群智能监控软件集群监控

    云平台集群智能监控软件集群监控提供丰富的监控信息,通过Web页面系统管理员可查看、了解集群系统的使用情况、集群拓扑结构、集群文件系统、集群节点详情、警报系统以及节点性能监控。

    云平台集群智能监控软件集群总汇可直观、方便的显示当前集群的信息,通过图形数据可展示各个时段CPU使用率、内存指标、交换分区使用量、网络流量、磁盘容量、负载监控、网卡接受或发送数据包字节速度等详细信息,方便系统管理员了解集群每个时间段的运行状态,同时还可监控集群内存总量使用率、磁盘总量使用率、以及CPU总数及在线节点等,如下图所示:

    云平台集群智能监控软件集群拓扑直观显示集群的拓扑结构,集群网络交换机的拓扑结构,以及每个网络交换机的名称、IP、网络交换机是否在线状态等信息,网络管理员可通过Web界面对机房网络进行监控。

    系统管理员可通过云平台集群智能监控软件文件系统Web图形界面对I/O角色的节点进行创建共享目录,挂载共享目录的操作,普通用户可对共享目录以及挂载点进行查询操作。

    云平台集群智能监控软件监控节点详情能够方便、快捷的获取当前集群每个节点运行状态的信息,使管理员方便地进行集群系统的维护和管理。图形界面中的服务器摆放位置与真实集群环境中服务器的摆放位置相同,可显示某个节点负载情况以及节点是否开关机,同时当鼠标移动至某个节点时将会出现提示信息框,显示该节点的CPU数量、主频和内存总量等信息,如下图所示:

    云平台集群智能监控软件除了监控集群系统的状态,系统管理员可设置CPU、内存等参数的阈值,还可以检测集群系统中的非正常情况,对于系统节点失去连接的信息或超过某些参数所设置的阈值,会进行报警统计,如下图所示:

1.3.6  云平台集群智能监控软件集群报表

    云平台集群智能监控软件报表系统为用户提供详细、丰富的数据资源统计功能,包括系统资源使用统计报表,账单收费报表以及记账设置。

1.3.6.1 资源统计报表

    云平台集群智能监控软件集群报表可在总览页面中监控集群已完成作业情况、CPU使用率、作业使用CPU核小时以及作业运行CPU运行时间,如下图所示:

    详细资源报表统计中用户可查看作业统计报表;CPU、内存资源使用报表,本地或共享存储使用统计报表等信息,报表可按照用户/队列使用时间(按照小时//)进行数据的统计从而生成报表,并可选择PDF/HTML/EXCEL三种方式导出报表。

1.3.6.2 账单收费报表

    账单收费报表可查看用户计算作业选择起始和结束时间来统计此时间段内用户或者队列对CPU资源的使用情况和费用合计,也可详细到每个用户中的计算每个作业的起始和结束时间后对CPU资源使用生成详情计费报表进行数据查看,或者通过PDF/HTML/EXCEL三种方式导出报表。

1.3.6.3 记账设置

    云平台集群智能监控软件集群报表可设置计费功能,管理员可设置每核的费率为元/小时进行计费统计。

1.3.7  云平台集群智能监控软件定制化功能

    云平台集群智能监控软件提供用户可定制化的功能,可以根据各个领域客户的特殊需求做定制化的开发,目的是提供给客户一个更为贴心的软件产品。下面介绍按照已有客户的要求,完成的定制化的功能。

1.3.7.1 计算资源登录控制

    在高性能服务器系统中,只有通过作业调度系统提交的作业,才能被调度系统监控,从而使整个集群的资源得以控制和更合理的利用。而有些不按照要求,通过交互式方式提交作业的客户,调度系统监控不到该节点上有作业运行,而认为该节点的资源是空闲的,会继续在该结点上运行作业或将节点关机,从而导致计算资源冲突或者交互式应用无法正常运行。

    为了避免上述情况的发生,云平台集群智能监控软件根据用户需求开发了计算资源登录控制功能:普通用户无法直接登录计算节点,只有通过作业调度系统提交作业的用户,才可以进行登录以及相关操作。从而防止因用户不按照规定使用机器导致的集群资源失控,同时方便了用户使用。

1.3.7.2 无盘集群

    针对一些用户使用的无盘集群系统,云平台集群智能监控软件提供了无盘集群的解决方案:在无盘集群系统中,管理节点配置好相应的服务,计算节点通过网卡启动计算节点的操作系统,因此不需要安装计算节点的操作系统。计算节点之间通过高性能的并行文件系统,从而为每个计算节点提供高性能的读写能力。

1.4 云平台集群智能监控软件优势

    云平台集群智能监控软件 软件包建立在云平台集群智能监控软件 Core Information Infrastructure(云平台集群智能监控软件 Core)基础之上。云平台集群智能监控软件 Core是宝德专为整合HPCC组件而开发的软件架构,为软件组件的集成和更新、HPCC的方便使用及其高效的配置、维护和升级提供了一个完整的数据库环境。云平台集群智能监控软件集群管理软件具有以下优势:

  • B/S架构图形界面,支持中英文界面,中英文界面一键切换
  • 通过Web GUI实现用户和组的集中管理,实现硬件监控,配置资源管理和任务调度程序参数,实时察看任务状态,实时监控CPU负载、内存使用率和网络流量等状态
  • 模块化安装,严格控制系统管理员和普通用户之间的功能权限
  • 快速自动部署整个集群系统
  • 根据用户要求灵活订制主机名(hostname)
  • 通过云平台集群智能监控软件可直接调用SSH、VNC等功能
  • 系统备份和恢复节点到默认设置
  • 智能化任务调度,实现资源预留,任务回填,动态优先级和集群分区等功能
  • 丰富的报表和计费功能
  • 全面的错误告警和日志
  • 具有安全机制的并发工具,方便集群的管理和使用
  • 支持多网络配置
  • 提供更加强大的命令行接口(CLI)
  • 提供优化的并行编程环境:MPICH, LAM
  • 完备的说明文档
  • 按角色管理集群节点
  • 按需开关机
  • 支持无盘机群
  • 计算资源登录控制
  • 重要作业可以优先使用集群资源,当重要作业释放资源后,普通作业可以继续正常运行
  • 由于计算节点硬件故障导致的作业中断可以重新提交作业
  • 图形界面提供针对用户的应用软件特有的提交界面
  • 支持用户定制化开发

总结起来,云平台集群智能监控软件具有如下特点:

  • 功能全面
  • 易使用
  • 高可靠
  • 可扩展

 





下载附件:
Copyright 2020 Powerleader All Rights Reserved 深圳市宝德计算机系统有限公司版权所有