宝德四子星助力某大学HPC项目

案例背景

当前,高性能技术计算(HPC,High Performance Computing)科学已经成为继理论科学和实验科学之后人类进行各种科学研究的第三大支柱。计算机技术的发展为HPC的应用提供了强大工具和物质基础,使人们有可能利用计算科学来取代、优化、深化和扩展理论科学和试验科学的研究,使许多过去不敢设想和根本不可能实现的理论研究、应用开发和科学实验在计算机系统上变为现实,许多HPC应用领域越来越多地希望利用计算机技术发展的新成果通过更大规模、更精确的数值模拟和数字计算来进行新产品设计和科学研究,提高科学研究水平、竞争力以至国家的综合国力。另一方面,人们也要求利用工业标准芯片和Linux等开放性的技术降低投资、加速开发,在规定经费预算和时间框架内完成规模越来越大的计算任务。高性能和高经济效益相结合已经成为HPC领域最引人注目的发展趋势。

高性能计算已成为支撑科学研究和高新技术发展的基础性交叉学科。高性能计算对增强国家安全,提高国家科研水平、政府监控能力和企业竞争力有广泛而深远的意义,其能力与水平是一个国家(地区)综合实力的重要标志。

案例分析

HPC关键技术的选择

目前高性能计算类的软件所需计算量极大,需要占用大量的计算机资源,远超出单台计算机的能力。根据在单台台式计算机上已经进行的单一状态的碰撞与冲击分析,其运算过程达到二百小时计算机机时;某一个状态的流场分析所花费的计算机机时达一百小时以上等等。

为了能在短时内,例如几天内,进行多个设计方案比较和优化,因此,使用高性能的计算系统,缩短计算时间,势在必行。

缩短计算时间有两种途径可以解决:

A)使用速度和吞吐量大的高性能配置的小型计算机

高性能配置的单台小型计算机的价格都相当贵。目前,基本使用IBM等外国生产的机器,工作环境要求高,后期运行和维护费用相当高。况且,还涉及保密问题。

B)使用高性能集成计算系统

高性能计算使用常规的台式计算机构成网络,其网络结构可以方便更改,台式计算机的配置可以按照需要进行优化。

高性能计算系统无论从购置价格上或后期运行维护费用上都占有绝对的优势。

解决方案:

此方案中的高性能计算系统应具有处理大规模的复杂运算,尤其是浮点运算的能力。它将为我校提供优化工程设计、分析、验证的手段,最终实现提高设计质量、缩短开发周期、降低开发成本。

2.1系统设计原则

方案设计以用户现场测试结果为基础,根据用户对未来应用模式及业务量需求预测为前提,强调高性能以及可行、合理和低风险。架构设计和系统选型遵循以下原则:

1.先进性

本系统方案所采用的技术既要符合业界的发展方向,又要在未来几年内仍具有很高的技术先进性,保持在同类系统中的领先地位。这样有利于提高整个系统的计算与处理能力。

2. 有限投资获取最大计算性能

在有限的投资前提下,高性能计算系统应具有优秀的处理能力,它不仅具有符合要求的峰值性能 (Peak Performance),更重要的是应具有稳定的应用性能(sustained performance)。各种复杂的研究课题在本系统中能够得到准确,快速的计算结果 。

3. 可扩展性 

系统应具有很强的扩展能力。随着对计算机系统性能的要求不断提高, 该计算机系统应具有扩展能力,并且容易实现。

4. 开放性和兼容性

本计算机系统应符合公认的工业标准,包括体系结构,硬件,I/O,网络,操作系统,开发环境和开发工具等。这样,便于和其他平台上的系统相互操作 。 

5.应用软件丰富

本系统的平台上应具有丰富的软件资源,能够提供研究课题的解决方案和相应的软件系统,与高性能计算方面的独立软件开发商紧密合作

本系统不仅提供处理节点间的协调和通信的中间件,使整个系统节点能够真正实现合作,负载均衡,还能针对不同应用需求,提供一系列并行计算应用。例如支持Fluent、ANSYS、Gaussian、VASP、Siesta、Molpro等专业应用软件,并支持RedHat,Platform LSF等基础软件

专业平台软件商。

6.管理简单

尽量减少数据中心的设备管理难度。

 

2.2系统分析

高性能计算应用软件种类繁多,各种软件的应用特点也各不相同,对计算资源的需求存在差别,方案的设计需要充分考虑到实际应用的特点。

2.2.1高性能计算架构

作为高性能计算基础设施的核心,现代高性能计算机的发展从20世纪70年代的向量计算机开始,也已经有了30年的发展历程。先后出现了向量机、多处理器并行向量机、MPP大规模并行处理机、SMP对称多处理机、DSM分布式共享存储计算机、Constellation星群系统、Cluster集群系统、混和系统等多种主体的架构,并分别在不同的时期占据着应用的主流。

几种计算机架构体系比较

结构特性

SMP

DSM

MPP

Cluster

可扩展性

最差

很强

易管理性

很强

很强

一般

较差

网络能力

无需网络

无需网络

很强

编程方式

共享变量

共享变量、消息传递

消息传递

消息传递

价格

昂贵

昂贵

较低

 

开放的Cluster集群系统具有较多的优势,已经占据了目前高性能计算机的主流位置,在TOP500中占据了约80%的份额,在中小规模的高性能计算系统中更是占据统治地位。

高性能集群系统也已经成为高性能计算的最佳平台,具有性价比高,兼容性好,管理维护容易等诸多优点。

宝德公司提供的高性能计算集群系统既能满足用户对高性能计算要求,同时还为大量的信息服务方面的应用需要硬件支撑,为充分发挥本计算平台的资源优势,避免浪费服务器,本套高性能计算机能够支持信息服务,即在计算空闲时间,这些计算节点将提供各类信息服务,满足中心内部各类信息化建设需求,如Web、Mail等应用系统或者是服务器实验平台。 

本套系统既要承担高性能计算,又要提供信息化服务,如数据等应用,在考虑计算性能的同时,需要充分考虑信息服务的需求,因此他们对服务器的单机性能要求比较高,同时还可能成为服务器的实验平台。

2.2.2节点系统选择

在超算中心的硬件系统中,大部分是集群的计算节点,如何设计计算节点,将会在很大程度上影响整个超算中心的整体架构。

对于超级计算中心的大规模并行计算机来说,提高计算密度尤其重要,宝德多子星集群系统有效提高了计算密度。提高计算密度是刀片服务器发展的主要动力之一。

在本次HPC方案设计中,我们在计算节点部分采用了宝德四子星服务器,保证了计算密度和能源经济型。

 

四子星服务器在超算中心应用的优势有以下几点:

A.机房要求降低

大规模高性能计算机将对机房空间提出较高的要求,并且要为系统的扩容升级留下空间。宝德多子星集群系统实现了较高的计算密度,并且有效降低了系统功耗,对系统空调等散热系统的要求也相对降低。

B.功耗散热降低

四子星服务器的功耗部件较少。四子星的电源将由多个节点共享,所以会使用高效率电源,减小了系统功耗,同时产生的热量减少,减少了冷却系统的耗电量。

节能的设计体现在多子星服务器的各个层面:

1)根据实时功耗确定工作电源个数,使电源工作在最佳效率曲线上。 

2)修改计算节点操作系统内核,实现节能 

3)多计算节点任务调整调度 

C.可靠性提高

四子星服务器采用无源背板进行系统互连,与传统的线缆连接方式相比,把可靠性提高到了一个数量级以上。四子星系统采取模块化、冗余、热插拔设计,进一步提高了系统的可靠性。

可靠性的提高对高性能计算应用有着重要的价值。目前,采取进程动态迁移和Checkpoint来保证并行作业的可靠性还不成熟,所以对高性能计算机系统的整体可靠性要求比较高。在并行作业运行的一个周期内,要求所有参与运算的部件都不能出现故障,四子星集群系统的高可靠性是其用户高性能计算的一大保证。

D.管理方便

四子星服务器管理监控高度集成:通过统一的监控界面,监控所有节点资源,包括机箱电源、风扇、计算刀片、背板、交换机。管理系统整合目前两大监控技术,即IPMI以及KVM (Over IP),真正实现监视控制一体化。同时,为实现方便快捷的四子星服务器管理,通过优化的管理软硬件设计,改善可管理性,增强部署和可服务性,这些将降低总的所有权成本。

 

2.2.3 电源系统设计

宝德高性能计算集群系统的电源供电系统是进行了特别设计的专用电源系统,包含电源检测模块、电源监控模块、按需切换设计、分时上电设计以及独特的UPS不间断设计,能够支持220V双相电和380V三相交流电,整个机群电源系统的设计符合国家标准。

1) 电源检测模块及时跟踪当前电流电压的情况并将预警信息发布出来

2) 按需切换DBS设计是按照CPU的利用率来调整功率大小,做到动态功耗的控制。

3) 电源监控模块与硬件监控系统配合,测试到当前电源的电流值、电压值、相位等参数值,通过I2C网络传送到监控终端,显示在主机柜触摸屏上。

4) 集群系统的电源供电统一部署,输入的多路双线电和三相交流电的各路(相)之间的负载通过集群的电源系统后是相对保持均衡,这样可以避免其中某一路(相)电的负载过重。

UPS设计建议:

为保证集群系统的不间断工作,建议为每个节点都配置UPS,或做统一的UPS池,这样才能确保整个系统在突然掉电时保护程序和数据。所以主要的任务是设计UPS的保持时间。

UPS的功率设计:

UPS的保持时间要针对具体的应用以及具体的过程而定。

节点的UPS保持时间参考= 计算节点断电启动UPS时节点控制信号发送到主控节点的时间+主控节点监测到该信息发送保护措施指令给所有节点的到达时间+最长的计算过程的持续时间+该过程数据存储到主节点需要的时间+节点中断发送+节点中断响应

UPS系统功率选择=(节点功率总和+交换机功率+外围设备功率)×1.3

如果按最长过程计算,主控节点比计算节点需要稍长保持时间,要等各计算节点当前过程安全运行完成、数据存储安全完成、并安全关机后,才能启动中断关机。

中间件的监控程序:可以通过主控节点检测到各个计算节点的风扇、温度、电源等情况,当突然断电发生时,每个节点都自动启动UPS,这时主控节点就可以检测到每个节点的切换情况。

然后,主控节点向每个节点发布控制命令,让每个结算节点计算完当前过程,并将所有计算数据发回主控I/O保存,或就地保存,完成这些任务后每个节点自动关机。而主控节点在检测到所有计算节点都完成以上动作时,也自动关机。同时以短信、Email等方式通知系统管理员。等动力电再次恢复正常时,由系统管理员开启整个系统。这个功能需要在集群管理软件上进行二次开发,编写控制脚本,采集主控节点监测到各节点参数,然后进行一系列相关处理,等处理完成,发送启动各节点的系统中断请求实现关机保护策略。

随后,我们将在单独章节中提出对机房电源及制冷方面的详细要求。

2.3系统框架

宝德科技为本项目设计的HPC系统框架如下:

硬件部分应包括: 

n 计算节点:包含2台四子星服务器

n 存储节点:一台双路存储服务器

n 互连系统:包含内联/管理网络系统

2.4硬件方案设计

方案中的高性能计算集群是一个有机的、高性能、高可靠性的集群系统。系统的硬件都选用经过严格测试的主流产品,保证系统的可靠性;互联系统各组件的网络都是专用的高效网,通过集群核心的管理系统使得整个系统协调一致的运行,如单独的一台高性能计算机一样为用户提供统一的服务。

集群向用户提供一个单一计算机的界面。前置计算机负责与用户交互,并在接受用户提交的计算任务后通过调度器程序将任务分配给各个计算节点执行;运行结束后通过前置计算机将结果返回给用户。程序运行过程中的进程间通信通过专用网络进行。

宝德科技为本次HPC项目配置7个计算节点,采用Intel Xeon E5-2650处理器,一共14颗处理器,共112核心。

宝德科技为本次HPC方案建议包括如下硬件设备:

1. 由2台宝德机架服务器PR2640TP构成7个双CPU(16核心)计算结点

2. 由1台双路存储服务器担任本项目的存储,容量16TB

3. 一台48口以太网交换机

4. 一套UPS供电系统

5. 20平米防静电地板

 

Copyright 2017 Powerleader All Rights Reserved 深圳市宝德计算机系统有限公司版权所有