应用案例

经过20多年的发展,宝德持续而深刻地把握市场需求,积累了海量的客户资源和丰富的服务经验

某大学科研平台解决方案
案例背景

某大学某学院拟建设科研人工智能共享共建平台,面向全院提供计算资源服务,软件基于K8S架构,可实现计算资源集中管理、灵活分配,支持定制开发,支持多用户使用等。此次建设需把学院前期购置的一台GPU服务器,一台40T容量的服务器纳管进来,形成平台系统,达到:

1) 统一平台管理,由基础设施层作为整个平台的支撑,通过云平台对底层资源进行灵活的调度管理,通过系统功能层为用户端和管理端降低 AI 技术门槛,释放AI 技术潜力;
2) 解决“信息孤岛”,实现信息共享,提高信息安全水平,提升科研体验,提高工作效率;
3) 通过新平台建设降低成本、提升效率、节能减排,满足学院科研资源充分利用的要求。

案例分析

宝德HPC解决方案拓扑图

解决方案

该方案平台使用宝德PLStack实现,由管理系统和业务系统组成,将两者从底层IT资源中分离开来,以提高管理系统的可移植性和业务系统的后期扩展性。集群拓扑设计从浮点计算能力强、GPU卡管理便捷、扩展丰富三个原则出发,将计算资源和管理资源进行分离,同时管理网络与计算网络分开,避免管理对计算网络资源的挤占,集群网络分为:计算网络、管理网络两个平面:


计算网络:单口100Gb IB汇聚链路,用于连接所有GPU计算节点,同时提供块设备、对象存储等服务;

管理网络:双口千兆汇聚链路,用于管理人工智能平台中的所有节点,为管理员提供 Web 控制台;

客户收益

高带宽、低延迟

(1)计算网络采用了100Gb/s的高带宽IB网络,大大提高了各节点之间的通信能力,降低了延迟,并且通过IB交换机实现所有GPU计算节点的全互联;


高扩展性

(2)能够根据用户需求灵活对现有的计算资源和存储空间进行扩展,弹性灵活;


高性价比

(3)新平台建设将闲置资源进行统一纳管并二次利用,为客户降低成本、提高资源利用率,满足学院科研资源充分利用的要求;