宝德优秀应用案例丨《计算产品可服务性指标体系白皮书》解读

时间:2022-09-30来源:本站

为聚焦产业发展状况及趋势,共同分享联盟丰硕成果,汇集重点行业优秀应用案例,为行业和用户提供价值参考和前瞻指引,持续推动绿色计算技术创新与产业生态的繁荣发展,由绿色计算产业联盟GCC主办、中国电子技术标准化研究院(CESI)、中国电子工业标准化技术协会(CESA)协办的“绿色计算产业联盟白皮书及标准成果发布会”已隆重举办。发布会上重磅发布《绿色计算产业发展白皮书》和《计算产品可服务性指标体系白皮书》2部白皮书成果。
欢迎持续关注《计算产品可服务性指标体系白皮书》解读的系列文章,本期为您带来来自宝德的《计算产品可服务性指标体系白皮书》应用的优秀案例!
(一)应用范例
在智能数字时代,计算产业硬件产品的多样性,包括CPU 、GPU平台的多样性,由此带来服务器的硬件产品出现多平台、多形态、多配置等特点,给产品的通用性带来挑战。硬件产品跨平台、跨形态的适用性困难,从而造成硬件配件专一,配件品类繁多,导致维护性和可服务性受到不利影响。目前国内还没有计算产品可服务性相关的体系和设计标准用来提升服务器的可服务性硬件设计,《计算产品可服务性指标体系白皮书》是计算产品可服务性标准的很好参考和起点。
作为领先的IT产品和解决方案提供商,宝德参与编制完成了《计算产品可服务性指标体系白皮书》,并提出从服务器的硬件设计、设备管理接口到整机设计都将可服务性作为产品设计开发中的重要设计原则。
硬件设计
通用服务器可以分为存储区域、风扇模组区域、计算节点区域和后窗IO/电源,如图所示:
参考可服务性的体系,可以具体细化定义服务器每个区域的可服务性参考基准,以及可服务性的未来发展路标等,根据每个区域的可服务性的基本基线,来具体设计服务器产品,可实现国内服务器产品的可服务性持续提升。
以风扇区域为例,宝德计算定义了具体的基准故障模式,在服务器的设计的前期就把可服务性考虑进去。支持故障模块可热插拔维护。实现这个特性需要硬件支撑,比如风扇热插拔线路,增加模块故障采集线路,在系统中保存风扇模块的具体信息,增加FRU信息,如风扇的类型厂商编码,还有整机设计支持N+1风扇策略,BMC支持风扇模块故障告警,根据故障类型,等级上报故障。在故障产生后,维护人员根据BMC收集的模块故障信息,可以快速的给用户提供建议,包括故障定位、解决方案等,并输出报告。
管理接口
服务人员在现场对计算设备进行维护管理的时候,因为收集日志过程使用的入口繁多,分析日志对人员技能要求高,人工阅读日志效率低下,往往现场并不能完成分析过程,而会把日志再次传递给后方进行日志分析,这样维护管理的效率和及时性都受到影响。《计算产品可服务性指标体系白皮书》指出产品可服务性的阶段在交付与EOS之间,详细的列出了各种场景下涉及的可服务性指标提升点,以上宝德计算遇到的问题场景属于故障处理的日志搜集、故障分析部分,针对这一可服务性的困难,宝德计算设计开发了日志维护工具,用于一键搜集维护设备的日志并做分析,然后提供分析诊断结果。
该维护工具解决非集中式管理的场景下维护困难的问题:
日志一键收集能力:在获得授权后,可以收集OS和BMC日志,未来还可以扩展到运行于OS之上的更多应用级日志收集;
自动分析:收集日志后可以自动分析日志,并根据既定的模板,给出初步故障判断;
打包日志:对于不能自动分析的日志进行整理打包,传给二级技术维护人员进行分析;
批量处理:对于接入的设备可批量操作。
该工具在同最近一款产品同步发布,经一线管理维护人员试用效果良好。通过对服务过程中的问题不断的迭代演进,能识别的日志问题的覆盖率越来越高,极大提升了服务人员现场维护效率。
整机设计
宝德计算早期的服务器上盖的开盖设计是采用按扣,上盖通过卡扣结构勾住机箱内侧壁的销钉结构来实现固定。开启上盖时,需同时用两只手按住按扣往后推,操作不方便而且需要操作人员力气较大,给现场维护造成了困扰。经过一线服务人员反馈后,DFS基线加入结构设计的开盖设计要求,即上盖设计时优化原有的设计,采用新的开盖锁固定方式。新的设计采用可活动的按钮锁,固定到上盖上,通过机箱内部的导向销来实上盖的开启与闭合。如下图所示:
经过改进后,机箱盖开操作简单方便,极大方便现场维护人员涉及开盖的操作维护。
上面是宝德计算服务器产品的部分可服务性能力,可服务性的设计是在技术发展和市场需求的驱动下不断迭代优化的过程,宝德计算将持续地改进产品的可服务性,为客户和市场提供方便部署、管理和维护的产品。
热门推荐