物理计算HPC解决方案

大部分物理科学计算对处理器的浮点运算能力和内存性能要求很高,而且物理计算领域使用的众多软件比如LAMMPAS、AMBER和QuantumEspresso等基本都属于计算密集型和访存密集型应用,一般来说计算节点都会选用双路及以上的服务器,甚至对于一些大型共享式内存并行程序,还会使用计算核心较多的胖节点以便获得更好的性能加速比。物理领域中,对微观世界比如原子、电子、光子、量子领域的研究会比较多,而这类研究一般都需要大型的研究体系,海量的计算资源从而进行大规模并行计算。

1.方案背景

当今时代,互联网和信息爆炸式增长,高性能集群解决方案和超级计算也迎来了发展的黄金年代。越来越多的行业开始转向多节点集群应用。

其中物理计算领域又是其中的主力,其原因总结下来大概有两点,其一是大部分物理科学计算对处理器的浮点运算能力和内存性能要求很高,而且物理计算领域使用的众多软件比如LAMMPAS、AMBER和Quantum Espresso等基本都属于计算密集型和访存密集型应用,一般来说计算节点都会选用双路及以上的服务器,甚至对于一些大型共享式内存并行程序,还会使用计算核心较多的胖节点以便获得更好的性能加速比。其二就是物理领域中,对微观世界比如原子、电子、光子、量子领域的研究会比较多,而这类研究一般都需要大型的研究体系,海量的计算资源从而进行大规模并行计算。

而当一个计算使用了多个节点的大型架构后,那迎来的最大的问题就是节点间如果使用普通的千兆以太网,那么网络的延迟会导致通信的迟缓,造成处理器资源浪费或者队列的阻塞,从而直接使得整个集群的性能严重下降。因此近些年来,高带宽、低延迟的高速网络逐渐成为了高性能计算不可或缺的一部分,包括InfiniBand网络和Intel Omni-Path Architecture网络,都能够大幅降低集群节点间的延迟从而完美发挥高性能集群的高速计算性能。

 


2.解决方案描述

基于分析我们得出,物理计算类的核心内容是处理器的浮点运算能力和内存性能以及多节点并行时节点间的低延迟通信。结合景派科技多年来的经验,我们为客户提供针对化专业化的解决方案。

景派科技高性能应用集群主要解决了物理计算领域中的几个主要问题:

(1)性能顶尖的处理器

在高性能计算领域,一台服务器的性能好坏主要取决于CPU、内存、存储等各个方面,而其中最为重要的无疑是作为服务器大脑的CPU。

在我们的解决方案中,集群中每个节点都会采用intel生产的至强系列的第二代可扩展处理器,至强Xeon是英特尔生产的微处理器,主要用于企业服务器以及高校工作站,可以理解为是专供服务器使用的一款高性能CPU。

(2)合理的运行内存

“木桶效应”可谓是当今世界企业中最负盛名的一种效应,在我们的解决方案中,同样着重考虑了这点,在搭载了高性能CPU的情况下,运行内存也是非常重要的,在针对每款CPU不同的通道情况下,我们会搭配不同种类和数量的ECC内存(应用了能够实现错误检查和纠正技术得到内存条)力求完美发挥CPU的所有性能。

(3)多样化的高速网络

目前物理计算方面的软件大多都会使用MPI并行加速,力求达到多个进程同时进行计算以便大幅度提高软件运行效率,但是多节点集群的弊端就是若使用普通的以太网很容易造成集群性能的浪费。

因此我们的解决方案中,每个计算节点都会配置OPA网卡或者IB网卡,节点之间通过OPA交换机或者IB交换机连接,搭建InfiniBand或者Intel Omni-Path Architecture这种高带宽、低延迟的高速网络进行集群节点间的通信从而能够完美发挥集群的性能。

(4)稳定的集群系统

无论应用于哪个领域的集群,稳定性都是重中之重。

因此在我们的解决方案中,通过统一的集群监控管理,作业调度,结合高性能计算服务器,从各个方面保证了整套系统的稳定性,大大提高了用户的使用稳定性并且减少了故障率。


景派科技丨超算丨HPC

物理计算HPC架构图

3.方案优势

(1)专业的技术支持

拥有一支专业化的HPC应用分析团队,可以针对客户应用,运用测试工具得出具体的硬件平台需求,从而帮助提为客户提供针对性的高性价比HPC解决方案。

(2)节点的统一管理

高性能计算集群一直都因为节点较多而难以管理,因此我们在构建集群的时候提供单一的系统镜像,能够提供更高效的集群管理效率。

(3)高速网络的优化

作为拥有多个节点的高性能集群,其拥有充足的计算资源,因此普通的以太网无法满足集群的需求,只有使用InfiniBand或者Intel Omni-Path Architecture这种高带宽、低延迟的高速网络。节点之间通过OPA或者IB交换机完成高速网络的搭建,使得各节点之间的通信延迟降低,避免出现资源的浪费,使集群的性能得到最大的提升。

(4)任务优先级管理

在使用高性能集群的时候,经常会遇到一些紧急的任务需要马上计算。而我们的优先级管理的功能能够保证当资源不足,紧急项目或任务可以获得更高的优先级从而提前执行。

(5)优质的集群任务管理系统

高性能计算集群拥有很多节点,因此效率最好的计算方法就是多节点的并行计算。景派科技的高性能计算集群采用公认的计算方法,支持多种MPI和网络协议。结合我们之前的解决方案,一般来说都会采用PBS或者SLURM来进行集群的作业管理。

<m met-id=8 met-table=product met-field=keywords></m>