2021年,英特尔推出了他的第三代至强®Ice Lake处理器——这是英特尔第一次在服务器CPU上使用了难产多年的10nm制程工艺,自然一经推出便受到多方关注。景派HPC研究院更为关注三代处理器在实际科研使用中,对各种科研软件的提升程度。为此,我们组织进行了一次英特尔®至强®可拓展处理器纵向对比测试,希望能更好的决定如何使用三代英特尔®至强®可拓展处理器为各位高性能计算用户服务。对比第二代处理器,三代处理器最大的改进自然是从使用多年14nm制程工艺升级为和移动端Ice Lake-U/Y 系列相同的第二代10nm+工艺,集成全新的Sunny Cove CPU架构,支持双路和单路,并针对数据中心负载应用做了弹性、平衡性优化,以提升吞吐能力和单核能力。在整体架构上,相比起二代CPU的单基板最多28个核心(56线程),采用升级Mesh网格状架构设计的Ice Lake-SP可以具备最多40个核心(80线程),提升了大约42%。最高睿频可达4.4GHz,IPC性能相比于第二代CPU提升了大约13%。
【图中是英特尔发布会上给出的新架构28核版本架构图】
同时,Ice Lake-SP支持的内存通道数从6个提升至8个,内存最大频率可提升至3200MHz。同样继续支持DDR4内存和傲腾持久内存,输入输出则加入了原生8通道PCIe4.0。而作为传统优势项目,Ice Lake-SP在指令集方面加入了第二个FMA-512单元,并新增支持AVX-512 VPMADD52、Vector-AES、Vector Carry-less Multiply、GFNI、SHA-NI、Vector POPCNT、Bit Shuffle、Vector BMI等诸多指令集。英特尔声称这些新指令集可以带来少则1.5倍、多则8倍的性能提升。这次测试,景派HPC研究院准备了三代处理器中的铂金级处理器8375C、金牌级处理器6330、以及二代处理器中的铂金级处理器9242,一共三款处理器进行对比测试。
三款CPU各自参数如下:
项目 | 8375C | 6330 | 9242 |
数量 | 2枚 | 2枚 | 2枚 |
核心数 | 32 | 28 | 48 |
线程数 | 64 | 56 | 96 |
最大内存速度 | 3200MHz | 2933MHz | 2933MHz |
基本频率 | 2.9GHz | 2.00GHz | 2.30GHz |
最大睿频 | 3.5GHz | 3.1GHz | 3.80GHz |
功耗 | 300W | 205W | 350W |
明显地,铂金级二代处理器9242依靠48枚计算核心,除了功耗更高,在纸面参数上对比另外两款三代处理器甚至称得上“有显著优势”。在这次测试中,除CPU常规性能测试项目之外,我们还测试了各常用科研计算软件在CPU上的真实运行状况。所选择的测试内容为Matrix mutiplication、Matrix Dot Product、Matrtix Add、FFT、sysbench、VASP(注一)、gaussian(注二)。注一:VASP算例使用的体系为单晶硅2x2x2 超胞,共64 个原子。使用了默认截断能的缀加平面波,6x6x6的K点,使用PBE纯泛函做自洽计算。注二:Gaussian16使用自带算例test0333.com碳60团簇的结构优化加振动频率的计算。
(一)Matrix mutiplication、Matrix Dot Product、Matrtix Add、TwoDimFFTC2C四项CPU基础性能测试
在基础性能测试中,三代处理器与二代处理器之间并没有划分出明显的优劣性。在Matrix Dot Product、Matrtix Add两项中,9242表现优异。而在Matrix mutiplication和TwoDimFFTC2C两项中则是三代处理器性能更佳。但考虑到9242所拥有的计算核数优势,显然英特尔至强三代处理器搭载的指令集在矩阵计算方面具备良好的优化效果。

在单核性能和多核性能的对比中,三款CPU各有优劣之处,整体表现良好。这也表明在脱离实际工作环境的前提下,单纯测试上其实很难看出两代CPU的实际差距——或者说,英特尔针对传统CPU测试项目的优化已经达到某个极限,想要更好的了解CPU性能需要从实际工作效果下手。
在sysbench测试中,8375C的成绩具备一定优势,6330紧随其后,直到提升较为明显的26核心和28核心,也是在这个时候8375C将与6330的差距拉大。而坐拥最高计算核心数的9242则处于明显劣势的位置。
(四)VASP 64原子测试
【数值越低、性能越好】

总体而言三款CPU表现基本一致,仅8375C全程占优,而9242和6330互有优势区间。而随着进程数上升、三款CPU对性能的加速效果也处于基本一致的水平:1-8进程区间加速较为明显,8-56核心区间虽然也有很好的加速效果,但效果相较而言并不明显,同时也存在一定的反弹现象。特别的,在整十倍数进程时,如20、30、40、50、60进程,整体效率表现会比其他进程区间有明显优势。
Gaussian测试中各CPU在6核心计算时所用时间都达到了百秒以内,24核心时8375C更是降到了三十秒以内,此后各核心加速效果变得稳定而没有较大波动,但也没有更显著的加速效果。8375C独占鳌头、6330和9242互有胜负——这也和其他项目的表现基本保持一致。在图中也能看出在Gaussian计算中各CPU的优劣区间基本一致,并没有出现在某个核心数时某款CPU表现优异的情况。纵观所有测试数据之后,景派HPC研究院得出结论,三代处理器虽然在纸面配置和基础性能测试上并不一定比铂金级二代处理器来得更优秀,但是在实际工作效率上,三代处理器的效率达到了同级别二代处理器的130%~150%。为此,在科研高性能计算领域,我们推荐各位用户都尽可能地使用三代英特尔®至强®可拓展处理器,从而以更低的功耗获得更高的计算效率,更好地助力各位客户的高性能计算活动。