猿代码-超算人才智造局高性能计算|并行计算|人工智能 › 首页 ›科技资讯 › 查看内容

VASP 硬件适应性优化

摘要: 1）在科大TC4600 集群的配置下，E5V4 节点均比E5V3 具有明显的速度提升与更好的并行扩展性，速度提高达10%-30%– E5V4 节点相比E5V3 主频稍低，睿频相同，核心数较多，Cache/核心数之比相同，配合的OPA 通讯设备较快 ...

1）

在科大TC4600 集群的配置下，E5V4 节点均比E5V3 具有明显的速度提升与更好的并行扩展性，速度提高达10%-30%

– E5V4 节点相比E5V3 主频稍低，睿频相同，核心数较多，Cache/核心数之比相同，配合的OPA 通讯设备较快。测

试数据表明，E5V4 节点的通讯优势掩盖了主频劣势，总体性能更好。

– 在较大体系A284K1 下，E5V4 节点比E5V3 的优势在最佳应用并行参数下更明显。原因考虑为：在大体系与最好的

并行参数下，通信占比被优化达到极致，进而通讯性能的微小差异将给速度带来更加明显的影响。

2）

E3V5 节点相比E5V4 节点，在通信优化较好的并行参数下，具有明显快的计算速度，但在通信优化不佳的并行参数下，

速度提高不显著甚至会更低

– E3V5 相比E5V4 节点具有显著更高的主频，对串行程序会具有明显的优势。对于VASP，我们需要考虑通信差异，

虽然两种节点都配置了相似的100Gbps 通信网，但是E3V5 单节点核心数较少，故而跨节点通信的比例会高很多。

所以，我们更加需要选择优化的并行参数，以使VASP 在E3V5 上的运行更具优势。例如，A18K272 测试表明，在

128 核心下的最佳并行参数下，E3V5 运行时间为24s，比E5V4 的31s 运行时间，性能上有较大改进；但是在KPAR

x NCORE 设置为1 x 16 时，在所有运行核心数下，E3V5 的运行时间都要明显长于E5V4 的运行时间。

3）

E3V5 节点核心数少，在多原子体系需要更多并行节点，会在较低的核心数下遭遇通讯瓶颈，不适合运行大规模的VASP

计算

– 如A71K36 算例，E3V5 在96 核心时具有最佳的速度，更多核心反而带来速度的降低，而E5V4 则在128 核心区间

依然有很好的并行效率。

– 对Gamma Only 计算，如A284K1，在128 核心时，E3V5 虽然运行时间更短一些，对比E5V4 分别为36s/44s，但

是两节点类型下，128 核心下的计算时间相比96 核心时的降低幅度分别为0.86/0.77，表现出E5V3 节点下的运行时

间降低更慢，显示E5V4 下的并行扩展效率更好一些。

4）

Fat144 节点具有8 路18 核心CPU，内存较大，在运行小并行规模（32~48 核心以内）的大中小体系时有明显优势，但是

在多并行核心时，反而没有E5V4 队列的并行扩展性好，建议仅运行特殊需要大内存的VASP 作业。

– 在图（7.5）中，可以发现，对于多核心（64 核心以上时），Fat144 下的VASP 并行扩展性比E5V4 较差，反应此时多

路CPU 间的内存共享通信出现瓶颈，相关的详细理解应该更仔细的考虑进程在CPU 核心间的分配与通讯问题，由

于篇幅时间关系，暂留作后文研究。

5）

KNL 节点具有64 核心，每核心有4 个矢量加速核，在开启超线程下，我们发现QC 模式相比默认的AF 模式具有全面更

优的运行效率，同时在每个KNL 节点运行超过64 核心的单个VASP 作业并不会带来更好的效果，在AF 模式效果更差。

– 在图（7.6）中，KNL3 下的A284K1 算例，相比KNL25 下的A284K1 算例，在128 并行进程下，前者的运行时间为

后者的2 倍还多，说明AF 模式下，不适合在单节点运行超过64 并行进程的单VASP 作业。

6）

QC 模式下的单KNL 节点，对比E5V4 单节点，都取优化的运行参数时：在小体系A18K272 下，运行时间比约为120 比

90，E5V4 具有单节点计算优势。但是在大体系A284K1 下, 运行时间比约为130 比140，稍具有优势。

– 需要提及，我们另测试了Intel 提供的一个56 个原子的中等体系的算例，结果单机E5V4 与单机KNL 下的运行时间

比约为3637: 1997，KNL 单机的计算优势很大，这说明KNL 的计算效率比较依赖于计算体系。

– 如果结合KNL 单机的价格较低，则现有数据表明，单机KNL 运行大中体系的VASP 作业具有较高性价比

7）

比较KNL 与E5V4 节点的多节点并行最佳计算时间，KNL 节点的并行扩展性较低。

– 对比图（7.7）与图（7.1），在A18K272 体系，KNL 节点可以有效扩展到96 核心，计算时间约为123s，E5V4 节点

可以有效扩展到256 核心，计算时间约为22s；在A284K1 体系，KNL 节点可以有效扩展到48 核心，计算时间约为

133s，在E5V4 节点可以有效扩展到96 核心，计算时间约为52s。

– 此结果表明，KNL 在最佳的计算速度上大大受限于并行扩展度，在需要快速出结果的计算上具有劣势。

8）

收藏分享邀请

上一篇：VASP运行参数优化下一篇：VASP：应用编译优化

说点什么...

已有0条评论

VASP 硬件适应性优化

说点什么...

最新评论...

最新世界超算500强发布，Frontier排第一

AMD EPYC（霄龙）CPU性能要吊打Intel至强8300系列么？

NVIDIA、INTEL、AMD市值比较，建议INTEL换CEO，需要重视芯片工艺、芯片设计和应用算法 ...

ISC23国际超算大会介绍及精彩瞬间