猿代码 — 科研/AI模型/高性能计算
0

VASP 硬件适应性优化

摘要: 1)在科大TC4600 集群的配置下,E5V4 节点均比E5V3 具有明显的速度提升与更好的并行扩展性,速度提高达10%-30%– E5V4 节点相比E5V3 主频稍低,睿频相同,核心数较多,Cache/核心数之比相同,配合的OPA 通讯设备较快 ...
1)
在科大TC4600 集群的配置下,E5V4 节点均比E5V3 具有明显的速度提升与更好的并行扩展性,速度提高达10%-30%
– E5V4 节点相比E5V3 主频稍低,睿频相同,核心数较多,Cache/核心数之比相同,配合的OPA 通讯设备较快。测
试数据表明,E5V4 节点的通讯优势掩盖了主频劣势,总体性能更好。
– 在较大体系A284K1 下,E5V4 节点比E5V3 的优势在最佳应用并行参数下更明显。原因考虑为:在大体系与最好的
并行参数下,通信占比被优化达到极致,进而通讯性能的微小差异将给速度带来更加明显的影响。


2)
E3V5 节点相比E5V4 节点,在通信优化较好的并行参数下,具有明显快的计算速度,但在通信优化不佳的并行参数下,
速度提高不显著甚至会更低
– E3V5 相比E5V4 节点具有显著更高的主频,对串行程序会具有明显的优势。对于VASP,我们需要考虑通信差异,
虽然两种节点都配置了相似的100Gbps 通信网,但是E3V5 单节点核心数较少,故而跨节点通信的比例会高很多。
所以,我们更加需要选择优化的并行参数,以使VASP 在E3V5 上的运行更具优势。例如,A18K272 测试表明,在
128 核心下的最佳并行参数下,E3V5 运行时间为24s,比E5V4 的31s 运行时间,性能上有较大改进;但是在KPAR
x NCORE 设置为1 x 16 时,在所有运行核心数下,E3V5 的运行时间都要明显长于E5V4 的运行时间。

3)
E3V5 节点核心数少,在多原子体系需要更多并行节点,会在较低的核心数下遭遇通讯瓶颈,不适合运行大规模的VASP
计算
– 如A71K36 算例,E3V5 在96 核心时具有最佳的速度,更多核心反而带来速度的降低,而E5V4 则在128 核心区间
依然有很好的并行效率。
– 对Gamma Only 计算,如A284K1,在128 核心时,E3V5 虽然运行时间更短一些,对比E5V4 分别为36s/44s,但
是两节点类型下,128 核心下的计算时间相比96 核心时的降低幅度分别为0.86/0.77,表现出E5V3 节点下的运行时
间降低更慢,显示E5V4 下的并行扩展效率更好一些。

4)
Fat144 节点具有8 路18 核心CPU,内存较大,在运行小并行规模(32~48 核心以内)的大中小体系时有明显优势,但是
在多并行核心时,反而没有E5V4 队列的并行扩展性好,建议仅运行特殊需要大内存的VASP 作业。
– 在图(7.5)中,可以发现,对于多核心(64 核心以上时),Fat144 下的VASP 并行扩展性比E5V4 较差,反应此时多
路CPU 间的内存共享通信出现瓶颈,相关的详细理解应该更仔细的考虑进程在CPU 核心间的分配与通讯问题,由
于篇幅时间关系,暂留作后文研究。

5)
KNL 节点具有64 核心,每核心有4 个矢量加速核,在开启超线程下,我们发现QC 模式相比默认的AF 模式具有全面更
优的运行效率,同时在每个KNL 节点运行超过64 核心的单个VASP 作业并不会带来更好的效果,在AF 模式效果更差。
– 在图(7.6)中,KNL3 下的A284K1 算例,相比KNL25 下的A284K1 算例,在128 并行进程下,前者的运行时间为
后者的2 倍还多,说明AF 模式下,不适合在单节点运行超过64 并行进程的单VASP 作业。

6)
QC 模式下的单KNL 节点,对比E5V4 单节点,都取优化的运行参数时:在小体系A18K272 下,运行时间比约为120 比
90,E5V4 具有单节点计算优势。但是在大体系A284K1 下, 运行时间比约为130 比140,稍具有优势。
– 需要提及,我们另测试了Intel 提供的一个56 个原子的中等体系的算例,结果单机E5V4 与单机KNL 下的运行时间
比约为3637: 1997,KNL 单机的计算优势很大,这说明KNL 的计算效率比较依赖于计算体系。
– 如果结合KNL 单机的价格较低,则现有数据表明,单机KNL 运行大中体系的VASP 作业具有较高性价比

7)
比较KNL 与E5V4 节点的多节点并行最佳计算时间,KNL 节点的并行扩展性较低。
– 对比图(7.7)与图(7.1),在A18K272 体系,KNL 节点可以有效扩展到96 核心,计算时间约为123s,E5V4 节点
可以有效扩展到256 核心,计算时间约为22s;在A284K1 体系,KNL 节点可以有效扩展到48 核心,计算时间约为
133s,在E5V4 节点可以有效扩展到96 核心,计算时间约为52s。
– 此结果表明,KNL 在最佳的计算速度上大大受限于并行扩展度,在需要快速出结果的计算上具有劣势。

8)



说点什么...

已有0条评论

最新评论...

本文作者
2024-2-16 20:36
  • 0
    粉丝
  • 301
    阅读
  • 0
    回复
资讯幻灯片
热门评论
热门专题
排行榜
Copyright   ©2015-2023   猿代码-超算人才智造局 高性能计算|并行计算|人工智能      ( 京ICP备2021026424号-2 )