猿代码 — 科研/AI模型/高性能计算
0

VASP运行参数优化

摘要: 1)4.2 应用参数优化结论我们先给出一些经常在官方手册、VASP 程序屏幕输出及网络上出现的不合适的设置建议,他们可能因为时间的久远,考虑硬件较旧,或者测试算例的不同,而导致在TC4600 上很多不同类型的节点都不 ...
1)
4.2 应用参数优化结论
我们先给出一些经常在官方手册、VASP 程序屏幕输出及网络上出现的不合适的设置建议,他们可能因为时间的久远,考虑
硬件较旧,或者测试算例的不同,而导致在TC4600 上很多不同类型的节点都不合适。本文的测试中,考虑了众多硬件条件,与
不同体系大小与KPOINTs 下的多种代表算例,以此得出的结论,应该具备更普适的优势,同时将来会进一步的通过自动化系
统的运行更加确证或改进本文的结果。


2)

常见的不适用的设置建议
• NPAR = 4 ~ approx SQRT( number of cores)
– 运行时屏幕经常输出:“For optimal performance we recommend to set NCORE = 4 - approx SQRT( number of
cores) NCORE specifies how many cores store one orbital (NPAR=cpu/NCORE). This setting can greatly improve
the performance of VASP for DFT. ”
– 此建议在KPOINT 很多时特别不适用,其他条件下也不总是最优。
NPAR = number of cores per compute node [2]
– 测试发现,在本测试系统的2 路节点中,这种设置不合理,经常不是最优。
• not recommend attempting run with KPAR>compute nodes, even though you may have more k-points than compute
nodes. [3]
– 测试结果表明,单节点较多核心的E5V4 节点,在KPOINTs 较多时,最优的运行KPAR 值远大于节点数。

3)
优化设置结论
• NCORE 比NPAR 具有更小的最优取值空间,可以更好的适应不同的并行核心数与节点硬件

在文献[1] 中,测试了NPAR 对运行时间的影响,对应的NCORE 值被忽略。但是,当我们计算一下相应的NCORE
后可知,最优NPAR 的取值范围的上下边界值相差数十倍,而对应的最优NCORE 空间的上下边界值基本保持数倍
以内,此结果与本文档测试结果基本符合:在不同节点类型(甚至包括构架很不同的4 核心E3V5 节点),不同总并行
核心数,与不同的算例下,NCORE = 8 下的运行时间经常处于最优值,且基本处于[4,16] 空间范围内。

4)
VASP 默认并行参数(KPAR=1 & NCORE=1)非常低效,最优的运行参数可大大提高并行扩展性与运行速度
– 在E5V4-A18K272、E5V4-A71K36 例子中,默认设置下的并行极限为24、64 核心,但是经过优化并行参数后,可以
轻松扩展到256、128 核心,并仍保有进一步扩展空间,最大运行速度可以提高10 倍。特别得,在630 个原子的超大
晶胞算例E5V4-A630K1 中,经参数优化后,不仅并行核心数从256 提高到384,尤其运行时间从354s 降低到183s。

5)
由K 点数NKpoints 与原子数Natoms 两者,可大致估算最佳运行并行核心数[3]
– 当仅作单KPOINT 计算时,并行核心数可扩展到大约Natoms/2
– 当进行多KPOINTs 计算时,并行可进一步扩展8-16 倍。
– 由于初始输入的KPOINTs 可约,所以准确的NKpoints 应该以考虑对称后的约化值为准,目前在KPOINTs 较大时,
暂没有考虑具体数值对并行扩展性的精确影响。

6)
当单节点核心数可被NCORE 整除时,能够在部分多节点计算算例中增加效率
– 单节点核心数可被NCORE 整除时,可使BAND 并行通信限制在节点内,理论上总会带来好处,否则。
– 实践上,在单KPOINT 多节点算例中,BAND 通信影响较小,原因可解释为多节点的单KPOINT 计算本身的通讯
时间很长,抑制了“可整除”带来的BAND 并行通讯降低的好处。
– 在多KPOINT 多节点算例中,当设置KPAR 较大时,单KPOINT 在1-2 个节点内运行,总体通信较小,此时
BAND 通信占比更大,故而影响更加突出,“可整除”带来的BAND 并行通讯降低,会显著降低运行时间。如在图7.2
A18K272 算例中,当KPAR 从1 增大到4 时,NCORE 为8/7 时的运行时间从相差无几的130/124,变为40/28,
具有显著的差异。更进一步,在图7.2中,详细展示了对于A18K272 体系,两节点56 核心,KPAR 设为1,NCORE
分别取8 与7 时的性能分析图,可知NCORE 为7 时相比NCORE 为8 时,通信占比从79% 降到72%,在纯计算
时间保持约50s 不变的情况下,总的运行时间从254s 降低到182s。

7)


说点什么...

已有0条评论

最新评论...

本文作者
2024-2-16 20:32
  • 0
    粉丝
  • 491
    阅读
  • 0
    回复
资讯幻灯片
热门评论
热门专题
排行榜
Copyright   ©2015-2023   猿代码-超算人才智造局 高性能计算|并行计算|人工智能      ( 京ICP备2021026424号-2 )