猿代码-超算人才智造局高性能计算|并行计算|人工智能 › 首页 ›科技资讯 › 查看内容

VASP运行参数优化

摘要: 1）4.2 应用参数优化结论我们先给出一些经常在官方手册、VASP 程序屏幕输出及网络上出现的不合适的设置建议，他们可能因为时间的久远，考虑硬件较旧，或者测试算例的不同，而导致在TC4600 上很多不同类型的节点都不 ...

1）

4.2 应用参数优化结论

我们先给出一些经常在官方手册、VASP 程序屏幕输出及网络上出现的不合适的设置建议，他们可能因为时间的久远，考虑

硬件较旧，或者测试算例的不同，而导致在TC4600 上很多不同类型的节点都不合适。本文的测试中，考虑了众多硬件条件，与

不同体系大小与KPOINTs 下的多种代表算例，以此得出的结论，应该具备更普适的优势，同时将来会进一步的通过自动化系

统的运行更加确证或改进本文的结果。

2）

常见的不适用的设置建议

• NPAR = 4 ~ approx SQRT( number of cores)

– 运行时屏幕经常输出：“For optimal performance we recommend to set NCORE = 4 - approx SQRT( number of

cores) NCORE specifies how many cores store one orbital (NPAR=cpu/NCORE). This setting can greatly improve

the performance of VASP for DFT. ”

– 此建议在KPOINT 很多时特别不适用，其他条件下也不总是最优。

NPAR = number of cores per compute node [2]

– 测试发现，在本测试系统的2 路节点中，这种设置不合理，经常不是最优。

• not recommend attempting run with KPAR>compute nodes, even though you may have more k-points than compute

nodes. [3]

– 测试结果表明，单节点较多核心的E5V4 节点，在KPOINTs 较多时，最优的运行KPAR 值远大于节点数。

3）

优化设置结论

• NCORE 比NPAR 具有更小的最优取值空间，可以更好的适应不同的并行核心数与节点硬件

在文献[1] 中，测试了NPAR 对运行时间的影响，对应的NCORE 值被忽略。但是，当我们计算一下相应的NCORE

后可知，最优NPAR 的取值范围的上下边界值相差数十倍，而对应的最优NCORE 空间的上下边界值基本保持数倍

以内，此结果与本文档测试结果基本符合：在不同节点类型(甚至包括构架很不同的4 核心E3V5 节点)，不同总并行

核心数，与不同的算例下，NCORE = 8 下的运行时间经常处于最优值，且基本处于[4,16] 空间范围内。

4）

VASP 默认并行参数（KPAR=1 & NCORE=1）非常低效，最优的运行参数可大大提高并行扩展性与运行速度

– 在E5V4-A18K272、E5V4-A71K36 例子中，默认设置下的并行极限为24、64 核心，但是经过优化并行参数后，可以

轻松扩展到256、128 核心，并仍保有进一步扩展空间，最大运行速度可以提高10 倍。特别得，在630 个原子的超大

晶胞算例E5V4-A630K1 中，经参数优化后，不仅并行核心数从256 提高到384，尤其运行时间从354s 降低到183s。

5）

由K 点数NKpoints 与原子数Natoms 两者，可大致估算最佳运行并行核心数[3]

– 当仅作单KPOINT 计算时，并行核心数可扩展到大约Natoms/2

– 当进行多KPOINTs 计算时，并行可进一步扩展8-16 倍。

– 由于初始输入的KPOINTs 可约，所以准确的NKpoints 应该以考虑对称后的约化值为准，目前在KPOINTs 较大时，

暂没有考虑具体数值对并行扩展性的精确影响。

6）

当单节点核心数可被NCORE 整除时，能够在部分多节点计算算例中增加效率

– 单节点核心数可被NCORE 整除时，可使BAND 并行通信限制在节点内，理论上总会带来好处，否则。

– 实践上，在单KPOINT 多节点算例中，BAND 通信影响较小，原因可解释为多节点的单KPOINT 计算本身的通讯

时间很长，抑制了“可整除”带来的BAND 并行通讯降低的好处。

– 在多KPOINT 多节点算例中，当设置KPAR 较大时，单KPOINT 在1-2 个节点内运行，总体通信较小，此时

BAND 通信占比更大，故而影响更加突出，“可整除”带来的BAND 并行通讯降低，会显著降低运行时间。如在图7.2

A18K272 算例中，当KPAR 从1 增大到4 时，NCORE 为8/7 时的运行时间从相差无几的130/124，变为40/28，

具有显著的差异。更进一步，在图7.2中，详细展示了对于A18K272 体系，两节点56 核心，KPAR 设为1，NCORE

分别取8 与7 时的性能分析图，可知NCORE 为7 时相比NCORE 为8 时，通信占比从79% 降到72%，在纯计算

时间保持约50s 不变的情况下，总的运行时间从254s 降低到182s。

7）

收藏分享邀请

上一篇：VASP 应用运行优化下一篇：VASP 硬件适应性优化

说点什么...

已有0条评论

VASP运行参数优化

说点什么...

最新评论...

最新世界超算500强发布，Frontier排第一

AMD EPYC（霄龙）CPU性能要吊打Intel至强8300系列么？

NVIDIA、INTEL、AMD市值比较，建议INTEL换CEO，需要重视芯片工艺、芯片设计和应用算法 ...

ISC23国际超算大会介绍及精彩瞬间