猿代码-超算人才智造局高性能计算|并行计算|人工智能 › 首页 ›科技资讯 › 查看内容

VASP：应用编译优化

摘要: 1）6.1 编译选项与数学库本部分测试中，可调节的编译参数为：• Intel MKL：Sequential/OpenMP• ScaLAPACK：Enable / Disable• FFT implementation: Intel wrapper / Juergen Furtmueller (JF)• DCACHE_SIZE：400 ...

1）

6.1 编译选项与数学库

本部分测试中，可调节的编译参数为：

• Intel MKL：Sequential/OpenMP

• ScaLAPACK：Enable / Disable

• FFT implementation: Intel wrapper / Juergen Furtmueller (JF)

• DCACHE_SIZE：4000 / 0

2）

默认情况下（前面测试中使用的），我们的编译参数为V8: Intel MKL Sequential & Enable ScaLAPACK & Intel FFT &

DCACHE_SIZE = 4000

本文另外测试3 种其他的编译版本，分别为：

V12 : JF FFT

V14 : Disable ScaLAPACK

V16 : DCACHE_SIZE = 0

此外，在V16 编译版本中，因为官方的介绍”CACHE_SIZE=0 has a special meaning. It performs the FFT’s in x and y

direction plane by plane”, 所以我们额外调整了结构的基矢方向，将abc 调整为cba，以测试改变z direction 的影响。

3）

6.2 编译优化结论

• 对比V8 与V12，Intel FFT 相比JF FFT 显著提升了VASP 的运行速度，在小体系与大体系下提升可达2/5，1/5，FFT

效率的提升也使得VASP 整体并行扩展性更好

• 对比V8 与V14，开启ScaLapack 可以显著提升多节点下（NP>24/28）的运行时间与并行扩展效率

• 对比V8 与V16，讲VASP 官方文档中建议优化的DCACHE_SIZE 参数设为0 后，V16 版本并没有迹象影响运行速度与

并行扩展效率，当改变结构的Z 轴方向后，仍然没有明显的迹象。

4）

E5V4 节点下，测试核心数28 可被NCORE 整除是否会更加有益。除前面3 张常规测试外，后面两张展示了，对于

A18K272 体系，在两节点56 核心，KPAR 设为1，NCORE 分别取8 与7 时的性能分析图。

5）

多种编译选项与数学库测试结果

本测试部分，时间仍取前五个电子步的运行时间总和，与之前测试不同之处在于，应用输入参数NELMDL 取为默认值（即

前五步中，以固定的初始电子密度构造新的哈密顿量），因此与五步之后的电子步运行稍有差异，因为本项测试仅比较不同编译

参数下的相对速度，不研究最佳运行速度大小，所以影响不大。

6）

写得很完善，很有参考价值

收藏分享邀请

上一篇：VASP 硬件适应性优化下一篇：GPU版VASP

说点什么...

已有0条评论

VASP：应用编译优化

说点什么...

最新评论...

最新世界超算500强发布，Frontier排第一

AMD EPYC（霄龙）CPU性能要吊打Intel至强8300系列么？

NVIDIA、INTEL、AMD市值比较，建议INTEL换CEO，需要重视芯片工艺、芯片设计和应用算法 ...

ISC23国际超算大会介绍及精彩瞬间