猿代码 — 科研/AI模型/高性能计算
0

VASP:应用编译优化

摘要: 1)6.1 编译选项与数学库本部分测试中,可调节的编译参数为:• Intel MKL:Sequential/OpenMP• ScaLAPACK:Enable / Disable• FFT implementation: Intel wrapper / Juergen Furtmueller (JF)• DCACHE_SIZE:400 ...
1)
6.1 编译选项与数学库
本部分测试中,可调节的编译参数为:
• Intel MKL:Sequential/OpenMP
• ScaLAPACK:Enable / Disable
• FFT implementation: Intel wrapper / Juergen Furtmueller (JF)
• DCACHE_SIZE:4000 / 0

2)
默认情况下(前面测试中使用的),我们的编译参数为V8: Intel MKL Sequential & Enable ScaLAPACK & Intel FFT &
DCACHE_SIZE = 4000
本文另外测试3 种其他的编译版本,分别为:
V12 : JF FFT
V14 : Disable ScaLAPACK
V16 : DCACHE_SIZE = 0
此外,在V16 编译版本中,因为官方的介绍”CACHE_SIZE=0 has a special meaning. It performs the FFT’s in x and y
direction plane by plane”, 所以我们额外调整了结构的基矢方向,将abc 调整为cba,以测试改变z direction 的影响。



3)

6.2 编译优化结论
• 对比V8 与V12,Intel FFT 相比JF FFT 显著提升了VASP 的运行速度,在小体系与大体系下提升可达2/5,1/5,FFT
效率的提升也使得VASP 整体并行扩展性更好
• 对比V8 与V14,开启ScaLapack 可以显著提升多节点下(NP>24/28)的运行时间与并行扩展效率
• 对比V8 与V16,讲VASP 官方文档中建议优化的DCACHE_SIZE 参数设为0 后,V16 版本并没有迹象影响运行速度与
并行扩展效率,当改变结构的Z 轴方向后,仍然没有明显的迹象。

4)
E5V4 节点下,测试核心数28 可被NCORE 整除是否会更加有益。除前面3 张常规测试外,后面两张展示了,对于
A18K272 体系,在两节点56 核心,KPAR 设为1,NCORE 分别取8 与7 时的性能分析图。


5)
多种编译选项与数学库测试结果
本测试部分,时间仍取前五个电子步的运行时间总和,与之前测试不同之处在于,应用输入参数NELMDL 取为默认值(即
前五步中,以固定的初始电子密度构造新的哈密顿量),因此与五步之后的电子步运行稍有差异,因为本项测试仅比较不同编译
参数下的相对速度,不研究最佳运行速度大小,所以影响不大。

6)

写得很完善,很有参考价值














上一篇:VASP 硬件适应性优化下一篇:GPU版VASP

说点什么...

已有0条评论

最新评论...

本文作者
2024-2-16 20:38
  • 0
    粉丝
  • 291
    阅读
  • 0
    回复
资讯幻灯片
热门评论
热门专题
排行榜
Copyright   ©2015-2023   猿代码-超算人才智造局 高性能计算|并行计算|人工智能      ( 京ICP备2021026424号-2 )