1) 6.1 编译选项与数学库 本部分测试中,可调节的编译参数为: • Intel MKL:Sequential/OpenMP • ScaLAPACK:Enable / Disable • FFT implementation: Intel wrapper / Juergen Furtmueller (JF) • DCACHE_SIZE:4000 / 0 2) 默认情况下(前面测试中使用的),我们的编译参数为V8: Intel MKL Sequential & Enable ScaLAPACK & Intel FFT & DCACHE_SIZE = 4000 本文另外测试3 种其他的编译版本,分别为: V12 : JF FFT V14 : Disable ScaLAPACK V16 : DCACHE_SIZE = 0 此外,在V16 编译版本中,因为官方的介绍”CACHE_SIZE=0 has a special meaning. It performs the FFT’s in x and y direction plane by plane”, 所以我们额外调整了结构的基矢方向,将abc 调整为cba,以测试改变z direction 的影响。 3) 6.2 编译优化结论 • 对比V8 与V12,Intel FFT 相比JF FFT 显著提升了VASP 的运行速度,在小体系与大体系下提升可达2/5,1/5,FFT 效率的提升也使得VASP 整体并行扩展性更好 • 对比V8 与V14,开启ScaLapack 可以显著提升多节点下(NP>24/28)的运行时间与并行扩展效率 • 对比V8 与V16,讲VASP 官方文档中建议优化的DCACHE_SIZE 参数设为0 后,V16 版本并没有迹象影响运行速度与 并行扩展效率,当改变结构的Z 轴方向后,仍然没有明显的迹象。 4) E5V4 节点下,测试核心数28 可被NCORE 整除是否会更加有益。除前面3 张常规测试外,后面两张展示了,对于 A18K272 体系,在两节点56 核心,KPAR 设为1,NCORE 分别取8 与7 时的性能分析图。 5) 多种编译选项与数学库测试结果 本测试部分,时间仍取前五个电子步的运行时间总和,与之前测试不同之处在于,应用输入参数NELMDL 取为默认值(即 前五步中,以固定的初始电子密度构造新的哈密顿量),因此与五步之后的电子步运行稍有差异,因为本项测试仅比较不同编译 参数下的相对速度,不研究最佳运行速度大小,所以影响不大。 6) 写得很完善,很有参考价值 |
说点什么...