1) 在科大TC4600 集群的配置下,E5V4 节点均比E5V3 具有明显的速度提升与更好的并行扩展性,速度提高达10%-30% – E5V4 节点相比E5V3 主频稍低,睿频相同,核心数较多,Cache/核心数之比相同,配合的OPA 通讯设备较快。测 试数据表明,E5V4 节点的通讯优势掩盖了主频劣势,总体性能更好。 – 在较大体系A284K1 下,E5V4 节点比E5V3 的优势在最佳应用并行参数下更明显。原因考虑为:在大体系与最好的 并行参数下,通信占比被优化达到极致,进而通讯性能的微小差异将给速度带来更加明显的影响。 2) E3V5 节点相比E5V4 节点,在通信优化较好的并行参数下,具有明显快的计算速度,但在通信优化不佳的并行参数下, 速度提高不显著甚至会更低 – E3V5 相比E5V4 节点具有显著更高的主频,对串行程序会具有明显的优势。对于VASP,我们需要考虑通信差异, 虽然两种节点都配置了相似的100Gbps 通信网,但是E3V5 单节点核心数较少,故而跨节点通信的比例会高很多。 所以,我们更加需要选择优化的并行参数,以使VASP 在E3V5 上的运行更具优势。例如,A18K272 测试表明,在 128 核心下的最佳并行参数下,E3V5 运行时间为24s,比E5V4 的31s 运行时间,性能上有较大改进;但是在KPAR x NCORE 设置为1 x 16 时,在所有运行核心数下,E3V5 的运行时间都要明显长于E5V4 的运行时间。 3) E3V5 节点核心数少,在多原子体系需要更多并行节点,会在较低的核心数下遭遇通讯瓶颈,不适合运行大规模的VASP 计算 – 如A71K36 算例,E3V5 在96 核心时具有最佳的速度,更多核心反而带来速度的降低,而E5V4 则在128 核心区间 依然有很好的并行效率。 – 对Gamma Only 计算,如A284K1,在128 核心时,E3V5 虽然运行时间更短一些,对比E5V4 分别为36s/44s,但 是两节点类型下,128 核心下的计算时间相比96 核心时的降低幅度分别为0.86/0.77,表现出E5V3 节点下的运行时 间降低更慢,显示E5V4 下的并行扩展效率更好一些。 4) Fat144 节点具有8 路18 核心CPU,内存较大,在运行小并行规模(32~48 核心以内)的大中小体系时有明显优势,但是 在多并行核心时,反而没有E5V4 队列的并行扩展性好,建议仅运行特殊需要大内存的VASP 作业。 – 在图(7.5)中,可以发现,对于多核心(64 核心以上时),Fat144 下的VASP 并行扩展性比E5V4 较差,反应此时多 路CPU 间的内存共享通信出现瓶颈,相关的详细理解应该更仔细的考虑进程在CPU 核心间的分配与通讯问题,由 于篇幅时间关系,暂留作后文研究。 5) KNL 节点具有64 核心,每核心有4 个矢量加速核,在开启超线程下,我们发现QC 模式相比默认的AF 模式具有全面更 优的运行效率,同时在每个KNL 节点运行超过64 核心的单个VASP 作业并不会带来更好的效果,在AF 模式效果更差。 – 在图(7.6)中,KNL3 下的A284K1 算例,相比KNL25 下的A284K1 算例,在128 并行进程下,前者的运行时间为 后者的2 倍还多,说明AF 模式下,不适合在单节点运行超过64 并行进程的单VASP 作业。 6) QC 模式下的单KNL 节点,对比E5V4 单节点,都取优化的运行参数时:在小体系A18K272 下,运行时间比约为120 比 90,E5V4 具有单节点计算优势。但是在大体系A284K1 下, 运行时间比约为130 比140,稍具有优势。 – 需要提及,我们另测试了Intel 提供的一个56 个原子的中等体系的算例,结果单机E5V4 与单机KNL 下的运行时间 比约为3637: 1997,KNL 单机的计算优势很大,这说明KNL 的计算效率比较依赖于计算体系。 – 如果结合KNL 单机的价格较低,则现有数据表明,单机KNL 运行大中体系的VASP 作业具有较高性价比 7) 比较KNL 与E5V4 节点的多节点并行最佳计算时间,KNL 节点的并行扩展性较低。 – 对比图(7.7)与图(7.1),在A18K272 体系,KNL 节点可以有效扩展到96 核心,计算时间约为123s,E5V4 节点 可以有效扩展到256 核心,计算时间约为22s;在A284K1 体系,KNL 节点可以有效扩展到48 核心,计算时间约为 133s,在E5V4 节点可以有效扩展到96 核心,计算时间约为52s。 – 此结果表明,KNL 在最佳的计算速度上大大受限于并行扩展度,在需要快速出结果的计算上具有劣势。 8) |
说点什么...