1)超级计算机发展遇到瓶颈 1993-2012年,超级计算机的性能以每10年提高1000倍的速率提高 从新的TOP500曲线看,从2013年起,上升速率变缓,如果没有大的突破,可能降低为每10年100倍左右 2)TOP500的数据说明超级计算机的发展遇到瓶颈,特别是 能效指标的约束摩尔定律 接近失效 体系结构 变化缓慢 尚无颠覆性 技术出现 新原理器件 缺少突破 3)超级计算领域竞争更趋激烈:美国 美国提出NSCI计划,多个政府部门协同发展超级计算 DoE实施ECP计划,投入18亿美元,研制3台E级计算 机,另外18亿美元研发应用 • 持续性能1EPF的A21在2021年上半年完成 • 持续性能1EF的Frontier在2021-2022完成 • Serra的后续E级将在2023完成,4-5EF 2024年达到8-12EF性能 4)超级计算领域竞争更趋激烈:日本 日本的Fugaku(POST-K)将在2021年初完成 • 性能100倍于K-Computer • 基于ARM处理器实现,方便软件的开发、移植 • 新一代ARM处理器已经研制成功,扩展了512位的向量部件,能效指标高 • 系统内存采用HBM2,内存带宽1TB/s,内容容量大(内存字节/Flops=0.4,太湖之光约0.01) • 系统软件同步研发,研发了支持新处理器的微内核操作系统 • 2020年上半年系统提供试用,2021年初完成全规模系统 • 日本还有后续E级系统 NEC坚持向量路线,研发了Aurora Vector Engine处理器,以此研制超级计算机 5)超级计算领域竞争更趋激烈:欧盟 超级计算领域竞争更趋激烈:欧盟 欧盟在2023年左右建立E级计算 基础设施(3台左右) • 在目前的PRACE基础上发展 • E级系统强调低功耗 欧洲处理器的研发策略 • 自研欧洲处理器,Atos公司牵头 • 非常重视开源处理器架构RISC-V 欧洲高性能计算基础研究和 应用基础好 • 新的计算模型、语言、算法 • 大规模数值模拟 6)超级计算领域竞争更趋激烈:中国 十三五重点研发专项“高性能计算” 专项目标 • 突破E级计算机核心技术,依托自主可控技术,研制适应应用需求的E级(百亿亿次级)高性能计算机系统,使我国 高性能计算机的性能在“十三五”末保持世界领先水平。 • 研发一批关键领域/行业的高性能计算应用软件,建立国家级高性能计算应用软件中心,构建高性能计算应用生态 环境。 • 建立具有世界一流资源能力和服务水平的国家高性能计算环境,促进我国计算服务业发展。 7)值得重视的几个问题 依托自主技术,研制成功E级高性能计算机,系统达到如下技术指标: • 系统峰值性能达到E级 • 内存容量10PB,存储容量可支持EB级 • 系统能效比达到30GFlops/W • 高速互连网络传输性能大于500Gbps,可扩展性好 • 高效的大规模系统资源管理与调度系统 • 方便易用的并行编程模型和开发环境 • 全系统监控管理与容错机制 • 高效支持大规模应用的可靠可扩展运行 8) E级计算机的研制面临重大技术挑战 功耗 (power) • EFlops/20MW (50GF/W),还没有 有效的技术途径达到 应用性能 (performance) • 追求应用可获得的性能而不是峰值 性能,应用性能经常在10%甚至 5%的峰值以下 可编程性 (Programmability) • 大规模并行和异构体系结构给并行 编程带来巨大困难 • 并行程序编程难,调试难,性能不 确定 可靠性 (Resilience) • 巨大的系统规模使得系统的平 均无故障时间大大缩短,甚至 一小时以下 • 如何完成长时间不间断运行的 应用? • 体系结构的创新• 关键技术的突破• 软件硬件的协同 9)存在卡脖子技术 中美关系发生变化,美国遏制中国的 思维占上风 • 2015年对国防科大及相关超算中心禁运 • 2018年对中兴公司全面禁运 • 2019年5月贸易战升级,华为公司列入 “实体名单” • 2019年6月将曙光及相关子公司、江南所 列入“实体名单” E 级机研制存在瓶颈技术 • 高性能处理器/加速器 • 内存芯片,特别是3D内存 • 新型存储系统/器件,NVM • 高速互连网,光传输和交换器件 • IC设计EDA软件 • 先进的芯片制造工艺 • 工程计算软件 10) 要有底线思维 美国已经把中国三个超级计算机研制单位列入“实体名单”,实施禁运和封锁 如何在外部限制甚至封锁条件下保持我国的超级计算的持续发展? 在当前的国际形势下,自主可控不是可选项,而是唯一出路 依托自主可控和开放合作并不矛盾,只有自身强,才有合作的基础 11) 要特别重视体系结构研究 摩尔定律渐近尽头,单靠主频提高、工艺改善就能获得性能增益的路走到头了 国际上提出体系结构的“寒武纪爆发”,体系结构将迎来黄金十年,虽有夸张,也不无道理 • 能否出现“百花齐放、百家争鸣”的局面,类似于上一世纪80年代并行计算机的发展 • 能否从以规模取胜的庞大系统,向灵巧、节能、应用高效的系统进化 体系结构的基本问题 • 冯.诺伊曼结构的基本特点:存储程序,存储器是关键通路,程序决定执行次序,如何适应大规模并行执行 • 问题分解、竞争冲突消解、通信与同步、存储一致性模型、激进与保守执行、投机执行… • 体系结构与计算模型的匹配 • 计算与访存的匹配 没有一种体系结构能够覆盖所有应用的需求 • 通用vs 专用是长期争论的问题,未来是否会出现多样化、灵巧化、专用化的局面? 12) 要特别重视体系结构研究 摩尔定律渐近尽头,单靠主频提高、工艺改善就能获得性能增益的路走到头了 国际上提出体系结构的“寒武纪爆发”,体系结构将迎来黄金十年,虽有夸张,也不无道理 • 能否出现“百花齐放、百家争鸣”的局面,类似于上一世纪80年代并行计算机的发展 • 能否从以规模取胜的庞大系统,向灵巧、节能、应用高效的系统进化 体系结构的基本问题 • 冯.诺伊曼结构的基本特点:存储程序,存储器是关键通路,程序决定执行次序,如何适应大规模并行执行 • 问题分解、竞争冲突消解、通信与同步、存储一致性模型、激进与保守执行、投机执行… • 体系结构与计算模型的匹配 • 计算与访存的匹配 没有一种体系结构能够覆盖所有应用的需求 • 通用vs 专用是长期争论的问题,未来是否会出现多样化、灵巧化、专用化的局面? 对现行体系结构的改进 系统级异构。软件定义的多态 • CPU和加速器同等地位由互连网连接 • CPU-CPU, CPU-加速器, 加速器-加速器之间直接通信 • 软件定义系统配置:CPU only, accelerator only, CPU+accelerator, 不同组态在系统内共存,按需配置资源 • 需要在研发过程中和实际使用中更细致地评价 13) 追求计算与存储的匹配 计算和访存的匹配,减少数据访问和传输 在数据流动中完成处理,减少 内存的存取 流式结构数据流结构 • 发掘和利用应用中数据的内 在并行性 • 靠数据的可用来激发操作, 但是目前的体系结构不能高 效支持 • 处理器内置内存,提高访存带 宽,降低时延 • 内存具有一定处理能力,就地 完成一些操作 14)探索创新体系结构 新的体系结构 • 面向领域的体系结构DSA • 深度可重构的柔性体系结构 • 片内异构,集成高效的专用部件 − 瑞士军刀vs 专用工具集 • 融合支持应用特征的专用部件 − 卷积神经网络、脉冲神经网络,图计算 一个梦想:与制造晶体管一样方便地设计和制造处理器 • 根据应用特点快捷地设计机器 • 需要设计软件和芯片制造工艺流程的支持 − 高层逻辑描述综合/系统级/寄存器传输级/硅片编译 − 低成本、快响应的流片工艺 15)外部封锁条件下处理器的发展之路 半导体工艺趋近极限,限制处理器能效的提升,受功耗限制,靠提高主频的办 法提高性能已不可能,在新原理器件出现之前,并行是唯一出路。 通用处理器 • 降低核的复杂性来提高核数 • 提升向量部件性能 • 改进片上cache(容量和命中率) • 流式处理减少数据访问 • 提升核间互连性能 • 提高访存能力 • 混合字长支持 专用加速器 • 人工智能、大数据 片内异构 • 片内多种专用部件,需要时激活 在国外目前围堵情况下中国处理器的路怎么走? • 中国处理器+RISC-V? • 能形成共识和合力吗? 16)要特别重视内存系统 访存是计算机系统的性能瓶颈 访存成为系统能源消耗的主要来源 追求大容量、高带宽、低时延、低功耗 DRAM+NVM的混合内存 • NVM − 不需刷新,节能 − 密度高,可实现大容量 − 读取快,能耗低 − 写入慢,寿命有限 • 易失与非易失器件结合,既提高容量和能效,又缓解高写入开销和有限写次 数问题 − 只读数据在NVM,读写数据在DRAM − 按数据访问性质DRAM和NVM间切换 处理器和内存尽量靠近,缩短传输距离,提高传输带 宽,降低访存时延 • 3D内存芯片缓解访存墙 • 处理器内置DRAM • 具有计算处理能力的内存 − 哪些处理操作在内存完成? 提高数据复用,减少访存 • 存储层次结构,cache结构和一致性协议 − 适应NVM混合内存的特点 − 适应异构加速系统的特点 适应异构的内存一致性,发掘异构系统的并行执行潜 力,方便并行编程 17)要全面应对异构带来的挑战 异构系统影响多个层面 • 问题的分解 • 算法设计优化 要从模型、语言、编译、库、调试、操作系统/运行时、资源管理、程序开发优化等多个层面 提供支撑手段和工具 18)要构建高性能计算生态环境 构建我国高性能计算生态环境的任务十分紧迫 • 要尽快围绕基于国产处理器的系统,研发系统软件、工具软件、应用软件,建立国产处理器应用的生态环境 − 操作系统、语言、编译器 − 调试器、性能优化器、能耗调优器 − 应用软件开发环境 − 应用软件开发 • 特别要加强替代主流商业软件的自主应用软件的研发 • 要尽快通过技术辐射,形成有一定市场份额的国产服务器系列,促使更多人有兴趣为其开发软件 • 软件开发要走开源的路,让更多人为提高自主软件成熟度出力,“高手在民间!” 19) 超算和人工智能、大数据的融合发展 超算、大数据、人工智能密切关联,相互支撑 • 超算是大数据分析和基于深度学习的人工智能技术与应用 的基础 • 超算和大数据改变了人工智能研究和应用的方式 大数据和人工智能将深刻影响未来超级计算机体系结 构和实现技术 •各类智能加速部件 • 数据为中心的体系结构 • 数据流体系结构 • 神经态计算 20)已经部署的研究任务 E级计算机系统研制高性能计算应用软件研发高性能计算环境研发 基础前沿 高性能互连 计算、编程及运行模型 E级计算的可计算建模与新型计算 方法 面向E级计算的并行算法库 计算服务化模型及体系架构 虚拟数据空间 共性关键技术 E级机验证原型 E级计算机系统 并行编程框架 应用协同开发优化平台与工具 国家高性能计算环境服务化机制与 支撑体系研究 应用示范 数值装置 领域应用软件 基于高性能计算环境的服务系统 (集成业务平台、领域应用社区、 HPC教育实践平台) 21)E级计算机系统研制 • 面向E级计算的高性能互连 • 新型高效能计算、编程和运 行模型 总体技术与评测技术研究 • E级计算机验证原型研制 • E级计算机系统研制 22)高性能计算应用软件研发 • 并行编程框架 • 应用协同开发优化 平台与工具 • 4个数值装置 • 14个领域应用软件 高性能计算应用软件研发 • E级计算的可计算建 模与新型计算方法 • 面向E级计算的并行 算法库 • 并行编程框架 • 应用协同开发优化 平台与工具 基础前沿 23)E级计算的可计算建模与新型计算方法 应用驱动的新型可扩展基础算法 适应于E级计 算的可计算物 理建模与新型 计算方法 超高精度医学影像重构的积分 方程求解 核聚变中的磁流体不稳定性控 制的高保真数值模拟 基于分子动力学的血栓形成机 理数值模拟和新型算法 千米级建筑在随机地震作用下 的失效模式识别 24)数值装置:数值飞行器 大型飞机先进战斗机复杂多体分离气动/结构综合优化 100P级超级计算机 依托突破 牵引 非线性流固耦合数值模拟软件 气动/结构综合优化设计软件 异构并行计算方法 非线性流固耦合计算方法 气动/结构综合优化算法 自主知识产权 提升数值模拟技术工程应用水平 挖掘高性能计算机的应用潜能 提供高性能计算机持续发展的技术支撑 25)大型流体机械并行计算软件 研发了多层次可扩展异构并行软件 • 创新:设计了高可扩展并行CFD软件框架,在国产机器上 实现了三套实例 • 建立了国内首个10万等级空分主压缩机全尺寸性能测试台位,完 成了全速全压全负荷气动性能试验 • 开展了10万等级空分主压缩机的多排单叶道混合平面法的定常计 算,轴流段多变效率87.6%,离心段多变效率86.4% 26)复杂工程力学高性能应用软件 发展了高精度应力单元算法 发展了面向复杂几何的“100亿单元”非结构网格高可扩展建 模技术和复杂构造建模的块体切割与重构技术,并应用于工程 实践 示范应用 • 首次完成了三峡大坝101亿网格、50亿自由度规模的结构静力计算 • 完成了神光III光机4.2亿自由度地震破坏模拟计算。为工程分析和评 价提供支撑 27)应用软件协同开发工具与环境 国产超算开发工具+融合框架和数学库的 开发环境 • 跨软件栈的综合优化软件 • 大规模前后处理可视化工具 • 性能与能效调优工具 • 大规模并行应用软件资源库 28)并行编程框架 高效能实现关键技术体系 超级并行应用软件研制方法 29)高性能计算环境研发 基于高性能计算环境的 服务系统 − 集成业务平台 − 领域应用社区 − HPC教育实践平台 • 计算服务化模型及体 系架构 • 虚拟数据空间 • 国家高性能计算环境 服务化机制与支撑体 系研究 30)国家高性能计算环境 双运行中心(北京/合肥) 19个结点( 200PF+162PB ) 互联带宽1000Mb (北京/合肥/无锡/广州/上海) 基于微服务结构的计算门户 基于应用的全局调度与预测 《资源评价标准白皮书》 《环境综合评价指数》 31)基于HPC的EDA平台 100个以上用户可以同时在平台上设计IC, 千万门级电路的仿真加速2-10倍 32) |
说点什么...