猿代码 — 科研/AI模型/高性能计算
0

钱德沛院士:中国的高性能计算:挑战与进展

摘要: 1)超级计算机发展遇到瓶颈1993-2012年,超级计算机的性能以每10年提高1000倍的速率提高从新的TOP500曲线看,从2013年起,上升速率变缓,如果没有大的突破,可能降低为每10年100倍左右2)TOP500的数据说明超级计算机 ...
1)超级计算机发展遇到瓶颈
1993-2012年,超级计算机的性能以每10年提高1000倍的速率提高
 从新的TOP500曲线看,从2013年起,上升速率变缓,如果没有大的突破,可能降低为每10年100倍左右
2)TOP500的数据说明超级计算机的发展遇到瓶颈,特别是
能效指标的约束摩尔定律
接近失效
体系结构
变化缓慢
尚无颠覆性
技术出现
新原理器件
缺少突破

3)超级计算领域竞争更趋激烈:美国
美国提出NSCI计划,多个政府部门协同发展超级计算
 DoE实施ECP计划,投入18亿美元,研制3台E级计算
机,另外18亿美元研发应用
• 持续性能1EPF的A21在2021年上半年完成
• 持续性能1EF的Frontier在2021-2022完成
• Serra的后续E级将在2023完成,4-5EF
 2024年达到8-12EF性能

4)超级计算领域竞争更趋激烈:日本
日本的Fugaku(POST-K)将在2021年初完成
• 性能100倍于K-Computer
• 基于ARM处理器实现,方便软件的开发、移植
• 新一代ARM处理器已经研制成功,扩展了512位的向量部件,能效指标高
• 系统内存采用HBM2,内存带宽1TB/s,内容容量大(内存字节/Flops=0.4,太湖之光约0.01)
• 系统软件同步研发,研发了支持新处理器的微内核操作系统
• 2020年上半年系统提供试用,2021年初完成全规模系统
• 日本还有后续E级系统
NEC坚持向量路线,研发了Aurora Vector Engine处理器,以此研制超级计算机

5)超级计算领域竞争更趋激烈:欧盟
超级计算领域竞争更趋激烈:欧盟
欧盟在2023年左右建立E级计算
基础设施(3台左右)
• 在目前的PRACE基础上发展
• E级系统强调低功耗
欧洲处理器的研发策略
• 自研欧洲处理器,Atos公司牵头
• 非常重视开源处理器架构RISC-V
欧洲高性能计算基础研究和
应用基础好
• 新的计算模型、语言、算法
• 大规模数值模拟

6)超级计算领域竞争更趋激烈:中国
十三五重点研发专项“高性能计算”
专项目标
• 突破E级计算机核心技术,依托自主可控技术,研制适应应用需求的E级(百亿亿次级)高性能计算机系统,使我国
高性能计算机的性能在“十三五”末保持世界领先水平。
• 研发一批关键领域/行业的高性能计算应用软件,建立国家级高性能计算应用软件中心,构建高性能计算应用生态
环境。
• 建立具有世界一流资源能力和服务水平的国家高性能计算环境,促进我国计算服务业发展。
7)值得重视的几个问题
依托自主技术,研制成功E级高性能计算机,系统达到如下技术指标:
• 系统峰值性能达到E级
• 内存容量10PB,存储容量可支持EB级
• 系统能效比达到30GFlops/W
• 高速互连网络传输性能大于500Gbps,可扩展性好
• 高效的大规模系统资源管理与调度系统
• 方便易用的并行编程模型和开发环境
• 全系统监控管理与容错机制
• 高效支持大规模应用的可靠可扩展运行

8)
E级计算机的研制面临重大技术挑战
功耗
(power)
• EFlops/20MW (50GF/W),还没有
有效的技术途径达到
应用性能
(performance)
• 追求应用可获得的性能而不是峰值
性能,应用性能经常在10%甚至
5%的峰值以下
可编程性
(Programmability)
• 大规模并行和异构体系结构给并行
编程带来巨大困难
• 并行程序编程难,调试难,性能不
确定
可靠性
(Resilience)
• 巨大的系统规模使得系统的平
均无故障时间大大缩短,甚至
一小时以下
• 如何完成长时间不间断运行的
应用?
• 体系结构的创新• 关键技术的突破• 软件硬件的协同

9)存在卡脖子技术
中美关系发生变化,美国遏制中国的
思维占上风
• 2015年对国防科大及相关超算中心禁运
• 2018年对中兴公司全面禁运
• 2019年5月贸易战升级,华为公司列入
“实体名单”
• 2019年6月将曙光及相关子公司、江南所
列入“实体名单”
E 级机研制存在瓶颈技术
• 高性能处理器/加速器
• 内存芯片,特别是3D内存
• 新型存储系统/器件,NVM
• 高速互连网,光传输和交换器件
• IC设计EDA软件
• 先进的芯片制造工艺
• 工程计算软件

10)
要有底线思维
美国已经把中国三个超级计算机研制单位列入“实体名单”,实施禁运和封锁
如何在外部限制甚至封锁条件下保持我国的超级计算的持续发展?
在当前的国际形势下,自主可控不是可选项,而是唯一出路
依托自主可控和开放合作并不矛盾,只有自身强,才有合作的基础
11)
要特别重视体系结构研究
摩尔定律渐近尽头,单靠主频提高、工艺改善就能获得性能增益的路走到头了
国际上提出体系结构的“寒武纪爆发”,体系结构将迎来黄金十年,虽有夸张,也不无道理
• 能否出现“百花齐放、百家争鸣”的局面,类似于上一世纪80年代并行计算机的发展
• 能否从以规模取胜的庞大系统,向灵巧、节能、应用高效的系统进化
体系结构的基本问题
• 冯.诺伊曼结构的基本特点:存储程序,存储器是关键通路,程序决定执行次序,如何适应大规模并行执行
• 问题分解、竞争冲突消解、通信与同步、存储一致性模型、激进与保守执行、投机执行…
• 体系结构与计算模型的匹配
• 计算与访存的匹配
没有一种体系结构能够覆盖所有应用的需求
• 通用vs 专用是长期争论的问题,未来是否会出现多样化、灵巧化、专用化的局面?
12)
要特别重视体系结构研究
摩尔定律渐近尽头,单靠主频提高、工艺改善就能获得性能增益的路走到头了
国际上提出体系结构的“寒武纪爆发”,体系结构将迎来黄金十年,虽有夸张,也不无道理
• 能否出现“百花齐放、百家争鸣”的局面,类似于上一世纪80年代并行计算机的发展
• 能否从以规模取胜的庞大系统,向灵巧、节能、应用高效的系统进化
体系结构的基本问题
• 冯.诺伊曼结构的基本特点:存储程序,存储器是关键通路,程序决定执行次序,如何适应大规模并行执行
• 问题分解、竞争冲突消解、通信与同步、存储一致性模型、激进与保守执行、投机执行…
• 体系结构与计算模型的匹配
• 计算与访存的匹配
没有一种体系结构能够覆盖所有应用的需求
• 通用vs 专用是长期争论的问题,未来是否会出现多样化、灵巧化、专用化的局面?
对现行体系结构的改进
系统级异构。软件定义的多态
• CPU和加速器同等地位由互连网连接
• CPU-CPU, CPU-加速器, 加速器-加速器之间直接通信
• 软件定义系统配置:CPU only, accelerator only,
CPU+accelerator, 不同组态在系统内共存,按需配置资源
• 需要在研发过程中和实际使用中更细致地评价
13)
追求计算与存储的匹配
计算和访存的匹配,减少数据访问和传输
 在数据流动中完成处理,减少
内存的存取
流式结构数据流结构
• 发掘和利用应用中数据的内
在并行性
• 靠数据的可用来激发操作,
但是目前的体系结构不能高
效支持
• 处理器内置内存,提高访存带
宽,降低时延
• 内存具有一定处理能力,就地
完成一些操作
14)探索创新体系结构
新的体系结构
• 面向领域的体系结构DSA
• 深度可重构的柔性体系结构
• 片内异构,集成高效的专用部件
− 瑞士军刀vs 专用工具集
• 融合支持应用特征的专用部件
− 卷积神经网络、脉冲神经网络,图计算
一个梦想:与制造晶体管一样方便地设计和制造处理器
• 根据应用特点快捷地设计机器
• 需要设计软件和芯片制造工艺流程的支持
− 高层逻辑描述综合/系统级/寄存器传输级/硅片编译
− 低成本、快响应的流片工艺
15)外部封锁条件下处理器的发展之路
半导体工艺趋近极限,限制处理器能效的提升,受功耗限制,靠提高主频的办
法提高性能已不可能,在新原理器件出现之前,并行是唯一出路。
通用处理器
• 降低核的复杂性来提高核数
• 提升向量部件性能
• 改进片上cache(容量和命中率)
• 流式处理减少数据访问
• 提升核间互连性能
• 提高访存能力
• 混合字长支持
专用加速器
• 人工智能、大数据
片内异构
• 片内多种专用部件,需要时激活
在国外目前围堵情况下中国处理器的路怎么走?
• 中国处理器+RISC-V? • 能形成共识和合力吗?
16)要特别重视内存系统
访存是计算机系统的性能瓶颈
访存成为系统能源消耗的主要来源
追求大容量、高带宽、低时延、低功耗
DRAM+NVM的混合内存
• NVM
− 不需刷新,节能
− 密度高,可实现大容量
− 读取快,能耗低
− 写入慢,寿命有限
• 易失与非易失器件结合,既提高容量和能效,又缓解高写入开销和有限写次
数问题
− 只读数据在NVM,读写数据在DRAM
− 按数据访问性质DRAM和NVM间切换
处理器和内存尽量靠近,缩短传输距离,提高传输带
宽,降低访存时延
• 3D内存芯片缓解访存墙
• 处理器内置DRAM
• 具有计算处理能力的内存
− 哪些处理操作在内存完成?
提高数据复用,减少访存
• 存储层次结构,cache结构和一致性协议
− 适应NVM混合内存的特点
− 适应异构加速系统的特点
适应异构的内存一致性,发掘异构系统的并行执行潜
力,方便并行编程

17)要全面应对异构带来的挑战
异构系统影响多个层面
• 问题的分解
• 算法设计优化
要从模型、语言、编译、库、调试、操作系统/运行时、资源管理、程序开发优化等多个层面
提供支撑手段和工具
18)要构建高性能计算生态环境
构建我国高性能计算生态环境的任务十分紧迫
• 要尽快围绕基于国产处理器的系统,研发系统软件、工具软件、应用软件,建立国产处理器应用的生态环境
− 操作系统、语言、编译器
− 调试器、性能优化器、能耗调优器
− 应用软件开发环境
− 应用软件开发
• 特别要加强替代主流商业软件的自主应用软件的研发
• 要尽快通过技术辐射,形成有一定市场份额的国产服务器系列,促使更多人有兴趣为其开发软件
• 软件开发要走开源的路,让更多人为提高自主软件成熟度出力,“高手在民间!”

19)
超算和人工智能、大数据的融合发展
超算、大数据、人工智能密切关联,相互支撑
• 超算是大数据分析和基于深度学习的人工智能技术与应用
的基础
• 超算和大数据改变了人工智能研究和应用的方式
大数据和人工智能将深刻影响未来超级计算机体系结
构和实现技术
•各类智能加速部件
• 数据为中心的体系结构
• 数据流体系结构
• 神经态计算

20)已经部署的研究任务
E级计算机系统研制高性能计算应用软件研发高性能计算环境研发
基础前沿
高性能互连
计算、编程及运行模型
E级计算的可计算建模与新型计算
方法
面向E级计算的并行算法库
计算服务化模型及体系架构
虚拟数据空间
共性关键技术
E级机验证原型
E级计算机系统
并行编程框架
应用协同开发优化平台与工具
国家高性能计算环境服务化机制与
支撑体系研究
应用示范
数值装置
领域应用软件
基于高性能计算环境的服务系统
(集成业务平台、领域应用社区、
HPC教育实践平台)

21)E级计算机系统研制
• 面向E级计算的高性能互连
• 新型高效能计算、编程和运
行模型
总体技术与评测技术研究
• E级计算机验证原型研制
• E级计算机系统研制
22)高性能计算应用软件研发
• 并行编程框架
• 应用协同开发优化
平台与工具
• 4个数值装置
• 14个领域应用软件
高性能计算应用软件研发
• E级计算的可计算建
模与新型计算方法
• 面向E级计算的并行
算法库
• 并行编程框架
• 应用协同开发优化
平台与工具
基础前沿
23)E级计算的可计算建模与新型计算方法
应用驱动的新型可扩展基础算法
适应于E级计
算的可计算物
理建模与新型
计算方法
超高精度医学影像重构的积分
方程求解
核聚变中的磁流体不稳定性控
制的高保真数值模拟
基于分子动力学的血栓形成机
理数值模拟和新型算法
千米级建筑在随机地震作用下
的失效模式识别
24)数值装置:数值飞行器
大型飞机先进战斗机复杂多体分离气动/结构综合优化
100P级超级计算机
依托突破
牵引
非线性流固耦合数值模拟软件
气动/结构综合优化设计软件
异构并行计算方法
非线性流固耦合计算方法
气动/结构综合优化算法
自主知识产权
 提升数值模拟技术工程应用水平
 挖掘高性能计算机的应用潜能
 提供高性能计算机持续发展的技术支撑

25)大型流体机械并行计算软件
研发了多层次可扩展异构并行软件
• 创新:设计了高可扩展并行CFD软件框架,在国产机器上
实现了三套实例
• 建立了国内首个10万等级空分主压缩机全尺寸性能测试台位,完
成了全速全压全负荷气动性能试验
• 开展了10万等级空分主压缩机的多排单叶道混合平面法的定常计
算,轴流段多变效率87.6%,离心段多变效率86.4%

26)复杂工程力学高性能应用软件
发展了高精度应力单元算法
发展了面向复杂几何的“100亿单元”非结构网格高可扩展建
模技术和复杂构造建模的块体切割与重构技术,并应用于工程
实践
示范应用
• 首次完成了三峡大坝101亿网格、50亿自由度规模的结构静力计算
• 完成了神光III光机4.2亿自由度地震破坏模拟计算。为工程分析和评
价提供支撑

27)应用软件协同开发工具与环境

国产超算开发工具+融合框架和数学库的
开发环境
• 跨软件栈的综合优化软件
• 大规模前后处理可视化工具
• 性能与能效调优工具
• 大规模并行应用软件资源库
28)并行编程框架
高效能实现关键技术体系
超级并行应用软件研制方法
29)高性能计算环境研发
基于高性能计算环境的
服务系统
− 集成业务平台
− 领域应用社区
− HPC教育实践平台
• 计算服务化模型及体
系架构
• 虚拟数据空间
• 国家高性能计算环境
服务化机制与支撑体
系研究
30)国家高性能计算环境
双运行中心(北京/合肥)
19个结点( 200PF+162PB )
互联带宽1000Mb
(北京/合肥/无锡/广州/上海)
基于微服务结构的计算门户
基于应用的全局调度与预测
《资源评价标准白皮书》
《环境综合评价指数》
31)基于HPC的EDA平台
100个以上用户可以同时在平台上设计IC, 千万门级电路的仿真加速2-10倍
32)







































说点什么...

已有0条评论

最新评论...

本文作者
2023-10-7 23:31
  • 0
    粉丝
  • 884
    阅读
  • 0
    回复
资讯幻灯片
热门评论
热门专题
排行榜
Copyright   ©2015-2023   猿代码-超算人才智造局 高性能计算|并行计算|人工智能      ( 京ICP备2021026424号-2 )