一个字,难。芯片设计难,芯片制造难,对应的编译器难,实际上应用更难。 如果说当前的人,项目资金来源情况, 共性的东西 关心的东西:厂商是不是怎么看? 税务系统: 基金会,怎么和Kronos合作?完全还是部分兼容?三年跟当时的CUDA去比,技术难度有,完全兼容CUDA,难度加大了。 Sync编译器,LLVM编译器,跟后端还是哪里对接?实际的问题, : 智元实验室,Chat编译器,API在算子这一块,哪一块比较有价值。编译器,原来在国外,动机是CUDA太难写,高级语言很难把性能发挥出来,统一的All2I,PX,CUDA代码很容易搞,真的每家厂商要搞一下,比较一致的东西。 从CUDA到C语言的转换,PTX比较Low level的比较难以转换。本身不是比较难搞,而是指令不一定支持,上层转换难,底层二进制翻译更难。 怎么对接到我做的编译器,Balance带来什么好处? 需要芯片厂商,打个样例,提个小问题: 从我们公司角度来说,前端量化,定点执行过程,这个地方怎么做到各家统一。各家是不统一的,一种量化方式支撑不了,什么是精度比较高的,对称,非对称,各说各有理,这个地方要多想一下。 量化方式,思路,NVIDIA的思路,预定义过程。 在跟各家AI,软件栈,每合作一家都能够 AI厂家,适配的工作量, 适配不同的架构,帮助比较大,跟各个国产芯片架构变化大,难度大。训练框架,接入CUDA生态,特别多的第三方库,生态在做模型训练非常重要,做相应的改造,硬件生态达到一定的成熟度之后。总体上讲,API带来很大的便利,方便大家使用。 1)兼容CUDA非常重要,CUDA目前是异构计算的主流,开发人员多,Github上开源代码多,可能是未来的方向。因为我们从08年年开始做CUDA程序的开发和优化,对CUDA比较熟悉。我们觉得CUDA是一种比较好的编程模型,因为几个核心特征:高并发、可编程Cache、SIMT等。 2)语言无关编译IR我觉得很重要,这个可能是一个中间状态,能不能成为一个标准,类似MPI、OpenMP之类的标准模型。因为IR可能会成为未来一个很重要的抽象模式。 3)从应用的角度,我们觉得 大模型显卡集群的建立,推理也会是高潮 生态的打造,举个例子,必须借个位子,不兼容没有人用你 生态打造还是比较难,操作系统这一块,相对而言,技术路线还没有那么长,算力这一块难度比较大, |
说点什么...