1) CUDA编程模型假设一个由主机和设备组成的系统,每个主机和设备都有自己的独立存储器。内核在设备内存之外运行,因此运行时提供了分配、解除分配和复制设备内存的功能,以及在主机内存和设备内存之间传输数据的功能。 2) 设备存储器可以被分配为线性存储器或CUDA阵列。 CUDA阵列是为纹理提取而优化的不透明内存布局。它们在“纹理和曲面内存”中进行了描述。 3) CUDA线程在执行过程中可以访问来自多个内存空间的数据,如图6所示。每个线程都有专用的本地内存。每个线程块都具有对该块的所有线程可见的共享内存,并且与该块具有相同的生存期。线程块集群中的线程块可以对彼此的共享内存执行读、写和原子操作。所有线程都可以访问相同的全局内存。 4) |
说点什么...