CUDA的stream使得GPU计算具有粗粒度并行能力,那么,一般单卡使用多少stream比较合适?即:GPU卡的物理任务管理队列数量是多少?
NVIDIA中国区工程及解决方案总监赖俊杰:
单卡用多少stream没有一个特别的说法,我们写一个多stream程序之后,在满足你的计算逻辑的前提下,你可以尝试去试下到底用多少个stream比较合适。关于GPU卡的物理任务管理队列数量是多少,这个问题我还真没有仔细去了解过。