短视频AI推理, 个人理解有时需要多个模型串联执行, 如何有效做到低延迟?模型部署的时候如何做model accelaration?(硬件还是软件)
NVIDIA数据科学家徐添豪:
第一块是当你视频解码出来之后,prime其实可以并发的去做推理,在GPU上做并发,其实一般如果是单进程的程序的话,进程内可以做多流的推理,这时候它在GPU上的执行器是并发的,来做到低延迟;另外一个点是去做异步执行,不需要实时的在CPU上去同步你这个过程,当然这一块其实会更加的深入一点。关于stream流怎么用,你可以去看一下;关于CUDA当中的stream这一章节,它其实不太需要你完整的去了解programming的模型。你可以了解一下stream的定义,以及stream怎么用;刚才讲到的这些软件从底层CUDA到cuBLAS,再到上层的cuDNN,还有TensorRT这样完整的解决方案,你都可以去借用这些软件上的方案,可能还需要底层的硬件支持,比如说T4上提供的fp16,int8和int4的能力,通过这些软件可以帮你充分利用T4的计算能力。