短视频AI推理, 个人理解有时需要多个模型串联执行, 如何有效做到低延迟？模型部署的时候如何做model accelaration？（硬件还是软件）

NVIDIA数据科学家徐添豪:

第一块是当你视频解码出来之后，prime其实可以并发的去做推理，在GPU上做并发，其实一般如果是单进程的程序的话，进程内可以做多流的推理，这时候它在GPU上的执行器是并发的，来做到低延迟；另外一个点是去做异步执行，不需要实时的在CPU上去同步你这个过程，当然这一块其实会更加的深入一点。关于stream流怎么用，你可以去看一下；关于CUDA当中的stream这一章节，它其实不太需要你完整的去了解programming的模型。你可以了解一下stream的定义，以及stream怎么用；刚才讲到的这些软件从底层CUDA到cuBLAS，再到上层的cuDNN，还有TensorRT这样完整的解决方案，你都可以去借用这些软件上的方案，可能还需要底层的硬件支持，比如说T4上提供的fp16，int8和int4的能力，通过这些软件可以帮你充分利用T4的计算能力。

问题来源

短视频场景的AI应用推理与优化｜NVIDIA专场第35讲