使用T4对这些AI推理模型加速时,对CPU、内存、硬盘和网络带宽有什么依赖要求?
NVIDIA数据科学家徐添豪:
在做模型推理的时候,首先要考虑CPU和GPU的配比,每个场景的配比都不太一样。在短视频的workload整个pipeline里面有解码,如果CPU资源赋有富裕,那这时完全可以在CPU上做解码,然后放到GPU上做推理。当你的CPU是瓶颈时,可以尝试把一部分CPU上的workload往GPU上迁,这也只是其中一个例子。关于内存,我觉得跟调度系统有关,系统愿意给你的推理任务分配多少资源,一个机器会切多少个实例分给多个用户,这一块跟线上环境比较相关。关于硬盘和网络带宽,其实也取决于你要不要做这种机器与机器之间的通信,是怎样的模型,比如说在做resnet50训练的时候,可能对于BERT这一类模型,对于网络之间的通信要求就不会那么高,这种情况下,你的workload不一样,就会影响网络到底需要多少带宽。如果非常的激进的话,可以选用最高配的来做机房的配置,也为你之后的更复杂的模型保留一定的空间。
登录查看完整答案
