使用TensorRT Inference Server,模型能跑在多个GPU上吗?
NVIDIA高级系统架构师胡麟:
单个的模型并不能切分的同时去跑在多个GPU上,TensorRT Inference Server是知道底层的硬件资源的,它会从模型仓库中加载模型,然后做负载均衡、执行推理,在所有的GPU卡上运行,从而把所有的GPU都用满,从这个角度来说模型是可以跑在多个GPU上的。