使用TensorRT Inference Server，模型能跑在多个GPU上吗？

NVIDIA高级系统架构师胡麟:

单个的模型并不能切分的同时去跑在多个GPU上，TensorRT Inference Server是知道底层的硬件资源的，它会从模型仓库中加载模型，然后做负载均衡、执行推理，在所有的GPU卡上运行，从而把所有的GPU都用满，从这个角度来说模型是可以跑在多个GPU上的。

问题来源