多卡的GPU server上起一个TRTIS还是多个呢?
NVIDIA高级系统架构师胡麟:
TensorRT Inference Server是可以看到服务器上的所有GPU的,可以通过CUDA VISIBLE DEVICES这个环境变量来指定GPU,那么Inference Server可以在GPU之间分配请求,让多个GPU得到均衡的利用,在K8s的环境中,可能会把一个多GPU的服务器切分成多个节点,每个节点绑定一个GPU,在这种情况下,K8s可以在每个节点跑一个TensorRT Inference Server,利用负载均衡的功能会去在不同的TensorRT Inference Server上分配请求。