需要的环境，适合什么样的场景？对于GPU有什么样的要求，并发和实时的问题，还是只是用GPU建模？

NVIDIA高级系统架构师胡麟:

TensorRT Inference Server在标准的Linux环境都可以使用，GPU最好需要有一定的CUDA的计算能力，比如像数据中心如P4，V100，P40等等，当然英伟达的其他GPU也是可以的，实时和并发可以由用户去配置、指定。TensorRT Inference Server对CPU和GPU都支持，不是只能用GPU建模，纯CPU的workload也是可以支持的。

问题来源

使用TensorRT Inference Server加速深度学习模型的部署 | NVIDIA专场第30讲