如果某个模型的请求执行完毕了,GPU显存会释放掉吗?
NVIDIA高级系统架构师胡麟:
TensorRT Inference Server可以从模型仓库里面去load模型,在runtime的时候。如果释放GPU的显存,需要卸载模型,可以通过修改模型仓库来实现,关于如何修改模型仓库,您可以参考TensorRT Inference Server的用户手册,就不用去重新启动TensorRT Inference Server,另外也可以使用gRPC或者HTTP的API来动态的加载或卸载模型,具体也可以去参考模型管理的文档。