如果要多台DGX服务器进行集群运算,如何部署和调度可以最高效率?
NVIDIA 高级系统架构师易成:
这个我们也有相关的方案,我们推荐一些架构比如DGX Pool 的上面有很多做集群管理调度的,Kubernets on NVIDIA GPU(KONG)是NVIDIA指定的调度软件,比如说还有DCGM(NVIDIA Data Center GPU Manage)等类似的调度系统。此外我们还会跟相关的存储公司、网络公司合作优化,因为数据流到了集群规模时已经不仅仅跟GPU相关,跟存储和网络都紧密相关,具体哪种方案是最优的,我们会有一些相关的架构推荐给开发者使用。