GPU卡的类型比较多,如何整合飞桨这样的平台
NVIDIA 中国区HPC/DL 解决方案架构师程帅:
这个问题可以从两部分来说,一部分是飞桨如何针对不同的GPU卡去做优化和支持,飞桨其实已经做了很好的工作,针对不同的卡的特性P40或V100,比如V100上有amp混合精度高,都会在飞桨里面去做好这样的姿势。另外一个角度来说,如果在一个集群里面有很多GPU卡类型,就要通过调度器去做这样的管理。比如说刚才我提到了有K8S或slam调度器,调度器里面可以支持不同的GPU卡类型的标签。有的K8S里面,你可以把这个不同的服务器,比如P40的服务器打上标签是P40,然后V100服务器打上标签是V100,甚至还可以有更新的标签,比如V100 16G、V100 32G这样的标签。然后你做GPU资源的申请的时候,你去跟你标签去申请不同的GPU,然后调度系统自动分配这样的GPU资源。然后在slam里面可能会更好的有资源池就是对接的概念,放在不同的队列,你放在不同的队列里面去请求。比如说这个队列里面的资源是全部是P40的,那个里面全部是V100的,然后你根据不同的队列名,它映射到不同的资源池,然后去请求不同的计算资源。总而言之的话,一个是Paddle本身可以做好不同的GPU类型的优化,另外一方面,调周期的话它会帮你做好更好的去灵活调度。