1、老师有推荐的水冷GPU服务沒,我在北京只找到一家叫蓝海云的在做。 2、是不是GPU卡越多越好
NVIDIA 中国区HPC/DL 解决方案架构师程帅:
液冷的GPU服务器,现在就更多的还是一个冷管的液冷方式,不是那种浸泡式的液冷,然后冷管式的GPU的话,NVIDIA有一款性能要比服务器性能相当的一个工作站叫DJX Station,里面是有1颗CPU带着8颗NVlink的GPU,然后是通过一种特殊的液体,冷管盘在GPU上面去把GPU的热量带走,然后这样的一个液冷的服务器。液冷的工作站的工艺还有散热效果做得非常好,所以它那个静音效果是非常好的,然后放在你的那个办公室里面也没有一点噪音,这是NV他们给推荐的,然后百度他们也做了一个,就把8卡V100的一个服务器,然后是通过液冷的方式去做,然后可以通过公有云或是一些私有云的方式去从百度那边去那个采购的这个就是这种液冷的GPU服务器。
NVIDIA Model parallel sample: https://devblogs.NVIDIAidia.com/training-bert-with-GPUs/
很多的实践发现,对于特定的一个模型的话,GPU卡个数越多,随着训练的增加模型的精度到一定程度的时候是平缓,然后是下降的。所以既然它速度提升了,但是精度下降的,需要你针对你特定的模型,在速度和模型精度之间做一个权衡,去选一个比较优的,可以接受的一个方案。前期需要你做很多的一个实验和测试,然后要训练到一个特征精度,可能需要花一些时间。