allreduce只是针对数据并行采取的方案吗,allreduce是不是每个节点都要保存模型全部参数,如果节点容纳不下怎么办
百度深度学习技术平台部资深研发工程师刘毅:
如果节点存放不下,就需要用模型并行方案,如我刚才PPT里介绍的大规模分类模型并行解决方案
NVIDIA 中国区HPC/DL 解决方案架构师程帅:
答案是不是的,首先若数据并行的,这种通信方式正好就是allreduce,所以就可以很好的去弄allreduce或者去调allreduce的去做计算,然后模型并行的话,也要根据你们模型并行的切分方式,去看它具体那个GPU之间的通信类型是什么,有可能是全部点对点的,也有可能是allreduce这种方式。比如NVIDIA有一个模型加数据并行的方案是针对NLP的,叫macro。在我们NV DL block里面就已经公开,它是在单台机器8个GPU之间做模型并行,然后再有64台机器就一共是500多万卡之间做数据运行,进行内部的模型并行的话,它的特征的话,正好也是一个64的特征。