allreduce只是针对数据并行采取的方案吗，allreduce是不是每个节点都要保存模型全部参数，如果节点容纳不下怎么办

百度深度学习技术平台部资深研发工程师刘毅：

如果节点存放不下，就需要用模型并行方案，如我刚才PPT里介绍的大规模分类模型并行解决方案

NVIDIA 中国区HPC/DL 解决方案架构师程帅：

答案是不是的，首先若数据并行的，这种通信方式正好就是allreduce，所以就可以很好的去弄allreduce或者去调allreduce的去做计算，然后模型并行的话，也要根据你们模型并行的切分方式，去看它具体那个GPU之间的通信类型是什么，有可能是全部点对点的，也有可能是allreduce这种方式。比如NVIDIA有一个模型加数据并行的方案是针对NLP的，叫macro。在我们NV DL block里面就已经公开，它是在单台机器8个GPU之间做模型并行，然后再有64台机器就一共是500多万卡之间做数据运行，进行内部的模型并行的话，它的特征的话，正好也是一个64的特征。

问题来源

飞桨平台多GPU并行训练方案解析