-
飞桨平台是开放式平台吗?算力工厂是否可以为其提供GPU算力
百度深度学习技术平台部资深研发工程师刘毅: 飞桨平台是开源开放的。算力可以参考下aist... 全文>
-
请教老师,Recompute模式比不释放显存的方式会慢多少呢?请问有相应文章吗?
百度深度学习技术平台部资深研发工程师刘毅: recompute目前我们在自研阶段,今年N... 全文>
-
1、动态图与静态图的优缺点是什么?其各自的适应场景是怎样的?
2、线上推理引擎,单台机器内存无法容纳大模型,分布式方法有哪些?有什么优缺点?
NVIDIA 中国区HPC/DL 解决方案架构师程帅: 动态图的优点就是可以及时的获取到... 全文>
-
在大规模分布式训练过程中,如何做到计算和通信重叠?
NVIDIA 中国区HPC/DL 解决方案架构师程帅: 在GPU里面的话,因为通信的过程... 全文>
-
1、请问对于参数量巨大的预训练模型,有没有好办法解决OOM的问题
2、使用的HOROVOD分布式框架,PADDLEPADDLE还没试过,模型并行需要修改代码,得好好研究一下
百度深度学习技术平台部资深研发工程师刘毅: 如果是OOM问题的话,比较推荐recompu... 全文>
-
allreduce只是针对数据并行采取的方案吗,allreduce是不是每个节点都要保存模型全部参数,如果节点容纳不下怎么办
百度深度学习技术平台部资深研发工程师刘毅: 如果节点存放不下,就需要用模型并行方案,如我... 全文>
-
飞桨是否有结合k8s做多机多卡的方案?
百度深度学习技术平台部资深研发工程师刘毅: 这块儿是有的,在我们内部有一个实验性质的平台... 全文>
-
多GPU训练,如何比较好的资源调度做到程序稳定(多GPU的调度策略)?
NVIDIA 中国区HPC/DL 解决方案架构师程帅: 这是一个就是GPU集群管理调度的... 全文>