产品问答 - 英伟达AI计算专区 - 智东西

知识问答

飞桨平台是开放式平台吗？算力工厂是否可以为其提供GPU算力
百度深度学习技术平台部资深研发工程师刘毅：飞桨平台是开源开放的。算力可以参考下aist... 全文＞
请教老师，Recompute模式比不释放显存的方式会慢多少呢？请问有相应文章吗？
百度深度学习技术平台部资深研发工程师刘毅： recompute目前我们在自研阶段，今年N... 全文＞
1、动态图与静态图的优缺点是什么？其各自的适应场景是怎样的？ 2、线上推理引擎，单台机器内存无法容纳大模型，分布式方法有哪些？有什么优缺点？
NVIDIA 中国区HPC/DL 解决方案架构师程帅：动态图的优点就是可以及时的获取到... 全文＞
在大规模分布式训练过程中，如何做到计算和通信重叠？
NVIDIA 中国区HPC/DL 解决方案架构师程帅：在GPU里面的话，因为通信的过程... 全文＞

1、请问对于参数量巨大的预训练模型，有没有好办法解决OOM的问题 2、使用的HOROVOD分布式框架，PADDLEPADDLE还没试过，模型并行需要修改代码，得好好研究一下
百度深度学习技术平台部资深研发工程师刘毅：如果是OOM问题的话，比较推荐recompu... 全文＞
allreduce只是针对数据并行采取的方案吗，allreduce是不是每个节点都要保存模型全部参数，如果节点容纳不下怎么办
百度深度学习技术平台部资深研发工程师刘毅：如果节点存放不下，就需要用模型并行方案，如我... 全文＞
飞桨是否有结合k8s做多机多卡的方案？
百度深度学习技术平台部资深研发工程师刘毅：这块儿是有的，在我们内部有一个实验性质的平台... 全文＞
多GPU训练，如何比较好的资源调度做到程序稳定（多GPU的调度策略）？
NVIDIA 中国区HPC/DL 解决方案架构师程帅：这是一个就是GPU集群管理调度的... 全文＞

407条上一页 1.. 28 29 30 31 32 33 34 35 36 ..51 下一页