NVIDIA AI 计算专区
首页
|
最新资讯
|
精彩活动
|
NVIDIA AI 大讲堂
|
白皮书下载
产品推荐
知识问答
登录
注册
在大规模分布式训练过程中,如何做到计算和通信重叠?
NVIDIA 中国区HPC/DL 解决方案架构师程帅:
在GPU里面的话,因为通信的过程中和训练过程中其实底层都是CUDA,然后对于CUDA,它可以通过多流的方式做到有计算是一个或一些kernel,然后放在一个Stream里,通信的话你可以放到另外一个Stream里,Stream之间可以是它原生的,可以去根据GPU资源做到一个通信和计算的隐藏,然后可以做一个比较好的性能的增加,这个是通过Stream去做的。
登录查看完整答案
问题来源
飞桨平台多GPU并行训练方案解析
分享至: