如何利用多GPU如1080ti来提高模型的训练速度呢
字节跳动智能语音方向工程负责人司徒文畅:
目前有用 MPI 和 NCCL 的,单机用 NvLink 通信,多机用 RDMA