在什么情况下需要用到GPU并行计算,也即什么样的任务或者说什么量级的数据会需要用集群?
西安交通大学人工智能与机器人研究所博士陶小语:
有很多场景都会用到大规模GPU并行集群,正如我在PPT中介绍的,比如百度的语音识别系统,网络模型有3亿个参数,需要20 亿亿次EFLOPS 计算量;谷歌的自然语言翻译系统,有87亿个参数,需要100亿亿次计算量。这些神经网络模型做训练,都需要GPU集群。
NVIDIA高级系统架构师易成:做多GPU并行,主要针对算力要求非常高的场景,比如训练大规模数据集,像刷ImageNet,COCO等。或是处理大量的监控视频等。对于高校科研,在小数据集上调算法,几块卡就够了,除非是做网格式调参可能需要一个集群。