短视频推荐算法引擎应用场景中,如何解决多卡负载利用率低的瓶颈?硬件还是软件优化?举例最好
NVIDIA数据科学家徐添豪:
我的理解它是分2块,第一块是在硬件上,就是在CPU和GPU的配比上可以做一些考虑。包括像之前GTC上百度介绍的一些内容,其实会涉及到整个大embedding table怎么去做多级的cache。软件上并不是所有的模型拿过来在同一个机器上效果都是一样的,比如在真正的运行部分,它的比例不太一样,那这时候GPU上的利用率肯定是不一样的;优化它在GPU上的利用率一方面可能会让算法变得越来越复杂,另外又回到硬件的问题上,你可以去考虑在硬件CPU、GPU配比的情况下,能不能做一些优化。