1、请问对于参数量巨大的预训练模型,有没有好办法解决OOM的问题 2、使用的HOROVOD分布式框架,PADDLEPADDLE还没试过,模型并行需要修改代码,得好好研究一下
百度深度学习技术平台部资深研发工程师刘毅:
如果是OOM问题的话,比较推荐recompute。或者对模型参数比较熟悉,也可以执行做模型并行,不过执行做模型并行的话,有些难度,执行->自行。
如果你使用HOROVOD框架的话,不管为什么模式,你可能都得修改代码,可能就改框架的代码。如果是Paddle的话,安卓的模型库里面是否是有你需要的预训练的模型,可以先看看我们Git hub上面Paddle项目里面有1个models的一个项目。