请教老师,Recompute模式比不释放显存的方式会慢多少呢?请问有相应文章吗?
百度深度学习技术平台部资深研发工程师刘毅:
recompute目前我们在自研阶段,今年NIPS有一些相关文件可以搜索了解一下。
性能慢的幅度跟具体模型有关,目前已知resnet50模型损失最大值是35%