自动混合精度训练,如何选择自动化的参数?其效果的评估标准是什么?
阿里巴巴高级算法工程师王梦娣:
混合精度的概念在于FP16和FP32的混合,利用TensorCore进行加速,这里面的基本原则是一样的,只是在图改写时,自动改写是基于规则,希望在图改写的情况下性能最优,所以在图改写的维度下是没有自动化超参的。对于训练过程中的超参,主要是一个维度,即loss-scale参数怎么超参,这个参数的选择涉及到auto loss-scale的概念,基本原则是提出一个反馈方式,来选择scale应该是变大还是变小。对于评估的标准,因为自动混合训练最担心的一个问题是精度是否下降,将自动混合精度训练的结果与FP32训练的结果进行对比,如果说两个gap不大,就认为自动混合精度在这个维度上是没有drop的,所以这里的维度主要由loss-scale控制。