为何BatchNorm(BN)可以具有那样两个优点,有相关数学推理么?
NVIDIA 研究院首席研究科学家刘洺堉:
一是让surface比较平滑,二是parameter的位置,让negative和方向分开来,这个是在不同的论文上发表的,都有自己的证明,基本上在PDR的话,有列出相关出处,可以在那里得到相关的推导。