https://arxiv.org/abs/2009.12836
TRAMI 2023
针对DNN中的Normalization技术的一篇综述。
五种方法:
补充知识
Fisher information
补充 知乎
使用K-FAC近似估计网络的FIM
梯度消失和梯度爆炸
梯度消失
反向传播时,由于网络层数可能较多、选择的激活函数特性等原因使得梯度越来越小,导致接近于零,某些权重无法更新。
梯度爆炸
反向传播时,梯度越传越大,网络参数不稳定。
解决方法
减少网络层数、更换激活函数、增加/减小学习率、batch Normalization、残差网络、L1 L2正则化、梯度裁剪等。
Covariate shift
如果您喜欢此博客或发现它对您有用,则欢迎对此发表评论。 也欢迎您共享此博客,以便更多人可以参与。 如果博客中使用的图像侵犯了您的版权,请与作者联系以将其删除。 谢谢 !