【文献阅读】Normalization Techniques in Training DNNs:Methodology, Analysis and Application

Posted by UUQ on 2024-09-23
Estimated Reading Time 1 Minutes
Words 173 In Total
Viewed Times

https://arxiv.org/abs/2009.12836

TRAMI 2023

针对DNN中的Normalization技术的一篇综述。

五种方法:

补充知识

Fisher information

补充 知乎

使用K-FAC近似估计网络的FIM

梯度消失和梯度爆炸

梯度消失

反向传播时,由于网络层数可能较多、选择的激活函数特性等原因使得梯度越来越小,导致接近于零,某些权重无法更新。

梯度爆炸

反向传播时,梯度越传越大,网络参数不稳定。

解决方法

减少网络层数、更换激活函数、增加/减小学习率、batch Normalization、残差网络、L1 L2正则化、梯度裁剪等。

Covariate shift

PDF with notes


如果您喜欢此博客或发现它对您有用,则欢迎对此发表评论。 也欢迎您共享此博客,以便更多人可以参与。 如果博客中使用的图像侵犯了您的版权,请与作者联系以将其删除。 谢谢 !