梯度消失和梯度爆炸是深度學習中常見的兩個問題,它們發生在神經網路進行反向傳播訓練時。
梯度消失:
梯度消失是指模型梯度在反向傳播過程中,梯度值接近零,導致模型權重不能正常更新,從而使模型無法正常收斂的現象。
在神經網路中,梯度消失表現為隨著隱藏層數目的增加,靠近輸入層的網路層計算的偏導數近乎零,導致這些層的權重幾乎無法得到更新。
梯度消失的根本原因在於反向傳播訓練法則(BP算法),在使用梯度下降法對誤差進行反向傳播時,由於求偏導累乘而出現趨於0的問題。
梯度爆炸:
梯度爆炸是指模型梯度在反向傳播過程中,梯度值無限擴大,導致模型權重趨於無窮,從而使模型無法正常收斂的現象。
在神經網路中,梯度爆炸表現為靠近輸入層的網路層計算的偏導數極其大,更新後權重變成一個很大的數(爆炸)。
梯度爆炸的根本原因同樣在於反向傳播訓練法則,由於求偏導累乘而出現趨於無窮大的問題。
總結來說,梯度消失和梯度爆炸都是由於神經網路在訓練過程中,梯度信息隨著網路深度的增加而衰減或放大,導致模型權重更新不均勻,影響模型的訓練效果。