什麼叫梯度消失和梯度爆炸

梯度消失和梯度爆炸是深度學習中常見的兩個問題，它們發生在神經網路進行反向傳播訓練時。

梯度消失：

梯度消失是指模型梯度在反向傳播過程中，梯度值接近零，導致模型權重不能正常更新，從而使模型無法正常收斂的現象。

在神經網路中，梯度消失表現為隨著隱藏層數目的增加，靠近輸入層的網路層計算的偏導數近乎零，導致這些層的權重幾乎無法得到更新。

梯度消失的根本原因在於反向傳播訓練法則（BP算法），在使用梯度下降法對誤差進行反向傳播時，由於求偏導累乘而出現趨於0的問題。

梯度爆炸：

梯度爆炸是指模型梯度在反向傳播過程中，梯度值無限擴大，導致模型權重趨於無窮，從而使模型無法正常收斂的現象。

在神經網路中，梯度爆炸表現為靠近輸入層的網路層計算的偏導數極其大，更新後權重變成一個很大的數（爆炸）。

梯度爆炸的根本原因同樣在於反向傳播訓練法則，由於求偏導累乘而出現趨於無窮大的問題。

總結來說，梯度消失和梯度爆炸都是由於神經網路在訓練過程中，梯度信息隨著網路深度的增加而衰減或放大，導致模型權重更新不均勻，影響模型的訓練效果。