梯度消失是神經網路訓練中的一個常見問題,特別是在深層神經網路中更加顯著。
梯度消失指的是在網路的反向傳播過程中,用於更新網路權重的梯度變得非常小,以至於幾乎不對權重產生任何顯著的更新。這種現象通常發生在深層網路的較低層,即靠近輸入層的層。在深層網路中,由於鏈式求導法則的作用,如果每一層的梯度都小於1,那麼這些梯度值會隨著網路深度的增加而逐漸變小,最終變得非常接近於零。這導致深層網路的參數無法得到有效更新,使得網路無法學習到有效的特徵表示,進而影響模型的性能。
為了緩解梯度消失,可以採取多種方法,例如使用殘差連線、梯度裁剪、選擇適當的激活函式、使用合適的權重初始化方法(如Xavier初始化、He初始化)、套用正則化技術(如L1、L2正則化)以及批標準化等。