Lasso(Least Absolute Shrinkage and Selection Operator)是一種統計學習方法,由Robert Tibshirani於1996年首次提出。Lasso的核心思想是線上性回歸模型的損失函式後面添加L1範數的正則化項,即懲罰項。
Lasso的目標是最小化以下函式:
\[min_{\beta} \frac{1}{2}\left\|\mathbf{y}-\sum_{i=1}^{n} \mathbf{x}_{i} \beta_{i}\right\|_{2}^{2}+\lambda\|\beta\|_{1}\]
其中,\(\beta\)是模型的參數向量,\(\lambda\)是正則化參數,\(\|\cdot\|_{1}\)表示L1範數,即向量中元素的絕對值之和。
Lasso的主要優點包括:
子集選擇:Lasso可以強制一些回歸係數為0,從而實現子集選擇,提高模型的可解釋性。
特徵選擇:Lasso通過L1範數的懲罰,可以有效地選擇重要的特徵,避免過擬合。
多重共線性處理:Lasso能夠處理具有多重共線性的數據,儘管它的設計初衷並非專門針對多重共線性。
Lasso在Scikit-learn庫中可以通過`Lasso`類進行調用,該類支持多種參數設定和最佳化方法。