集成方法(Ensemble Learning)是一種提高機器學習模型性能的技術,它通過組合多個單獨模型的預測來獲得比單個模型更好的泛化能力和魯棒性。集成方法中常見的兩種基本策略是套袋法(Bagging)和提升法(Boosting)。
套袋法(Bagging):
原理:通過自助採樣法(Bootstrap sampling)從原始訓練集中隨機抽取樣本,生成多個不同的訓練集。
過程:對每個採樣集訓練一個基學習器,然後通過集合策略(如投票或計算平均值)將這些基學習器的預測結果結合起來。
隨機森林是Bagging的一個典型套用,它使用決策樹作為基學習器,並在樣本和特徵上引入隨機性。
提升法(Boosting):
原理:每輪訓練時使用全部樣本,並根據上一輪訓練的誤差調整樣本權重,使得錯誤樣本的權重增加,正確樣本的權重減小。
過程:從初始權重開始,訓練一個基學習器,然後根據該學習器的誤差率更新權重,再用更新後的權重訓練下一個基學習器,直到達到指定的疊代次數。
梯度提升是一種Boosting的方法,它使用代價函式對上一輪模型的偏導數來擬合殘差。
除了Bagging和Boosting,集成方法還包括Blending和Stacking,這些方法通過不同的方式組合基學習器的預測結果。集成方法已經成為數據科學家常用的工具,尤其在機器學習競賽中,許多獲勝方案都是基於集成方法的變種。