因果森林算法是一種基於隨機森林的因果推斷方法,它通過特定的技術和步驟來實現無偏估計,以下是該算法的三個關鍵功能:
樣本採樣。通過bootstrap方法對數據進行採樣,並對每棵樹的分裂進行處理。將樣本套用到樹上後,將得到的葉子節點的預測值聚合求均值,並作為該樹的預測。最後,將所有樹的預測聚合起來,得到樣本的最終預測均值。
誠實估計。使用兩組不交叉的數據,其中一組用於確定樹的結構,另一組用於確定估計量,這樣可以保證樹的無偏性。
最大異質性分裂。在每個節點分裂時,目的是最大化左右葉子節點間的異質性,確保同一葉子節點內的樣本具有同質性。這樣,樹在找到特徵後會分裂左右葉子節點,並在這些節點下進行回歸分析。這種方法可以保證左右節點間因果效應的差異最大化,即異質性最大。
因果森林廣泛套用於處理補貼或增長場景中的因果效應問題,因為它只在那些對因果效應提供信息的特徵上進行分裂。相比之下,傳統的回歸模型(如神經網路)將所有特徵一起用於預測結果本身(Y),而不是因果效應(∆Y),這可能導致估計不準確。