勵志

勵志人生知識庫

什麼是多重插補

一種處理缺失數據的方法

多重插補(Multiple Imputation, MI)是一種處理缺失數據的方法,它基於以下假設:缺失數據是隨機缺失(Missing At Random, MAR)。與簡單插補不同,多重插補會為缺失值創建多組插補方案,這就是「多重」的含義。這種方法通過模型估計和重複模擬生成一組完整的數據集,其中每個數據集中的缺失數據都會通過估計模型的方法進行填補。

多重插補考慮了觀測數據的分布來估計缺失數據的多個可能值,通過多次插補生成多個數據集。隨後,這些數據集被整合分析,以提供更準確和穩健的參數估計。Rubin在1978年首次提出了多重插補的概念,通常使用蒙特卡洛方法填補缺失數據,並且建議使用兩個或者更多的值來反映數據本身的機率分布。

多重插補的實踐通常包括三個步驟:①為每個空值產生一套可能的插補值,這些值反映了無回響模型的不確定性;②每個插補數據集合都用針對完整數據集的統計方法進行統計分析;③對來自各個插補數據集的結果,根據評分函式進行選擇,產生最終的插補值。