識別離羣值(也稱爲逸出值)的方法有多種,以下是幾種常用的方法:
四分位距(IQR)方法。首先找到第一四分位數(Q1)和第三四分位數(Q3),IQR是Q3減去Q1的值。然後,通過加上或減去1.5倍的IQR來定義上下界限。任何低於下界或高於上界的值都被視爲離羣值。
Z-score方法。萊茵達準則或拉依達準則。首先計算數據點的Z-score,即(數據點-樣本均值)/樣本標準差。通常,將滿足|Z-score|>3的條件的數據點視爲離羣值。
標準偏差法。使用數據的標準差來判斷數據點是否偏離了數據集。上界和下界是均值加上或減去3倍的標準差。
基於近鄰的方法。計算每個樣本點與它最近的K個近鄰點的距離。根據給定的距離閾值,將距離較大的點視爲離羣值。
Grubbs檢驗法和Dixon檢驗法。這兩種方法適用於一組數據中可能存在一箇或兩個離羣值的情況。它們通過計算統計量並與臨界值比較來判斷離羣值。
每種方法都有其適用場景和侷限性,具體選擇哪種方法取決於數據的特性、分析的目的以及對數據分佈的假設。