盒狀圖,也稱爲箱形圖或箱線圖,是一種展示一組數據分佈特徵的統計圖表。它通過繪製上邊緣、下邊緣、中位數、下四分位數和上四分位數來反映數據的分散情況,並進行多組數據分佈特徵的比較。
以下是箱形圖的主要組成部分及其含義:
上邊緣和下邊緣:圖中上下兩個短橫線,代表統計數據的最大值與最小值。
中位數:代表統計數據的中位數,相對於均值,中位數對噪聲的影響不明顯,因此更加常用。
下四分位數:即數據中25%的值小於該值。
上四分位數:即數據中75%的值小於該值。
箱形圖的形狀可以提供關於數據分佈的額外信息:
如果箱形圖很短,這意味着大部分數據點都相似,因爲大多數值在很小的範圍內。
如果箱形圖很高,這意味着大部分數據點都非常不同,因爲這些值分佈在很廣的範圍內。
如果中值接近底部,那麼我們知道大多數數據具有較低的值。如果中值接近頂部,那麼我們知道大多數數據具有更高的值。所以,如果中值的線不在框的中間,則表明數據分佈不均勻。
如果有長尾,這意味着數據具有較高的標準偏差和方差,即數值分散且變化很大。如果盒子的一側有須,而另一側沒有,那麼統計數據可能只在一箇方向上變化很大。
通過觀察箱形圖,可以方便地檢查數字的完整性和準確性,以及進行對比分析。