盒型圖(箱形圖)是一種用於顯示一組數據分佈的圖表,它包含了以下幾個關鍵元素和信息:
中橫線:表示數據的中位數。
IQR(四分位距):是75%分位數(Q3)和25%分位數(Q1)之間的差異,即IQR = Q3 - Q1。
最小觀察值(下邊緣):通常定義爲Q1 – 1.5 IQR。
最大觀察值(上邊緣):通常定義爲Q3 + 1.5 IQR。
盒型圖中的特定元素代表的含義如下:
下邊緣:表示數據中的最小觀察值,但並不一定是數據的真正最小值。
上邊緣:表示數據中的最大觀察值,但並不一定是數據的真正最大值。
離羣點:如果數據中存在超出上下邊緣的點,這些點被視爲離羣點,並在盒型圖中以圓點的形式標出。
通過盒型圖,我們可以:
識別異常值:離羣點的存在可能指示數據中存在異常值。
比較數據分佈:盒型圖適用於比較不同類別數據的數據分佈情況。
判斷數據的偏斜程度:中位數所處的高低位置可以反映數據的偏斜程度。
評估數據的離散程度:箱型圖的長度和上下虛線的長度可以反映數據的離散程度和方差。
在實際應用中,盒型圖常用於數據分析的預處理階段,幫助研究者識別和處理異常值,以確保數據分析的準確性和可靠性。